Pages vues depuis Mai 2001 : 103 224 440
Web Pro : VoilaBot - le crawler de voilaPosté par : developpeurDepuis quelques temps, de nombreux webmestres se plaignent de la vitesse de crawl (indexation) de Voila. En effet son robot "VoilaBot", indexe fortement les sites du rayon "France" depuis 2008. En soit ce n'est pas un problème sauf que la vitesse d'indexation, le type de requêtes et la charge générée sont simplement aberrants et de nature à "étouffer" même un gros serveur ! VoilaBot ne respect en général pas les directives de votre fichier robots.txt donc User-agent: VoilaBot ne marche pas.VoilaBot cherche des URL qui n'existe pas sur votre site et génére donc des erreurs dans son référencement. Les tranches d'adresses actuelles (que j'ai pu trouver) qui corresponde à natcrawlbloc (prefixe du crawler) : 193.252.149.13 à 16 et 81.52.143.13 à 16 ce qui correspond à Reste la solution via le fichier .htaccess qui sera efficace au niveau http (mais pas au niveau IP - là il n'y a qu'un Firewall qui pourr agir) deny from 193.252.149.13 fonctionne (si vous voulez quand même être indexé par Voila / ne mettez qu'une des deux tranches d'IP dans votre .htaccess).Cela dure depuis plus d'un an sans que Voila ne fasse aucune modification de son "machin" ... allez savoir pourquoi !!! mais vous voilà (haha) informé. |
Temps : 0.0529 seconde(s)