logo

NPDS : Gestion de contenu et de communauté


Content & Community Management System (CCMS) robuste, sécurisé, complet, performant, parlant vraiment français, libre (Open-Source) et gratuit.
14 visiteur(s) et 0 membre(s) en ligne.
Activité du Site

Pages vues depuis 25/05/2001 : 104 986 711

  • Nb. de membres 8 691
  • Nb. d'articles 1 694
  • Nb. de forums 25
  • Nb. de sujets 8
  • Nb. de critiques 92

Top 10  Statistiques

Web Pro : VoilaBot - le crawler de voila 5964


Depuis quelques temps, de nombreux webmestres se plaignent de la vitesse de crawl (indexation) de Voila.

En effet son robot "VoilaBot", indexe fortement les sites du rayon "France" depuis 2008. En soit ce n'est pas un problème sauf que la vitesse d'indexation, le type de requêtes et la charge générée sont simplement aberrants et de nature à "étouffer" même un gros serveur !

VoilaBot ne respect en général pas les directives de votre fichier robots.txt donc
User-agent: VoilaBot
Disallow: /
ne marche pas.

VoilaBot cherche des URL qui n'existe pas sur votre site et génére donc des erreurs dans son référencement.

Les tranches d'adresses actuelles (que j'ai pu trouver) qui corresponde à natcrawlbloc (prefixe du crawler) : 193.252.149.13 à 16 et 81.52.143.13 à 16 ce qui correspond à

Reste la solution via le fichier .htaccess qui sera efficace au niveau http (mais pas au niveau IP - là il n'y a qu'un Firewall qui pourr agir)
deny from 193.252.149.13
...
deny from 193.252.149.16
deny from 81.52.143.13
...
deny from 81.52.143.16
fonctionne (si vous voulez quand même être indexé par Voila / ne mettez qu'une des deux tranches d'IP dans votre .htaccess).

Cela dure depuis plus d'un an sans que Voila ne fasse aucune modification de son "machin" ... allez savoir pourquoi !!! mais vous voilà (haha) informé.

developpeur Publié le : Samedi 21 mars 2009 à 18:03