Semalt : l'étrange robot qui pollue nos SERPs

Semalt : l'étrange robot qui pollue nos SERPs -
Robots spammeurs et résultats dans Google

Petite anecdote de webmaster : M'apercevant il y a quelques semaines, que deux sites référents polluaient mes statistiques Google Analytics (plusieurs centaines de visites par jours), je décidais d'y mettre fin par quelques lignes dans le HTACCESS. 

Ces deux sites sont Semalt[dot]com et buttons-for-website[dot]com. 

Le premier est un robot (botnet) qui visite tout le web pour engranger des informations utilisées dans les outils d’analyse qu'il vend. Le second est un service web qui propose des boutons de partage pour le web (mais sans doute pas que...).

Contrôle de routine : 

Hier soir tapant machinalement site:xtendo.fr dans la barre d'adresse de mon navigateur pour contrôler l'indexation de mon site professionnel, je remarque avec stupeur que le titre et la description donnée pour la racine de ce dernier sont remplacées par celles de Semalt. Bug de Google (Voir la capture cidessous), Erreur dans le .htaccess... ? 

Je contrôle dans les autres moteurs tels que bing et duckduckgo, puis dans les webmaster Tools, là tout est normal. 

Vérifications et prise d'information : 

  • Premièrement je recherche si ce cas est déjà arrivé à d'autres sites que le mien, recherche en français, recherche en anglais, NADA.
  • Je contrôle mon code dans le Htaccess, pas d'erreur...
  • Je vois qu'il y a d'autre alternatives de blocage du moteur de Semalt via le site lui-même à cette adresse "http://semalt[dot]com/project_crawler.php". Où un champ de formulaire permet de retirer un ou plusieurs sites de sa liste de crawl. J'y colle ligne par ligne la liste de mes principaux sites internet.
  • Je retourne sur les Webmaster Tools de Google pour demander une ré-indexation de la page d'accueil.

Une heure plus tard... 

Je retape un "site:xtendo.fr" dans Google et cette fois, je remarque que ma page d'accueil est absente de la liste des résultats et que le fichier index.php normalement en redirection 301 sur la racine est dans la liste... Quelques remaniements sont en cours dans le moteur... Là-dessus "dodo".

Le lendemain matin, épilogue : 

Evidement au réveil, j'ai la curiosité impérieuse de savoir si ma page d'accueil à retrouver son "title" et sa "description". La douche est rapide... J'allume et je me "googlelise" directement d'un "Xtendo Poitiers" : Tout est revenu dans l'ordre ! Je fais "site:xtendo.fr" et idem, ma page d'accueil est de retour avec tous ses attributs originels.

Conclusion : 

A cette heure je ne sais pas ce qu'il s'est réellement passé, ni laquelle de mes actions à résolu le problème. Je vais faire quelques tests pour en avoir le coeur net et je vous ferais part des résultats. S'il est arrivé à l'un d'entre vous la même mésaventure, je serais heureux que nous puissions échanger à ce sujet. 

Pour finir je dirais qu'au vu des pratiques particulières de Semalt[dot]com et buttons-for-website[dot]com, il ne vaut mieux pas utiliser leur services, non-respect des guidelines, crawl incessant et brutal... 


Pour continuer votre lecture sur la thématique Visibilité internet

Partager l'article sur :

Lien permanent :

Tags : Visibilité internet, Moteurs de recherche, Audit site internet,

Commenter et noter cet article

Les commentaires pour cet article