(update 10/11/2012 -14:02)

Ce qu’il faut retenir de ce billet
  1. Le déréférencement de liens obsolètes peut être complexe car le robot Google peut être bloqué par les mauvais choix techniques des webmestres en matière de suppression de données.
  2. L’outil Google d’accélération de la suppression du déréférencement est accessible à tous.
  3. “Sur Internet, lorsqu’un contenu est supprimé, on peut toujours le trouver dans les moteurs de recherche” : C’est VRAI… mais on peut souvent agir !
le Bon Sens Numérique

Ce billet répond à un échange de commentaires que j’ai pu avoir avec Olivier Z suite à la publication du quizz, le Bon Sens Numérique, propulsé par AXA prévention.

A la question :

“Sur Internet, lorsqu'un contenu est supprimé, on peut toujours le trouver dans les moteurs de recherche ?”

Ma réponse était : Vrai
La réponse du quizz était : FAUX !

Olivier, dans ses commentaires, maintenait que la réponse d’AXA était justifiée.
J’ai apporté une réponse d’un point de vue fonctionnel dans les commentaires de ce billet : https://www.mavieprivee.fr/blog/axa-doit-repasser-son-permis-du-bon-sens-numerique-2-2-vie-privee

Je vais répondre ici d’un point de vue technique, mon objectif étant de vous démontrer par des exemples concrets que le cache de Google peut être difficilement supprimable (ou pas supprimable du tout) même si le contenu source est déjà supprimé.

Pour cela, reprenons point par point les éléments du commentaire d’Olivier, assez caractéristique de ce que les gens pensent.

«Tout comme les pages sont mises à jour, le cache est lui-même mis à jour»

C’est à la fois vrai et faux. Le cache est mis à jour si c’est possible techniquement (ou si Google reçoit une demande «juridique» pour le faire).

Dans le cas d'une modification, si la page est toujours accessible, le cache se met effectivement à jour au prochain passage de Google, ou suite à une demande manuelle de ré-indexation.

Une histoire de 404…

Dans le cas d’une suppression, il faut que la page retourne un code retour dans l'entête http 410 ou 404. ( Recommandation Google)
Dans certains cas, d’autres codes retours sont acceptés (même si Google ne l'indique pas) mais en gros il faut viser un 404 ou un 410 pour être tranquille. Parole de nettoyeur du net !

Parfois, on doit faire face à des suppressions de contenu réalisée sous la forme de redirections « tordues » de pages qui retournent un code 200 par exemple. Or, avec un code 200, Google ne voit pas que le contenu est bien supprimé.

Par conséquent, le moteur de recherche ne mettra pas à jour son cache et nous aurons donc toujours un accès à «l’image» du contenu supprimé.

Nous voici au cœur du problème de la suppression de données sur le web qui gêne tout le monde et en premier lieu les webmestres qui ne veulent pas forcément prendre en charge ces démarches ! Certains ne savent pas le faire techniquement ou alors le font mal.

La recopie de contenus

Autre exemple, en dehors de la redirection «maladroite» sur une page valide : l’indexation de vidéos Youtube sur des annuaires exotiques avec les mots clefs dans l’url.
Disons que je télécharge une vidéo ayant pour titre “toto titi” dans Youtube. Ma vidéo est reprise sur des annuaires de vidéos exotiques.Youtube (ou autre) supprime proprement la vidéo avec une belle page 404. La vidéo est donc également inaccessible dans l’annuaire. Toutefois ce dernier conserve sa page avec une vidéo inaccessible. Du coup cette page reste indexée sur les moteurs de recherches.

Si je recherche dans Google «toto titi», mots clefs contenus dans l’url de l’annuaire exotique, j’obtiens bien un résultat avec une description de page et un cache. Dans ce cas, le cache peut représenter l’image de présentation de la vidéo. Certes on ne pourra pas la “jouer”, mais on pourra retrouver le contenu. L’info est supprimée à la source, mais pas dans Google…

Cet exemple montre bien que, oui, même si on supprime un contenu, on peut toujours le retrouver dans les moteurs de recherche.

Note : voici un exemple de message de Google qui ne peut pas mettre à jour son cache sur un site qui a été modifié, et dont un contenu a été supprimé. https://www.google.com/support/webmasters/bin/shortanswer.py?answer=63757&hl=fr

Revenons sur un point important.
Olivier indique dans son commentaire :

Le cache est mis à jour «soit manuellement à la demande du webmestre, soit automatiquement par le moteur lui-même.»

 «soit manuellement à la demande du webmestre»

En réalité, les webmestres n’utilisent cet outil que pour faire du ménage dans leurs urls. On remarquera qu’il s’agit souvent de webmestres faisant du SEO sur leurs propres sites. Ils passent pour cela directement par les webmaster tools et non pas pas l'outil publique de google. (C'est le même outil je suppose, mais la description est différente)

Il est très rare, dans le cas des demandes de suppression de données, que les webmestres s’occupent de cette mise à jour à la simple demande d’un particulier. J’ai traité plusieurs centaines de suppression de données et jamais le webmestre n’a demandé une réindexation après avoir supprimé ou modifié un contenu.

D’ailleurs, dans bien des cas, ils ne connaissent pas ces fonctionnalités et m’adressent ce genre de message : « nous ne sommes pas responsables des méthodes de référencement de Google »

«soit automatiquement par le moteur lui-même.»

Dans certains cas, on peut attendre très longtemps…
Même sur facebook, on trouve des cas où des image supprimées depuis plusieurs mois sont toujours présentes dans Google image.
Alors je vous l’accorde, ce temps d’attente (plusieurs mois) peut paraître dérisoire, mais pour un particulier confronté à cette problématique, c’est une éternité !

Le déréférencement est AUSSI accessible à tous !

Olivier commet la même “imprécision” que la CNIL (cf ce billet), cette remarque est juste mais incomplète. En effet l’outil de demande de réindexation de Google est OUVERT A TOUS ! Il suffit d’avoir un compte Google, pas besoin de boite Gmail, juste un compte Google… (cf mon précédent billet)

Le lien pour accéder à cet outil est le suivant : https://www.google.com/webmasters/tools/removals
 

Ce qu'il faut retenir .

  1. Le déréférencement de liens obsolètes peut être complexe car le robot Google peut être bloqué dans son action par les mauvais choix techniques des webmestres en matière de suppression de données.
  2. L'outil Google d'accélération de la suppression du déréférencement est accessible à tous.
  3. “Sur Internet, lorsqu’un contenu est supprimé, on peut toujours le trouver dans les moteurs de recherche” : C'est VRAI… mais on peut souvent agir !


Je cite essentiellement Google quand je parle de moteur de recherche car aujourd’hui c’est le plus utilisé en France, donc le plus exposé à ces problématiques. D’ailleurs, l’outil proposé par Google est ouvert depuis déjà plusieurs années…
Mais les autres moteurs de recherche (Bing, Yahoo) avancent également sur le sujet…