Ce qu’il faut retenir de ce billet(update 10/11/2012 -14:02)
- Le déréférencement de liens obsolètes peut être complexe car le robot Google peut être bloqué par les mauvais choix techniques des webmestres en matière de suppression de données.
- L’outil Google d’accélération de la suppression du déréférencement est accessible à tous.
- “Sur Internet, lorsqu’un contenu est supprimé, on peut toujours le trouver dans les moteurs de recherche” : C’est VRAI… mais on peut souvent agir !
Ce billet répond à un échange de commentaires que j’ai pu avoir avec Olivier Z suite à la publication du quizz, le Bon Sens Numérique, propulsé par AXA prévention.
A la question :
“Sur Internet, lorsqu'un contenu est supprimé, on peut toujours le trouver dans les moteurs de recherche ?”
La réponse du quizz était : FAUX !
Olivier, dans ses commentaires, maintenait que la réponse d’AXA était justifiée.
J’ai apporté une réponse d’un point de vue fonctionnel dans les commentaires de ce billet : https://www.mavieprivee.fr/blog/axa-doit-repasser-son-permis-du-bon-sens-numerique-2-2-vie-privee
Je vais répondre ici d’un point de vue technique, mon objectif étant de vous démontrer par des exemples concrets que le cache de Google peut être difficilement supprimable (ou pas supprimable du tout) même si le contenu source est déjà supprimé.
Pour cela, reprenons point par point les éléments du commentaire d’Olivier, assez caractéristique de ce que les gens pensent.
«Tout comme les pages sont mises à jour, le cache est lui-même mis à jour»
C’est à la fois vrai et faux. Le cache est mis à jour si c’est possible techniquement (ou si Google reçoit une demande «juridique» pour le faire).
Dans le cas d’une suppression, il faut que la page retourne un code retour dans l'entête http 410 ou 404. ( Recommandation Google)
Dans certains cas, d’autres codes retours sont acceptés (même si Google ne l'indique pas) mais en gros il faut viser un 404 ou un 410 pour être tranquille. Parole de nettoyeur du net !
Par conséquent, le moteur de recherche ne mettra pas à jour son cache et nous aurons donc toujours un accès à «l’image» du contenu supprimé.
Autre exemple, en dehors de la redirection «maladroite» sur une page valide : l’indexation de vidéos Youtube sur des annuaires exotiques avec les mots clefs dans l’url.
Disons que je télécharge une vidéo ayant pour titre “toto titi” dans Youtube. Ma vidéo est reprise sur des annuaires de vidéos exotiques.Youtube (ou autre) supprime proprement la vidéo avec une belle page 404. La vidéo est donc également inaccessible dans l’annuaire. Toutefois ce dernier conserve sa page avec une vidéo inaccessible. Du coup cette page reste indexée sur les moteurs de recherches.
Cet exemple montre bien que, oui, même si on supprime un contenu, on peut toujours le retrouver dans les moteurs de recherche.
Note : voici un exemple de message de Google qui ne peut pas mettre à jour son cache sur un site qui a été modifié, et dont un contenu a été supprimé. https://www.google.com/support/webmasters/bin/shortanswer.py?answer=63757&hl=fr
Revenons sur un point important.
Olivier indique dans son commentaire :
Le cache est mis à jour «soit manuellement à la demande du webmestre, soit automatiquement par le moteur lui-même.»
En réalité, les webmestres n’utilisent cet outil que pour faire du ménage dans leurs urls. On remarquera qu’il s’agit souvent de webmestres faisant du SEO sur leurs propres sites. Ils passent pour cela directement par les webmaster tools et non pas pas l'outil publique de google. (C'est le même outil je suppose, mais la description est différente)
Il est très rare, dans le cas des demandes de suppression de données, que les webmestres s’occupent de cette mise à jour à la simple demande d’un particulier. J’ai traité plusieurs centaines de suppression de données et jamais le webmestre n’a demandé une réindexation après avoir supprimé ou modifié un contenu.
D’ailleurs, dans bien des cas, ils ne connaissent pas ces fonctionnalités et m’adressent ce genre de message : « nous ne sommes pas responsables des méthodes de référencement de Google »
«soit automatiquement par le moteur lui-même.»Dans certains cas, on peut attendre très longtemps…
Même sur facebook, on trouve des cas où des image supprimées depuis plusieurs mois sont toujours présentes dans Google image.
Alors je vous l’accorde, ce temps d’attente (plusieurs mois) peut paraître dérisoire, mais pour un particulier confronté à cette problématique, c’est une éternité !
Olivier commet la même “imprécision” que la CNIL (cf ce billet), cette remarque est juste mais incomplète. En effet l’outil de demande de réindexation de Google est OUVERT A TOUS ! Il suffit d’avoir un compte Google, pas besoin de boite Gmail, juste un compte Google… (cf mon précédent billet)
Le lien pour accéder à cet outil est le suivant : https://www.google.com/webmasters/tools/removals
Ce qu'il faut retenir .
- Le déréférencement de liens obsolètes peut être complexe car le robot Google peut être bloqué dans son action par les mauvais choix techniques des webmestres en matière de suppression de données.
- L'outil Google d'accélération de la suppression du déréférencement est accessible à tous.
- “Sur Internet, lorsqu’un contenu est supprimé, on peut toujours le trouver dans les moteurs de recherche” : C'est VRAI… mais on peut souvent agir !
Je cite essentiellement Google quand je parle de moteur de recherche car aujourd’hui c’est le plus utilisé en France, donc le plus exposé à ces problématiques. D’ailleurs, l’outil proposé par Google est ouvert depuis déjà plusieurs années…
Mais les autres moteurs de recherche (Bing, Yahoo) avancent également sur le sujet…