Plagiat et Duplicate ContentLe filtre Duplicate Content est un filtre permettant de détecter les sites qui proposent tout simplement du contenu d'autres sites.
Google mentionne que l'utilité de ce filtre est, en premier lieu, de proposer aux internautes des résultats pertinents en évitant notamment que des pages présentants des contenus similiaires. J'ai déjà fait un article concernant un Duplicate Content, lors des Journées du Patrimoine. Voici un autre exemple très parlant, qui montre le manque de performance de ce filtre, ou l'utilisation que Google pourrait en faire.
Prenons une recherche Google sur "Lady Diana" :
En 2ème position apparaît le site JeSuisMort.com, qui présente une biographie exhaustive de Lady Diana. En bas de la page on trouve un renvoi (lien en dur) vers la source de cette biographie. Il faut cependant cliquer sur un lien pour déplier un div masquant le renvoi vers la source de cette biographie.
Et en descendant plus bas dans la page, on trouve des renvois vers 2 autres sites qui proposent eux aussi des biographies de Lady Diana.
Voici les urls des 2 sites :
et voici la page sur laquelle nous nous trouvons actuellement :
On en déduit aisément qu'il s'agit des mêmes sites vu la fin des urls, et le même ID de la célébrité.
Ensuite, en se rendant sur ces 2 sites en question, on s'aperçoit que chacun des sites propose une reprise du site initial, et chacun fait un renvoi vers les 2 autres sites :
Bravo ! A partir de contenus produits par d'autres personnes, le propriétaire du site a créé un ring de 3 sites qui renvoient tous les uns vers les autres... et grâce aux liens sponsorisés ou déguisés en éditorial, se rémunère facilement.
Google n'est pas capable de détecter que les contenus de ces 3 sites sont les mêmes. Chacun propose un début de page un tant soit peu différent, de sorte que le filtre Duplicate Content de Google n'est pas efficace. Mais sincèrement, est-ce que Google a intérêt a condamner ce genre de pratiques (au vu des sommes importantes que sont reversées à Google via les liens sponsoriés) sauf si ce genre de comportement est pointé du doigt et que l'image de Google soit remise en cause. Sur la détection du plagiat, il me semble que Wikipedia a mis en place une solution qui vise à trouver les pages reprenant le début de leurs propres pages :
Pour info, voici ce que dit Google à propros du Duplicate Content (contenu dupliqué) : What is Duplicate Content? What isn't Duplicate Content? Why does Google care about Duplicate Content? What does Google do about it? |
Home (sweet home)
|