Plagiat et Duplicate Content

Le filtre Duplicate Content est un filtre permettant de détecter les sites qui proposent tout simplement du contenu d'autres sites.

Google mentionne que l'utilité de ce filtre est, en premier lieu, de proposer aux internautes des résultats pertinents en évitant notamment que des pages présentants des contenus similiaires.
En second lieu, pour éviter que des sites ne dupliquent le contenu d'un autre site dans le but d'améliorer leur positionnement dans les moteurs de recherche.

J'ai déjà fait un article concernant un Duplicate Content, lors des Journées du Patrimoine.

Voici un autre exemple très parlant, qui montre le manque de performance de ce filtre, ou l'utilisation que Google pourrait en faire.

 

Prenons une recherche Google sur "Lady Diana" :

Recherche Google duplicate content

En 2ème position apparaît le site JeSuisMort.com, qui présente une biographie exhaustive de Lady Diana.

En bas de la page on trouve un renvoi (lien en dur) vers la source de cette biographie. Il faut cependant cliquer sur un lien pour déplier un div masquant le renvoi vers la source de cette biographie.

Source Wikipedia Lady Diana

 

Et en descendant plus bas dans la page, on trouve des renvois vers 2 autres sites qui proposent eux aussi des biographies de Lady Diana.

autres sites memes contenus

 

Voici les urls des 2 sites :

url site2 contenu duplique
url site3 contenu duplique

et voici la page sur laquelle nous nous trouvons actuellement :

url site1 contenu duplique

On en déduit aisément qu'il s'agit des mêmes sites vu la fin des urls, et le même ID de la célébrité.

 

Ensuite, en se rendant sur ces 2 sites en question, on s'aperçoit que chacun des sites propose une reprise du site initial, et chacun fait un renvoi vers les 2 autres sites :

reprise de contenu
reprise de contenus
liens vers sites dupliques

Bravo !

A partir de contenus produits par d'autres personnes, le propriétaire du site a créé un ring de 3 sites qui renvoient tous les uns vers les autres... et grâce aux liens sponsorisés ou déguisés en éditorial, se rémunère facilement.

Google n'est pas capable de détecter que les contenus de ces 3 sites sont les mêmes. Chacun propose un début de page un tant soit peu différent, de sorte que le filtre Duplicate Content de Google n'est pas efficace.
Par contre, il pourrait cumuler certains indices, notament le fait que ces 3 sites fassent du cross-linking entre eux et provoquent un ring, pour améliorer sa vigilance sur les contenus dupliqués.

Mais sincèrement, est-ce que Google a intérêt a condamner ce genre de pratiques (au vu des sommes importantes que sont reversées à Google via les liens sponsoriés) sauf si ce genre de comportement est pointé du doigt et que l'image de Google soit remise en cause.

Sur la détection du plagiat, il me semble que Wikipedia a mis en place une solution qui vise à trouver les pages reprenant le début de leurs propres pages :

signalement de contenu duplique

 

 

Pour info, voici ce que dit Google à propros du Duplicate Content (contenu dupliqué) :

What is Duplicate Content?
Duplicate content generally refers to substantive blocks of content within or across domains that either completely match other content or are appreciably similar. Most of the time when we see this, it's unintentional or at least not malicious in origin: forums that generate both regular and stripped-down mobile-targeted pages, store items shown (and -- worse yet -- linked) via multiple distinct URLs, and so on. In some cases, content is duplicated across domains in an attempt to manipulate search engine rankings or garner more traffic via popular or long-tail queries.
What isn't Duplicate Content?
Our algorithms won't view the same article written in English and Spanish as Duplicate Content. Similarly, you shouldn't worry about occasional snippets (quotes and otherwise) being flagged as duplicate content.
Why does Google care about Duplicate Content?
Our users typically want to see a diverse cross-section of unique content when they do searches. In contrast, they're understandably annoyed when they see substantially the same content within a set of search results. Also, webmasters become sad when we show a complex URL (example.com/contentredir?value=shorty-Géorge〈 ; =en) instead of the pretty URL they prefer (example.com/en/shorty-Géorge.htm).
What does Google do about it?
During our crawling and when serving search results, we try hard to index and show pages with distinct information. This filtering means, for instance, that if your site has articles in "regular" and "printer" versions and neither set is blocked in robots.txt or via a noindex meta tag, we'll choose one version to list. In the rare cases in which we perceive that Duplicate Content may be shown with intent to manipulate our rankings and deceive our users, we'll also make appropriate adjustments in the indexing and ranking of the sites involved. However, we prefer to focus on filtering rather than ranking adjustments ... so in the vast majority of cases, the worst thing that'll befall webmasters is to see the "less desired" version of a page shown in our index.
 
Home (sweet home)