R&D Oncrawl : analyses avancées du contenu unique vs dupliqué

Oncrawl est heureux de vous présenter son nouveau laboratoire de contenu dupliqué. Notre équipe R&D travaille sur une nouvelle manière de détecter le contenu unique vs dupliqué sur votre site. Cela vous permettra de vous baser sur une technique plus fiable lors de la construction de votre stratégie éditoriale.

Pourquoi se concentrer sur le contenu unique et dupliqué ?

Le contenu fait toujours partie des trois facteurs de classement les plus importants et Google encourage les sites web à délivrer du contenu instructif, unique et descriptif à leurs visiteurs afin d’offrir la meilleure expérience utilisateur possible.

Mais tous les contenus n’ont pas le même poids. Google a toujours été très compétent et devient même encore meilleur pour séparer le boilerplate (contenu structurel comme votre header, footer, menus navigationnels et d’autres contenus répétitifs) du contenu principal de la page.

En résumé, Google ignore généralement le texte de votre template et ne classe que votre contenu principal. C’est pourquoi, au lieu d’examiner le nombre de mots, le nouveau laboratoire expérimental d’Oncrawl réparti le contenu par blocs plutôt que par pages.

Nos données : qu’est-ce qu’un bloc de contenu ?

Une fois que vous avez fini de crawler votre site web, chaque page est séparée en blocs de texte plus petits. Un bloc de contenu est composé de mots qui sont groupés ensemble dans un seul noeud HTML, comme les ancres de texte, paragraphes ou les items d’une liste à puces.

Pour chaque bloc, nous calculons le quotient d’unicité et le ratio d’occurrence à travers tout votre site. Nous continuons d’utiliser les mêmes algorithmes que Google, notamment l’algorithme Simhash qui nous permet de calculer les degrés de similarité.

En utilisant les blocs de contenu, nous pouvons identifier le contenu principal d’une page. C’est le contenu qui est le moins dupliqué. Cela aide Oncrawl à fournir des réponses aux questions suivantes :

Nos données : les graphiques et données sur les blocs de contenu

Les blocs de contenu vous permettent de vous concentrer sur le contenu unique seulement. Vous pouvez maintenant analyser l’unicité d’une page par rapport à d’autres sur votre site et trouver les pages qui contiennent trop peu de contenu unique.

Data Explorer

Dans le Data Explorer, vous pouvez maintenant examiner le nombre de mots et pourcentage de mots dans une page par types de blocs :

Ces métriques sont aussi disponibles pour segmenter vos pages.

Métriques de rapport de crawl

Dans le rapport de crawl, un nouveau tableau de bord est disponible dans la sidebar : le Text block analysis. Les graphiques disponibles dans ce tableau vous donne un aperçu de la manière dont le contenu de votre site est réparti selon le quotient d’unicité.

Ces graphiques peuvent aussi être utilisés dans des tableaux personnalisés.

Quelles pages ont toujours du contenu léger une fois les templates et boilerplate retirés ? Vérifiez le nombre de pages avec moins de 300 mots dans les blocs uniques, indépendamment du nombre total de mots sur la page. Ces pages ont très peu de contenu principal à offrir, même si ce contenu est positionné sur des pages avec plus de 1200 mots :

Comparez le nombre de mots dans les blocs uniques par rapport au nombre de mots sur les pages en général. Des pages avec un faible nombre de mots peuvent contenir beaucoup plus de contenu unique que des pages plus longues, comme les pages dans la première colonne de ce site :

Évaluez l’unicité par page en examinant les portions de mots par page qui sont trouvées dans chaque type de bloc. Cela aide à répondre à des questions comme :

Comprenez combien de mots sont uniques par page et comment cette distribution se déroule à travers les autres pages. Cela fournit des réponses aux questions suivantes :

Et analysez l’unicité par profondeur et par groupe de page :

Nos données : le content overlay d’Oncrawl, qu’est-ce que c’est ?

Cette nouvelle analyse propose une surcouche visuelle pour chaque page crawlée par Oncrawl.

La surcouche de contenu illustre l’unicité de votre contenu en surlignant chaque bloc de contenu HTML sur votre page web selon la couleur correspondant à son unicité.

Oncrawl utilise le code source détecté par le robot au moment du crawl et revêtit l’analyse d’unicité pour chaque bloc dans la source HTML.

En survolant un bloc de contenu, vous pouvez obtenir des informations comme :

Cette analyse peut révéler des sections de pages où le contenu est copié et collé ou là ou des templates de rédaction sont utilisés sans être développés. Et inversement, il peut aussi montrer comment les pages avec peu de contenu réussissent à inclure de l’originalité sans augmenter leur nombre de mots.

Construire une stratégie de rédaction de contenu basée sur l’unicité d’une page

Vous pouvez désormais aller au-delà du nombre de mot lorsque vous analysez la qualité d’un contenu.

Les nouvelles métriques expérimentales d’Oncrawl ont été pensées pour permettre une analyse profonde de la stratégie éditoriale :

Notre équipe de R&D a pour objectif de vous permettre d’explorer votre contenu en profondeur et selon un nouvel angle. Nous espérons que vous apprécierez ces nouvelles données et que cela vous aidera à amener votre stratégie éditoriale au niveau supérieur.