Directives - Guide utilisateur Hextrakt

Les directives sont utilisées pour guider les robots des moteurs de recherche ; elles leur donnent des informations importantes, en particulier quelles pages crawler, quelles pages indexer, les versions alternatives dans d'autres langues ou pour les mobiles... Des erreurs dans ces indications peuvent compromettre sérieusement votre SEO.

Ces directives peuvent être indiquées à différents endroits :

fichier robots.txt
header HTTP
head HTML (meta, link rel)
codes HTTP

Nous les rassemblons dans ces rapports pour vous aider à identifier les problèmes potentiels et appliquer les corrections.

Indexabilité

Pages indexables (par les robots des moteurs de recherche)

Self-canonicalized : ces pages contiennent une balise link rel="canonical" qui pointe vers elles-mêmes ET sont indexables
Not canonicalized : ces pages ne contiennent pas de balise link rel="canonical" ET sont indexables

Pages non indexables (par les robots des moteurs de recherche)

Blocked by robots.txt : les URLs correspondent à la règle d'interdiction de crawler (disallow) pour les user-agent: * OR user-agent: googlebot
Noindex pages : l'en-tête HTTP X-Robots-Tag contient noindex OU la balise meta robots contient noindex
Non 200 status code : le code HTTP est supérieur ou égal à 300 OU la page est en échec de connexion réseau (TCP error). Remarque : les pages contenant une redirection 302 ou 307 peuvent être indexées initialement par Google mais sont généralement traitées après un temps variable comme des 301 (c'est la page cible qui peut être indexée).
Other-canonicalized pages : ces pages contiennent une balise link rel="canonical" qui pointe vers une autre URL (ceci n'est pas à considérer comme un strict indicateur de non indexabilité et peut dépendre d'autres facteurs).

Non crawlées (par Hextrakt)

Not crawled internal pages : pages HTML internes (=incluses dans le périmètre de crawl) bloquées par le fichier robots.txt (si "ignore robots.txt file" est décoché dans la configuration) ou liées uniquement par des liens nofollow (si "Ignore nofollow" est décoché).
External pages (dans l'onglet avancé de la fenêtre de configuration, si vous cochez "Check external links", hextrakt vérifiera le code HTTP de ces pages) : pages qui sont hors du périmètre de crawl.
All uncrawled URLs : nombre total d'URLs trouvées mais non crawlées (y compris les URLs qui n'ont pas été crawlées à cause d'une limite de crawl ou un crawl stoppé par l'utilisateur.

Conflits

X-Robots VS meta robots : directives contradictoires entre la balise meta et l'en-tête HTTP.
Noindex & blocked by robots.txt : ne pas bloquer le crawl des pages en noindex avec le fichiers robots.txt : dans ce cas les robots d'exploration ne peuvent pas savoir que l'URL ne doit pas être indexée. Pour obtenir cette donnée, il est nécessaire de cocher "Ignore robots.txt file" dans la configuration du crawl.
Noindex & other-canonicalized : ne pas utiliser simultanément la directive noindex et un lien canonique vers une autre page.

Erreurs d'URL canoniques

Pages with blocked canonical : l'URL canonique cible est bloquée par le fichier robots.txt
Pages with noIndex canonical : l'URL canonique cible contient une directive noindex.
Pages with non 200 status canonical : l'URL canonique cible est redirigée ou en erreur.
Canonical chain : l'URL canonique cible indique un lien canonique vers une autre URL
Unlinked canonical : l'URL canonique cible n'a pas de liens entrants

Mobile & Hreflang

Mobile

All mobile alternate pages: liste des pages alternatives pour mobile
Mobile pages with canonical : pages mobiles avec URL canonique. Pour obtenir ces données il est nécessaire d'inclure les URLs mobiles dans le périmètre de crawl.
Mobile pages w/o canonical : pages mobiles sans URL canonique. Pour obtenir ces données il est nécessaire d'inclure les URLs mobiles dans le périmètre de crawl.

Hreflang

Pages without self hreflang link : ces pages n'ont pas d'attribut hreflang qui pointe vers elles-mêmes
Pages with canonical & hreflang conflict : l'URL canonique cible est dans une autre langue
All pages w/o hreflang : pas d'attribut hreflang
List of redirected hreflang : la cible des hreflang est redirigée
List of hreflang errors (4xx & 5xx) : la cible des hreflang est en statut 4xx ou 5xx

Amp pages

Amp pages : pages contenant l'attribut HTML amp
Not amp pages : pages ne contenant pas l'attribut HTML amp
With amphtml link : pages avec une version amp
W/o amphtml link : pages sans version amp

Redirections

Redirections temporaires (statut 302, 303, 307)
Redirections permanentes (statut 301, 308)
Redirections spéciales (statut 300, 304)
Redirections côté client (par javascript ou meta refresh)

La détection des redirections par javascript nécessite un crawl en mode de rendu javascript.