robots.txt : le fichier qui parle aux moteurs de recherche

Le fichier robots.txt est un petit fichier texte placé à la racine de ton site pour indiquer aux moteurs de recherche ce qu’ils peuvent ou ne peuvent pas explorer. Il sert à contrôler le crawl de Googlebot et des autres robots. Bien configuré, il aide à protéger des pages sensibles et à optimiser l’exploration pour ton SEO. En gros, il permet de bloquer l’indexation de certaines pages, et accepter le crawl (+ potentielle indexation) des autres pages.

Infographie robots.txt SEO : fichier qui guide Googlebot pour autoriser ou bloquer le crawl de certaines URLs, avec exemples Allow/Disallow et erreurs fréquentes.

En bref

Le fichier robots.txt est un fichier de configuration placé à la racine de ton site (ex : https://tonsite.com/robots.txt). Il donne des instructions de crawl aux robots des moteurs de recherche : quelles parties du site explorer ou ignorer. Il ne gère pas l’indexation directe, mais il oriente le travail de Google et permet d’éviter de gaspiller ton budget crawl. Si tu utilises WordPress, CMS le plus utilisé dans le monde (ou un autre CMS bien connu comme Shopify ou Wix), le fichier robot.txt est déjà généré et propose une base assez propre qui évite l’indexation des pages non prévues pour les utilisateurs de ton site. Tu peux le modifier, mais attention, je te conseille de savoir ce que tu fais avant d’y toucher, et de l’enregistrer avant toute modif.

Définition de « robots.txt »

Le fichier robots.txt est un fichier texte standardisé utilisé par le protocole robots exclusion standard. Il indique aux crawlers (Googlebot, Bingbot, etc.) quelles parties de ton site ils sont autorisés ou non à explorer. Il se trouve toujours à la racine du domaine, par exemple : https://exemple.com/robots.txt.

Concrètement, tu vas y écrire des règles très simples basées sur des directives comme User-agent, Disallow et Allow. Chaque règle dit à un type de robot (par exemple tous les robots, ou seulement Googlebot) quels dossiers, fichiers ou modèles d’URL il ne doit pas crawler. Ce n’est pas un outil de sécurité, mais un guide de bonne conduite pour les moteurs qui respectent le protocole.

Ce fichier est lu avant que le robot n’explore les pages de ton site. S’il trouve une directive Disallow sur un dossier, il va éviter de visiter les URL qui commencent par ce chemin. À l’inverse, si aucune règle ne bloque une URL, les robots sont libres de la crawler. Le fichier robots.txt joue donc un rôle clé dans la gestion technique de ton SEO.

À quoi sert « robots.txt » en SEO

En SEO, le fichier robots.txt sert surtout à optimiser le crawl. Tu peux orienter les robots vers les zones importantes de ton site et leur éviter de perdre du temps sur des pages sans valeur SEO : filtres, pages de recherche interne, paramètres d’URL, back-office, etc. Sur les sites volumineux, ça limite le gaspillage du budget crawl.

Il permet aussi de protéger certaines zones techniques (dossiers d’administration, fichiers système), d’indiquer l’emplacement du sitemap XML et de gérer différemment certains robots (par exemple un bot d’outil SEO ou un robot d’archive). Bien utilisé, c’est un levier simple pour garder ton site propre et lisible pour Google.

  • Limiter le crawl de pages inutiles (filtres, tri, pagination complexe).
  • Éviter d’exposer des dossiers sensibles comme /wp-admin/ ou des scripts internes.
  • Concentrer les robots sur les pages à fort potentiel SEO.
  • Indiquer ton sitemap XML pour faciliter la découverte des URL.
  • Adapter les règles à certains robots spécifiques (Googlebot-Image, AdsBot, etc.).

Tableau d’informations clés

Élément Information
Définition Fichier texte à la racine du site qui donne des instructions de crawl aux robots des moteurs de recherche.
Objectif SEO principal Optimiser le budget crawl et éviter l’exploration de zones inutiles ou sensibles.
Niveau conseillé Débutant à intermédiaire en SEO technique.
Format du fichier Fichier texte brut, encodé en UTF-8, accessible en HTTP/HTTPS.
Chemin obligatoire https://domaine.com/robots.txt (à la racine, pas dans un sous-dossier).
Notions liées Sitemap XML, balise meta robots, en-tête HTTP x-robots-tag, budget crawl.

Exemple concret

Imaginons un petit site WordPress de niche sur les plantes d’intérieur, avec un blog, quelques pages catégories et une zone d’administration. Le site tourne sur https://plantes-maison.com. Tu veux que Google se concentre sur les articles et les pages de contenu, pas sur l’admin ni sur certains paramètres d’URL.

Un fichier robots.txt simple et propre pourrait ressembler à ceci :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /recherche/

Sitemap: https://plantes-maison.com/sitemap.xml

Dans cet exemple, toutes les instructions s’appliquent à l’ensemble des robots (User-agent: *). On bloque le crawl du dossier /wp-admin/ tout en autorisant explicitement le fichier admin-ajax.php nécessaire à WordPress. On empêche aussi le crawl de la recherche interne (/?s= et /recherche/), qui génère beaucoup de pages peu intéressantes pour le SEO.

La ligne Sitemap: indique à Google l’URL du sitemap XML, ce qui l’aide à découvrir toutes les pages importantes. Avec quelques lignes seulement, tu guides les robots vers le bon contenu et tu évites de gaspiller des ressources de crawl sur des URL sans valeur.

Erreurs courantes à éviter

Le fichier robots.txt a l’air simple, mais une petite erreur peut avoir de gros impacts sur ton trafic. Voici les pièges les plus fréquents que je vois passer sur les sites, que ce soit sur des blogs persos ou sur des e-commerces.

Bonne nouvelle : en comprenant ces erreurs, tu peux déjà sécuriser 80 % du sujet sans devenir développeur. Prends le temps de vérifier ton fichier, surtout après une refonte ou un changement d’hébergement.

  • Bloquer tout le site par erreur
    Une ligne comme Disallow: / sous User-agent: * empêche les robots de crawler l’ensemble du site. C’est parfois utilisé en préproduction, mais si ça reste en ligne au moment du lancement, tu coupes tout ton trafic SEO.
  • Croire que robots.txt empêche l’indexation
    Bloquer le crawl n’empêche pas toujours l’indexation. Si Google découvre une URL via des liens externes, il peut l’indexer sans la crawler. Pour gérer l’indexation, il faut utiliser les balises meta robots ou les en-têtes x-robots-tag.
  • Bloquer les ressources nécessaires au rendu
    En bloquant des dossiers comme /wp-includes/ ou certains fichiers .js et .css, tu peux empêcher Google de bien voir ton site. Résultat : un rendu cassé et des problèmes de compréhension du contenu.
  • Multiplier les règles inutiles
    Un robots.txt ultra long, plein de règles redondantes ou trop fines, devient vite ingérable. Mieux vaut rester minimaliste et se concentrer sur les zones qui posent vraiment problème.
  • Oublier la mise à jour après une refonte
    Après une migration ou un changement de structure d’URL, l’ancien robots.txt peut bloquer de nouvelles sections ou ne plus couvrir les bonnes zones. Pense à le revoir à chaque gros chantier technique.

Différence avec des notions proches

On confond souvent robots.txt avec d’autres mécanismes comme la balise meta robots ou le sitemap XML. Pourtant, ces outils n’ont pas du tout le même rôle et ne s’adressent pas à la même étape du travail de Google.

Le fichier robots.txt intervient avant le crawl et donne des règles globales d’accès. La balise meta robots et le sitemap XML agissent plutôt au niveau de chaque page ou de la découverte d’URL. Bien les distinguer t’aide à utiliser le bon levier au bon moment.

robots.txt vs. balise meta robots

La balise meta robots est placée dans le <head> d’une page HTML. Elle sert à dire à Google si la page doit être indexée ou non (index / noindex), et si ses liens doivent être suivis (follow / nofollow). Elle agit page par page, une fois que le robot a déjà crawlé l’URL.

Le robots.txt, lui, intervient en amont. Il dit au robot s’il peut crawler telle ou telle URL. Il ne contrôle pas directement l’indexation, mais seulement l’accès. Pour bloquer totalement une page, le combo classique reste : autoriser le crawl et mettre une balise meta robots noindex.

robots.txt vs. sitemap XML

Le sitemap XML est un fichier qui liste les URL importantes de ton site, avec éventuellement des infos comme la date de dernière modification. Il aide les moteurs à découvrir plus vite ton contenu, surtout sur les sites gros ou mal maillés.

Le fichier robots.txt ne liste pas les URL, il donne seulement des règles d’accès. En pratique, les deux sont souvent utilisés ensemble : le sitemap XML est mentionné dans le robots.txt pour être trouvé facilement par les robots.

Aller plus loin

Une fois que tu maîtrises les bases du robots.txt, tu peux commencer à l’utiliser de façon plus fine, surtout si tu gères un site e-commerce, un gros blog ou un réseau de sites. L’idée n’est pas d’empiler des règles, mais de rendre le travail de Google le plus simple possible.

Tu peux par exemple : adapter certaines règles à des user-agents spécifiques (Googlebot-Image pour les images, AdsBot pour la pub), bloquer des pages de tests ou d’A/B testing, ou encore gérer proprement des paramètres d’URL qui génèrent du contenu dupliqué. Couplé à un bon maillage interne et à un sitemap propre, ton robots.txt devient une brique clé de ton SEO technique.

FAQ robots.txt

Où se trouve le fichier robots.txt de mon site ?

Par convention, il est toujours à la racine du domaine, à l’adresse https://tondomaine.com/robots.txt. Si l’URL renvoie une erreur 404, c’est que tu n’en as pas encore.

Est-ce obligatoire d’avoir un robots.txt ?

Non, ce n’est pas obligatoire. Si le fichier n’existe pas, les robots considèrent qu’ils ont le droit de tout crawler. Mais en pratique, c’est recommandé sur presque tous les sites un peu sérieux.

robots.txt empêche-t-il l’indexation ?

Non. Il empêche le crawl, pas forcément l’indexation. Pour vraiment sortir une page de l’index, il vaut mieux utiliser une balise meta robots noindex ou un en-tête x-robots-tag.

Comment tester mon fichier robots.txt ?

Tu peux le vérifier manuellement en l’ouvrant dans ton navigateur, ou utiliser les outils d’inspection d’URL de Google Search Console et des simulateurs de robots.txt proposés par certains outils SEO.

Peut-on avoir un robots.txt différent par sous-domaine ?

Oui. Chaque sous-domaine possède potentiellement son propre fichier robots.txt. Par exemple, www.exemple.com/robots.txt et blog.exemple.com/robots.txt sont gérés séparément.