Artigo
O que é robots.txt e como configurar para bots de IA?
O arquivo que controla quais sistemas podem rastrear seu site — e como garantir que os bots de IA tenham acesso
O robots.txt é um arquivo de texto colocado na raiz do site (seudominio.com/robots.txt) que informa aos robôs de rastreamento (bots) quais páginas podem ou não ser acessadas. É o primeiro arquivo que qualquer bot lê antes de rastrear um site. Para AIO, a configuração correta do robots.txt é um dos passos mais críticos — e mais frequentemente esquecidos: um erro nesse arquivo pode tornar o site completamente invisível para ChatGPT, Perplexity, Gemini ou Google AI Overview, independente da qualidade do conteúdo.
Como o robots.txt funciona
A estrutura é simples: o arquivo lista pares de User-agent (qual bot) e Disallow ou Allow (o que ele pode ou não acessar). Exemplo básico:
``` User-agent: * Disallow: /admin/ Disallow: /checkout/
User-agent: Googlebot Allow: / ```
O * representa todos os bots não especificados. Regras mais específicas (com o nome do bot) sobrescrevem a regra genérica para aquele bot.
Os bots de IA que precisam estar liberados
Para que o conteúdo do site seja acessível às principais plataformas de IA, os seguintes user-agents precisam estar liberados (ou não bloqueados por uma regra genérica):
| Bot | Empresa | Para que serve |
|---|---|---|
GPTBot | OpenAI | Rastreamento para treinamento do ChatGPT |
OAI-SearchBot | OpenAI | Busca em tempo real do ChatGPT (Browse) |
PerplexityBot | Perplexity | Rastreamento para respostas do Perplexity |
Bingbot | Microsoft | Indexação do Bing (ChatGPT Browse + Copilot) |
BingPreview | Microsoft | Preview de páginas no Bing |
Google-Extended | Treinamento do Gemini/Bard | |
ClaudeBot | Anthropic | Rastreamento para o Claude |
anthropic-ai | Anthropic | Agente alternativo do Claude |
Os erros mais comuns
Bloqueio genérico de todos os bots: `` User-agent: * Disallow: / `` Esse padrão bloqueia absolutamente todos os bots — incluindo Googlebot, Bingbot e todos os bots de IA. É comum em ambientes de desenvolvimento que foram acidentalmente publicados em produção, ou em migrações onde o robots.txt antigo foi preservado.
Bloqueio para evitar scraping genérico: Algumas empresas adicionam bloqueios para bots que usaram para scraping de conteúdo, mas acabam bloqueando bots legítimos de IA no processo. Verificar periodicamente se GPTBot, PerplexityBot e Bingbot não estão na lista negra é uma boa prática.
Robots.txt desatualizado de plugins de SEO: plugins de SEO como Yoast, Rank Math e outros geram o robots.txt automaticamente. Se as configurações do plugin foram alteradas sem revisão, podem ter criado regras de bloqueio não intencionais.
Exemplos de configuração correta por tipo de site
E-commerce (liberar bots de IA, bloquear apenas área administrativa): ``` User-agent: * Disallow: /admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /account/
User-agent: GPTBot Allow: /
User-agent: PerplexityBot Allow: /
User-agent: Bingbot Allow: / ```
Site de clínica (liberar bots de IA, proteger área de pacientes): ``` User-agent: * Disallow: /portal-paciente/ Disallow: /resultados/ Disallow: /agendamento/confirmacao/
User-agent: GPTBot Allow: / Allow: /especialidades/ Allow: /blog/
User-agent: PerplexityBot Allow: / ```
Site de conteúdo editorial (liberar tudo para bots de IA): ``` User-agent: * Allow: /
Sitemap: https://seusite.com/sitemap.xml ```
Como verificar o robots.txt atual
Acesse seudominio.com/robots.txt diretamente no browser. Se o arquivo não existir, retornará erro 404 — o que significa que todos os bots têm acesso irrestrito (comportamento padrão quando o arquivo não existe).
Para verificar como um bot específico interpreta o arquivo, o Google Search Console tem a ferramenta "Teste de robots.txt" em Configurações > robots.txt.
A FRT Digital audita o robots.txt como parte do diagnóstico técnico da auditoria de AIO Score. É um dos primeiros itens verificados porque um bloqueio aqui invalida todas as outras otimizações. Conheça o serviço completo de AIO.