O que é robots.txt e como configurar para bots de IA?

O arquivo que controla quais sistemas podem rastrear seu site — e como garantir que os bots de IA tenham acesso

O robots.txt é um arquivo de texto colocado na raiz do site (seudominio.com/robots.txt) que informa aos robôs de rastreamento (bots) quais páginas podem ou não ser acessadas. É o primeiro arquivo que qualquer bot lê antes de rastrear um site. Para AIO, a configuração correta do robots.txt é um dos passos mais críticos — e mais frequentemente esquecidos: um erro nesse arquivo pode tornar o site completamente invisível para ChatGPT, Perplexity, Gemini ou Google AI Overview, independente da qualidade do conteúdo.

Como o robots.txt funciona

A estrutura é simples: o arquivo lista pares de User-agent (qual bot) e Disallow ou Allow (o que ele pode ou não acessar). Exemplo básico:

User-agent: *
Disallow: /admin/
Disallow: /checkout/

User-agent: Googlebot
Allow: /

O * representa todos os bots não especificados. Regras mais específicas (com o nome do bot) sobrescrevem a regra genérica para aquele bot.

Os bots de IA que precisam estar liberados

Para que o conteúdo do site seja acessível às principais plataformas de IA, os seguintes user-agents precisam estar liberados (ou não bloqueados por uma regra genérica):

Bot	Empresa	Para que serve
`GPTBot`	OpenAI	Rastreamento para treinamento do ChatGPT
`OAI-SearchBot`	OpenAI	Busca em tempo real do ChatGPT (Browse)
`PerplexityBot`	Perplexity	Rastreamento para respostas do Perplexity
`Bingbot`	Microsoft	Indexação do Bing (ChatGPT Browse + Copilot)
`BingPreview`	Microsoft	Preview de páginas no Bing
`Google-Extended`	Google	Treinamento do Gemini/Bard
`ClaudeBot`	Anthropic	Rastreamento para o Claude
`anthropic-ai`	Anthropic	Agente alternativo do Claude

Os erros mais comuns

Bloqueio genérico de todos os bots:

User-agent: *
Disallow: /

Esse padrão bloqueia absolutamente todos os bots — incluindo Googlebot, Bingbot e todos os bots de IA. É comum em ambientes de desenvolvimento que foram acidentalmente publicados em produção, ou em migrações onde o robots.txt antigo foi preservado.

Bloqueio para evitar scraping genérico:

Algumas empresas adicionam bloqueios para bots que usaram para scraping de conteúdo, mas acabam bloqueando bots legítimos de IA no processo. Verificar periodicamente se GPTBot, PerplexityBot e Bingbot não estão na lista negra é uma boa prática.

Robots.txt desatualizado de plugins de SEO: plugins de SEO como Yoast, Rank Math e outros geram o robots.txt automaticamente. Se as configurações do plugin foram alteradas sem revisão, podem ter criado regras de bloqueio não intencionais.

Exemplos de configuração correta por tipo de site

E-commerce (liberar bots de IA, bloquear apenas área administrativa):

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/

User-agent: GPTBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Bingbot
Allow: /

Site de clínica (liberar bots de IA, proteger área de pacientes):

User-agent: *
Disallow: /portal-paciente/
Disallow: /resultados/
Disallow: /agendamento/confirmacao/

User-agent: GPTBot
Allow: /
Allow: /especialidades/
Allow: /blog/

User-agent: PerplexityBot
Allow: /

Site de conteúdo editorial (liberar tudo para bots de IA):

User-agent: *
Allow: /

Sitemap: https://seusite.com/sitemap.xml

Como verificar o robots.txt atual

Acesse seudominio.com/robots.txt diretamente no browser. Se o arquivo não existir, retornará erro 404 — o que significa que todos os bots têm acesso irrestrito (comportamento padrão quando o arquivo não existe).

Para verificar como um bot específico interpreta o arquivo, o Google Search Console tem a ferramenta "Teste de robots.txt" em Configurações > robots.txt.

A FRT Digital audita o robots.txt como parte do diagnóstico técnico da auditoria de AIO Score. É um dos primeiros itens verificados porque um bloqueio aqui invalida todas as outras otimizações. Conheça o serviço completo de AIO.

Pronto para dar o próximo passo?