Artigo
O que é robots.txt e como configurar para bots de IA?
O arquivo que controla quais sistemas podem rastrear seu site — e como garantir que os bots de IA tenham acesso
O robots.txt é um arquivo de texto colocado na raiz do site (seudominio.com/robots.txt) que informa aos robôs de rastreamento (bots) quais páginas podem ou não ser acessadas. É o primeiro arquivo que qualquer bot lê antes de rastrear um site. Para AIO, a configuração correta do robots.txt é um dos passos mais críticos — e mais frequentemente esquecidos: um erro nesse arquivo pode tornar o site completamente invisível para ChatGPT, Perplexity, Gemini ou Google AI Overview, independente da qualidade do conteúdo.
Como o robots.txt funciona
A estrutura é simples: o arquivo lista pares de User-agent (qual bot) e Disallow ou Allow (o que ele pode ou não acessar). Exemplo básico:
User-agent: *
Disallow: /admin/
Disallow: /checkout/
User-agent: Googlebot
Allow: /
O * representa todos os bots não especificados. Regras mais específicas (com o nome do bot) sobrescrevem a regra genérica para aquele bot.
Os bots de IA que precisam estar liberados
Para que o conteúdo do site seja acessível às principais plataformas de IA, os seguintes user-agents precisam estar liberados (ou não bloqueados por uma regra genérica):
| Bot | Empresa | Para que serve |
|---|---|---|
GPTBot | OpenAI | Rastreamento para treinamento do ChatGPT |
OAI-SearchBot | OpenAI | Busca em tempo real do ChatGPT (Browse) |
PerplexityBot | Perplexity | Rastreamento para respostas do Perplexity |
Bingbot | Microsoft | Indexação do Bing (ChatGPT Browse + Copilot) |
BingPreview | Microsoft | Preview de páginas no Bing |
Google-Extended | Treinamento do Gemini/Bard | |
ClaudeBot | Anthropic | Rastreamento para o Claude |
anthropic-ai | Anthropic | Agente alternativo do Claude |
Os erros mais comuns
Bloqueio genérico de todos os bots:
User-agent: *
Disallow: /
Esse padrão bloqueia absolutamente todos os bots — incluindo Googlebot, Bingbot e todos os bots de IA. É comum em ambientes de desenvolvimento que foram acidentalmente publicados em produção, ou em migrações onde o robots.txt antigo foi preservado.
Bloqueio para evitar scraping genérico:
Algumas empresas adicionam bloqueios para bots que usaram para scraping de conteúdo, mas acabam bloqueando bots legítimos de IA no processo. Verificar periodicamente se GPTBot, PerplexityBot e Bingbot não estão na lista negra é uma boa prática.
Robots.txt desatualizado de plugins de SEO: plugins de SEO como Yoast, Rank Math e outros geram o robots.txt automaticamente. Se as configurações do plugin foram alteradas sem revisão, podem ter criado regras de bloqueio não intencionais.
Exemplos de configuração correta por tipo de site
E-commerce (liberar bots de IA, bloquear apenas área administrativa):
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Bingbot
Allow: /
Site de clínica (liberar bots de IA, proteger área de pacientes):
User-agent: *
Disallow: /portal-paciente/
Disallow: /resultados/
Disallow: /agendamento/confirmacao/
User-agent: GPTBot
Allow: /
Allow: /especialidades/
Allow: /blog/
User-agent: PerplexityBot
Allow: /
Site de conteúdo editorial (liberar tudo para bots de IA):
User-agent: *
Allow: /
Sitemap: https://seusite.com/sitemap.xml
Como verificar o robots.txt atual
Acesse seudominio.com/robots.txt diretamente no browser. Se o arquivo não existir, retornará erro 404 — o que significa que todos os bots têm acesso irrestrito (comportamento padrão quando o arquivo não existe).
Para verificar como um bot específico interpreta o arquivo, o Google Search Console tem a ferramenta "Teste de robots.txt" em Configurações > robots.txt.
A FRT Digital audita o robots.txt como parte do diagnóstico técnico da auditoria de AIO Score. É um dos primeiros itens verificados porque um bloqueio aqui invalida todas as outras otimizações. Conheça o serviço completo de AIO.







