Robots.txt: Guia Definitivo para Evitar Bloqueios e Quedas de Tráfego
Aprenda a configurar seu robots.txt sem medo. Erros comuns podem fazer seu site sumir do Google e afetar sua receita. Vou te mostrar como evitar isso, com exemplos reais que vi acontecer.
Especialista em SEO Técnico • Atualizado em
Domine o arquivo que controla o acesso do Google ao seu site
Um pequeno erro aqui pode custar seu tráfego orgânico
Vamos conversar sobre um dos arquivos mais importantes, mas também mais negligenciados, do seu site: o robots.txt. Na prática, ele é o porteiro do Google - decide quem entra, quem não entra e quais partes do seu site podem ser visitadas.
Trabalho com SEO há anos e já vi situações onde uma única linha de código errada no robots.txt fez sites inteiros desaparecerem do Google. O pior? Muitas vezes o dono do site nem percebia o que tinha acontecido.
Neste guia, vou compartilhar não só o que diz a documentação oficial do Google, mas principalmente os erros que realmente vejo acontecer no dia a dia e como evitá-los. Vamos começar entendendo melhor como o Google rastreia e indexa sites.
O robots.txt não é um arquivo que você configura uma vez e esquece. Ele precisa de atenção regular, especialmente após mudanças no site. Trate-o como um documento vivo que evolui junto com seu projeto.
Navegação Rápida do Artigo
1. Otimize seu tempo com o Google
Crawl Budget na prática
2. O erro que derruba sites
Disallow: /
3. Deixe o Google ver seu site direito
CSS e JavaScript
4. Como remover páginas do Google
Sem paradoxos
5. Diretivas avançadas
Crawl-delay, Allow e curingas
6. Sensibilidade a maiúsculas
Um detalhe que faz diferença
7. Convide o Google para seu sitemap
Navegação eficiente
8. Auditoria e Monitoramento
Como não errar nunca mais
Otimize o tempo que o Google passa no seu site
Imagine que o Google tem tempo limitado para visitar seu site. Esse tempo é o Crawl Budget. Se você desperdiçar esse tempo com páginas sem importância, o Google não terá tempo suficiente para ver o que realmente importa.
Em português claro: O Google visita seu site por um tempo determinado. Se ele gastar esse tempo em páginas de filtro, resultados de busca interna ou áreas administrativas, não sobra tempo para indexar seus produtos, artigos ou páginas importantes.
Eu já vi sites onde 80% do tempo do Google era gasto em URLs que nunca deveriam ser indexadas. Isso é um dos 3 problemas técnicos mais comuns que prejudicam SEO.
Como o Crawl Budget funciona na prática
O Googlebot analisa vários fatores para determinar quanto tempo gastar no seu site:
Fatores Técnicos
- • Velocidade de resposta do servidor
- • Quantidade de erros 5xx
- • Tamanho do site (número de URLs)
- • Frequência de atualização do conteúdo
Fatores de Qualidade
- • Popularidade do site (backlinks)
- • Qualidade do conteúdo
- • Estrutura de links internos
- • Atualização dos sitemaps
User-agent: *
Disallow: /search?
Disallow: /?s=
Disallow: /?filter=
Disallow: /?sessionid=
Disallow: /?utm_
Disallow: /?orderby=
Disallow: /?sort=
Disallow: /tag/
# Deixe o Google acessar o que importa
Allow: /blog/
Allow: /produtos/
Allow: /categorias/
Allow: /$
Basicamente: "Google, não perca tempo com buscas internas e filtros. Vá direto para os produtos e artigos que me dão visitas."
Use expressões curinga (*) para bloquear padrões de URL. Por exemplo, Disallow: /*?* bloqueia qualquer URL com parâmetros de consulta, independente do caminho.
Se você usa WordPress, muitas vezes plugins de cache ou SEO já adicionam essas regras automaticamente. Vale a pena verificar.
O erro que fez sites sumirem do Google
Esta é a linha de código mais perigosa que você pode colocar no robots.txt de um site em produção:
Disallow: /
Traduzindo: "Google, não entre em NENHUMA parte do meu site." Parece óbvio que isso é ruim, mas você ficaria surpreso com a frequência com que isso acontece.
E os anúncios do AdSense?
Tem um robô específico chamado Mediapartners-Google que analisa seu conteúdo para mostrar anúncios relevantes. Se você bloquear todos os robôs (com User-agent: *), esse robô também é bloqueado.
Resultado: espaços em branco onde deveriam ter anúncios. Conforme o suporte do AdSense, isso afeta diretamente sua receita.
Sempre verifique seu robots.txt após qualquer mudança no site. Use o Google Search Console para testar.
Por que isso é tão comum?
Ambientes de teste
Desenvolvedores bloqueiam o site de staging para evitar indexação duplicada. No deploy, esquecem de remover.
Cópia de templates
Templates de sites WordPress às vezes vêm com robots.txt restritivo. O dono do site nunca verifica.
Falta de conhecimento
Pessoas copiam regras de fóruns sem entender o que cada linha faz.
Deixe o Google ver seu site como ele realmente é
O Google moderno não só lê o HTML do seu site - ele o renderiza, como se fosse um navegador. Se você bloquear arquivos CSS ou JavaScript, o Google não consegue ver seu site direito.
Pense assim: você convida alguém para sua casa, mas tranca o quarto onde guarda os móveis. A pessoa não consegue ver como a casa realmente é.
O que acontece na prática
Site "não amigável" para celular
Sem CSS, o Google não vê o design responsivo. Ele classifica seu site como ruim para celulares.
Métricas de velocidade erradas
O Google mede o carregamento sem recursos essenciais. Parece mais lento do que realmente é.
Imagens não renderizadas
Se você bloqueia CDNs ou diretórios de imagens, o Google não consegue ver o conteúdo visual.
Core Web Vitals prejudicados
LCP, FID e CLS são afetados quando recursos essenciais são bloqueados.
É importante otimizar seu JavaScript, mas não bloqueá-lo completamente. São coisas diferentes.
Se você usa WordPress
User-agent: *
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Allow: /wp-content/themes/*/assets/*.js
Allow: /wp-content/themes/*/assets/*.css
Allow: /wp-content/plugins/*/assets/*.js
Allow: /wp-content/plugins/*/assets/*.css
Allow: /wp-content/uploads/
# Proteja o que precisa ser protegido
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-config.php
Disallow: /wp-content/plugins/
Disallow: /xmlrpc.php
Resumindo: "Google, pode ver todos os arquivos de estilo e script, mas não entre na área administrativa."
Importante: Alguns plugins de segurança bloqueiam o acesso a /wp-content/plugins/ automaticamente. Verifique se isso não está bloqueando CSS/JS que seu tema precisa.
"Muitas vezes, a otimização não está em fazer mais, mas em parar de atrapalhar. Deixar o Google acessar seus recursos já é meio caminho andado."
Como realmente remover páginas do Google
Aqui tem uma confusão muito comum: as pessoas bloqueiam uma página no robots.txt esperando que ela saia do Google. Isso não funciona como elas imaginam.
Se uma página já está no Google e você a bloqueia no robots.txt, o Google para de visitá-la. Se essa página tem uma tag noindex, o Google nunca vai ler essa tag porque não pode acessar a página.
O ciclo que não se completa
1. Página está no Google
2. Você coloca noindex na página
3. Você bloqueia a página no robots.txt
4. Google não consegue visitar para ver o noindex
5. Página fica no Google para sempre
Isso explica muito sobre por que páginas somem (ou não somem) do Google.
O jeito certo: Para remover uma página, deixe o Google visitá-la e coloque noindex no HTML ou no cabeçalho HTTP. O Google explica isso claramente.
Compare você mesmo
❌ O que não funciona
User-agent: *
Disallow: /pagina-indesejada/
Isso só impede novas visitas. Se a página já está indexada, ela continua lá.
✅ O que funciona
<meta name="robots" content="noindex">
Deixe o Google visitar a página e ler essa tag. Aí sim a página será removida.
Método alternativo: Cabeçalho HTTP
Para arquivos PDF, imagens ou outros tipos de conteúdo que não são HTML, use o cabeçalho HTTP:
Isso é configurado no servidor (Apache, Nginx) ou via .htaccess.
Já vi empresas perderem semanas tentando remover páginas com robots.txt. Quando explicamos o correto, a remoção acontecia em dias. Às vezes, a solução é mais simples do que parece.
Diretivas avançadas que você precisa conhecer
Além das diretivas básicas Allow e Disallow, existem recursos avançados que podem ajudar (ou atrapalhar) seu SEO.
Define o tempo (em segundos) que o robô deve esperar entre as requisições. Útil para não sobrecarregar servidores mais fracos.
Crawl-delay: 5
Atenção: O Googlebot ignora esta diretiva. Para controlar a velocidade do Google, use o Search Console. O Crawl-delay funciona para Bing, Yandex e outros bots menores.
O símbolo * funciona como curinga (qualquer caractere) e $ indica fim da URL.
| Regra | O que bloqueia | Exemplo |
|---|---|---|
Disallow: /*.pdf$ |
Bloqueia todos os PDFs | /doc.pdf ✅ /doc.pdf?download ❌ |
Disallow: /temp/* |
Bloqueia todo conteúdo em /temp/ | /temp/arquivo.html ✅ |
Disallow: /*?* |
Bloqueia URLs com parâmetros | /pagina?utm=fb ✅ /pagina ❌ |
Você pode criar regras diferentes para cada robô de busca.
User-agent: Googlebot
Disallow: /area-restrita/
Allow: /
# Mediapartners (AdSense)
User-agent: Mediapartners-Google
Allow: /
# Regras para todos os outros
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Lista completa de user-agents: Google Crawlers
Letras maiúsculas e minúsculas importam
Em servidores Linux (que são a maioria), /admin/ e /Admin/ são pastas diferentes. Se você bloquear apenas uma forma, a outra continua aberta.
Exemplo de problema
Essa regra não bloqueia /Admin/ nem /ADMIN/.
Solução simples
Disallow: /Admin/
Disallow: /ADMIN/
Ou use tudo minúsculo no seu site, ou cubra todas as variações.
Formatação importa: Linhas em branco entre regras User-agent podem ser interpretadas como o fim daquele bloco de regras por alguns robôs. Mantenha blocos de regras contínuos, sem linhas em branco.
Convide o Google para seu sitemap
Colocar o endereço do seu sitemap no robots.txt é como dar um mapa do seu site para o Google. Ele encontra tudo mais rápido.
E já que estamos falando de sitemaps, vale a pena saber quantas URLs cabem em um sitemap para não sobrecarregar o Google.
Disallow: /admin/
Allow: /
Sitemap: https://seudominio.com/sitemap.xml
Sitemap: https://seudominio.com/sitemap-news.xml
Sitemap: https://seudominio.com/sitemap-images.xml
Importante
Sempre use o endereço completo, com https://. Endereços relativos podem dar problema.
Auditoria e Monitoramento Contínuo
O robots.txt não é um arquivo "configure e esqueça". Grandes sites fazem auditorias mensais. Aqui está o processo que recomendo:
1. Verificação Automática (Semanal)
Configure um script ou use ferramentas como Screaming Frog para verificar se o robots.txt está acessível e retorna 200 OK.
2. Teste no Search Console (Mensal)
Use o Testador de robots.txt para verificar se as regras estão funcionando como esperado.
3. Análise de Logs (Trimestral)
Analise os logs do servidor para ver quais URLs o Google está realmente rastreando. Compare com o que você esperava.
4. Revisão Manual (Após Mudanças)
Sempre que fizer deploy, redesenho ou migração, revise o robots.txt manualmente.
Checklist prático para seu robots.txt
Revise seu robots.txt a cada 3 meses ou após qualquer mudança grande no site. Esse checklist ajuda:
Configuração básica
- O arquivo está em
https://seudominio.com/robots.txt? - Aparece código 200 OK (não 404 ou erro)?
- NÃO tem
Disallow: /em produção? - O sitemap está com URL completa?
- A formatação está correta (sem erros)?
Recursos e segurança
- CSS e JS estão liberados?
- Áreas administrativas estão bloqueadas?
- URLs de filtro e busca estão bloqueadas?
- Sabe como diagnosticar problemas no Search Console?
- Monitora logs para URLs bloqueadas por engano?
Ferramentas que recomendo
Nível de risco dos erros mais comuns
Seu site some do Google em horas. Já vi acontecer.
Google não vê seu site direito. Afeta posicionamento.
Páginas não saem do índice, mas não geram tráfego.
Perguntas que me fazem sempre
Posso bloquear só o Google e deixar outros?
Tecnicamente sim, mas não recomendo. Seria assim:
Disallow: /
User-agent: *
Allow: /
O robots.txt melhora velocidade?
Indiretamente. Se o Google gasta menos tempo rastreando páginas inúteis, seu servidor fica menos sobrecarregado. Em sites grandes, isso pode fazer diferença.
Com que frequência devo mexer?
Sempre que mudar algo importante no site. Fora isso, uma revisão a cada 3 meses é suficiente. E sempre teste no Google Search Console antes de considerar que está pronto.
Para terminar
O robots.txt não é um bicho de sete cabeças. É só um arquivo de texto que diz ao Google: "por aqui pode, por aqui não pode". O segredo está em dizer isso direito.
Depois de anos vendo os mesmos erros se repetirem, aprendi que a maioria dos problemas com robots.txt vem de três coisas:
Configure com cuidado, revise com frequência e seu site agradecerá com mais tráfego e menos dores de cabeça.
Sobre mim
Sou Henrique Max e trabalho com SEO técnico há 5 anos. Já ajudei varios sites a corrigirem problemas de indexação, muitos causados por erros no robots.txt.
Continue aprendendo
Mais conteúdo para você dominar o SEO técnico
O que é Crawl Budget e quando ele realmente importa
Entenda como o Google gerencia o rastreamento do seu site e aprenda a otimizar este recurso limitado
Acessar conteúdo completoComo diagnosticar problemas de indexação no Google Search Console
Aprenda a usar as ferramentas do GSC para identificar e corrigir falhas de rastreamento e indexação
Acessar conteúdo completoQuantas URLs um sitemap deve ter no máximo
Otimize seus sitemaps XML seguindo as diretrizes técnicas do Google para melhorar o rastreamento
Acessar conteúdo completo