SEO Técnico

Robots.txt: Guia Definitivo para Evitar Bloqueios e Quedas de Tráfego

Aprenda a configurar seu robots.txt sem medo. Erros comuns podem fazer seu site sumir do Google e afetar sua receita. Vou te mostrar como evitar isso, com exemplos reais que vi acontecer.

Henrique Max

Especialista em SEO Técnico • Atualizado em 14 de abril, 2026

Domine o arquivo que controla o acesso do Google ao seu site

Um pequeno erro aqui pode custar seu tráfego orgânico

Vamos conversar sobre um dos arquivos mais importantes, mas também mais negligenciados, do seu site: o robots.txt. Na prática, ele é o porteiro do Google - decide quem entra, quem não entra e quais partes do seu site podem ser visitadas.

Trabalho com SEO há anos e já vi situações onde uma única linha de código errada no robots.txt fez sites inteiros desaparecerem do Google. O pior? Muitas vezes o dono do site nem percebia o que tinha acontecido.

Neste guia, vou compartilhar não só o que diz a documentação oficial do Google, mas principalmente os erros que realmente vejo acontecer no dia a dia e como evitá-los. Vamos começar entendendo melhor como o Google rastreia e indexa sites.

O robots.txt não é um arquivo que você configura uma vez e esquece. Ele precisa de atenção regular, especialmente após mudanças no site. Trate-o como um documento vivo que evolui junto com seu projeto.

Aviso importante antes de continuar

Este guia fala sobre configurações que, se feitas errado, podem tirar seu site do ar no Google. Sempre teste qualquer mudança no testador de robots.txt do Google Search Console antes de publicar.

Navegação Rápida do Artigo

1. Otimize seu tempo com o Google

Crawl Budget na prática

2. O erro que derruba sites

Disallow: /

3. Deixe o Google ver seu site direito

CSS e JavaScript

4. Como remover páginas do Google

Sem paradoxos

5. Diretivas avançadas

Crawl-delay, Allow e curingas

6. Sensibilidade a maiúsculas

Um detalhe que faz diferença

7. Convide o Google para seu sitemap

Navegação eficiente

8. Auditoria e Monitoramento

Como não errar nunca mais

Otimize o tempo que o Google passa no seu site

Crawl Budget Tempo do Google Eficiência Rastreamento

Imagine que o Google tem tempo limitado para visitar seu site. Esse tempo é o Crawl Budget. Se você desperdiçar esse tempo com páginas sem importância, o Google não terá tempo suficiente para ver o que realmente importa.

Em português claro: O Google visita seu site por um tempo determinado. Se ele gastar esse tempo em páginas de filtro, resultados de busca interna ou áreas administrativas, não sobra tempo para indexar seus produtos, artigos ou páginas importantes.

Eu já vi sites onde 80% do tempo do Google era gasto em URLs que nunca deveriam ser indexadas. Isso é um dos 3 problemas técnicos mais comuns que prejudicam SEO.

Como o Crawl Budget funciona na prática

O Googlebot analisa vários fatores para determinar quanto tempo gastar no seu site:

Fatores Técnicos

• Velocidade de resposta do servidor
• Quantidade de erros 5xx
• Tamanho do site (número de URLs)
• Frequência de atualização do conteúdo

Fatores de Qualidade

• Popularidade do site (backlinks)
• Qualidade do conteúdo
• Estrutura de links internos
• Atualização dos sitemaps

Como fazer na prática

# Bloqueie URLs que não trazem valor

User-agent: *

Disallow: /search?

Disallow: /?s=

Disallow: /?filter=

Disallow: /?sessionid=

Disallow: /?utm_

Disallow: /?orderby=

Disallow: /?sort=

Disallow: /tag/

# Deixe o Google acessar o que importa

Allow: /blog/

Allow: /produtos/

Allow: /categorias/

Allow: /$

Basicamente: "Google, não perca tempo com buscas internas e filtros. Vá direto para os produtos e artigos que me dão visitas."

Use expressões curinga (*) para bloquear padrões de URL. Por exemplo, Disallow: /*?* bloqueia qualquer URL com parâmetros de consulta, independente do caminho.

Se você usa WordPress, muitas vezes plugins de cache ou SEO já adicionam essas regras automaticamente. Vale a pena verificar.

O erro que fez sites sumirem do Google

Desindexação Bloqueio Total AdSense Erro Crítico

Esta é a linha de código mais perigosa que você pode colocar no robots.txt de um site em produção:

User-agent: *

Disallow: /

Traduzindo: "Google, não entre em NENHUMA parte do meu site." Parece óbvio que isso é ruim, mas você ficaria surpreso com a frequência com que isso acontece.

E os anúncios do AdSense?

Tem um robô específico chamado Mediapartners-Google que analisa seu conteúdo para mostrar anúncios relevantes. Se você bloquear todos os robôs (com User-agent: *), esse robô também é bloqueado.

Resultado: espaços em branco onde deveriam ter anúncios. Conforme o suporte do AdSense, isso afeta diretamente sua receita.

Sempre verifique seu robots.txt após qualquer mudança no site. Use o Google Search Console para testar.

Por que isso é tão comum?

Ambientes de teste

Desenvolvedores bloqueiam o site de staging para evitar indexação duplicada. No deploy, esquecem de remover.

Cópia de templates

Templates de sites WordPress às vezes vêm com robots.txt restritivo. O dono do site nunca verifica.

Falta de conhecimento

Pessoas copiam regras de fóruns sem entender o que cada linha faz.

Se você descobrir um Disallow: / em produção

Remova IMEDIATAMENTE a regra
Use a ferramenta "Inspecionar URL" no Search Console para pedir reindexação
Envie seu sitemap novamente
Monitore o relatório de cobertura nas próximas 48h

Deixe o Google ver seu site como ele realmente é

Renderização Velocidade Experiência móvel Core Web Vitals

O Google moderno não só lê o HTML do seu site - ele o renderiza, como se fosse um navegador. Se você bloquear arquivos CSS ou JavaScript, o Google não consegue ver seu site direito.

Pense assim: você convida alguém para sua casa, mas tranca o quarto onde guarda os móveis. A pessoa não consegue ver como a casa realmente é.

O que acontece na prática

Site "não amigável" para celular

Sem CSS, o Google não vê o design responsivo. Ele classifica seu site como ruim para celulares.

Métricas de velocidade erradas

O Google mede o carregamento sem recursos essenciais. Parece mais lento do que realmente é.

Imagens não renderizadas

Se você bloqueia CDNs ou diretórios de imagens, o Google não consegue ver o conteúdo visual.

Core Web Vitals prejudicados

LCP, FID e CLS são afetados quando recursos essenciais são bloqueados.

É importante otimizar seu JavaScript, mas não bloqueá-lo completamente. São coisas diferentes.

Se você usa WordPress

Configuração recomendada

# Deixe o Google ver tudo que precisa

User-agent: *

Allow: /wp-includes/*.js

Allow: /wp-includes/*.css

Allow: /wp-content/themes/*/assets/*.js

Allow: /wp-content/themes/*/assets/*.css

Allow: /wp-content/plugins/*/assets/*.js

Allow: /wp-content/plugins/*/assets/*.css

Allow: /wp-content/uploads/

# Proteja o que precisa ser protegido

Disallow: /wp-admin/

Disallow: /wp-login.php

Disallow: /wp-config.php

Disallow: /wp-content/plugins/

Disallow: /xmlrpc.php

Resumindo: "Google, pode ver todos os arquivos de estilo e script, mas não entre na área administrativa."

Importante: Alguns plugins de segurança bloqueiam o acesso a /wp-content/plugins/ automaticamente. Verifique se isso não está bloqueando CSS/JS que seu tema precisa.

"Muitas vezes, a otimização não está em fazer mais, mas em parar de atrapalhar. Deixar o Google acessar seus recursos já é meio caminho andado."

Como realmente remover páginas do Google

Noindex Remoção Indexação Paradoxo

Aqui tem uma confusão muito comum: as pessoas bloqueiam uma página no robots.txt esperando que ela saia do Google. Isso não funciona como elas imaginam.

Se uma página já está no Google e você a bloqueia no robots.txt, o Google para de visitá-la. Se essa página tem uma tag noindex, o Google nunca vai ler essa tag porque não pode acessar a página.

O ciclo que não se completa

1. Página está no Google
2. Você coloca noindex na página
3. Você bloqueia a página no robots.txt
4. Google não consegue visitar para ver o noindex
5. Página fica no Google para sempre

Isso explica muito sobre por que páginas somem (ou não somem) do Google.

O jeito certo: Para remover uma página, deixe o Google visitá-la e coloque noindex no HTML ou no cabeçalho HTTP. O Google explica isso claramente.

Compare você mesmo

❌ O que não funciona

# ROBOTS.TXT

User-agent: *

Disallow: /pagina-indesejada/

Isso só impede novas visitas. Se a página já está indexada, ela continua lá.

✅ O que funciona

# Na própria página (HTML)

<meta name="robots" content="noindex">

Deixe o Google visitar a página e ler essa tag. Aí sim a página será removida.

Método alternativo: Cabeçalho HTTP

Para arquivos PDF, imagens ou outros tipos de conteúdo que não são HTML, use o cabeçalho HTTP:

X-Robots-Tag: noindex

Isso é configurado no servidor (Apache, Nginx) ou via .htaccess.

Já vi empresas perderem semanas tentando remover páginas com robots.txt. Quando explicamos o correto, a remoção acontecia em dias. Às vezes, a solução é mais simples do que parece.

Diretivas avançadas que você precisa conhecer

Além das diretivas básicas Allow e Disallow, existem recursos avançados que podem ajudar (ou atrapalhar) seu SEO.

Crawl-delay: Controle a velocidade do Google

Define o tempo (em segundos) que o robô deve esperar entre as requisições. Útil para não sobrecarregar servidores mais fracos.

User-agent: *

Crawl-delay: 5

Atenção: O Googlebot ignora esta diretiva. Para controlar a velocidade do Google, use o Search Console. O Crawl-delay funciona para Bing, Yandex e outros bots menores.

Curingas e padrões avançados

O símbolo * funciona como curinga (qualquer caractere) e $ indica fim da URL.

Regra	O que bloqueia	Exemplo
`Disallow: /*.pdf$`	Bloqueia todos os PDFs	/doc.pdf ✅ /doc.pdf?download ❌
`Disallow: /temp/*`	Bloqueia todo conteúdo em /temp/	/temp/arquivo.html ✅
`Disallow: /?`	Bloqueia URLs com parâmetros	/pagina?utm=fb ✅ /pagina ❌

User-agent específicos

Você pode criar regras diferentes para cada robô de busca.

# Regras específicas para o Google

User-agent: Googlebot

Disallow: /area-restrita/

Allow: /

# Mediapartners (AdSense)

User-agent: Mediapartners-Google

Allow: /

# Regras para todos os outros

User-agent: *

Disallow: /admin/

Disallow: /tmp/

Lista completa de user-agents: Google Crawlers

Letras maiúsculas e minúsculas importam

Em servidores Linux (que são a maioria), /admin/ e /Admin/ são pastas diferentes. Se você bloquear apenas uma forma, a outra continua aberta.

Exemplo de problema

Disallow: /admin/

Essa regra não bloqueia /Admin/ nem /ADMIN/.

Solução simples

Disallow: /admin/

Disallow: /Admin/

Disallow: /ADMIN/

Ou use tudo minúsculo no seu site, ou cubra todas as variações.

Formatação importa: Linhas em branco entre regras User-agent podem ser interpretadas como o fim daquele bloco de regras por alguns robôs. Mantenha blocos de regras contínuos, sem linhas em branco.

Convide o Google para seu sitemap

Colocar o endereço do seu sitemap no robots.txt é como dar um mapa do seu site para o Google. Ele encontra tudo mais rápido.

E já que estamos falando de sitemaps, vale a pena saber quantas URLs cabem em um sitemap para não sobrecarregar o Google.

Como adicionar seu sitemap

User-agent: *

Disallow: /admin/

Allow: /

Sitemap: https://seudominio.com/sitemap.xml

Sitemap: https://seudominio.com/sitemap-news.xml

Sitemap: https://seudominio.com/sitemap-images.xml

Importante

Sempre use o endereço completo, com https://. Endereços relativos podem dar problema.

Auditoria e Monitoramento Contínuo

O robots.txt não é um arquivo "configure e esqueça". Grandes sites fazem auditorias mensais. Aqui está o processo que recomendo:

1. Verificação Automática (Semanal)

Configure um script ou use ferramentas como Screaming Frog para verificar se o robots.txt está acessível e retorna 200 OK.

↓

2. Teste no Search Console (Mensal)

Use o Testador de robots.txt para verificar se as regras estão funcionando como esperado.

↓

3. Análise de Logs (Trimestral)

Analise os logs do servidor para ver quais URLs o Google está realmente rastreando. Compare com o que você esperava.

↓

4. Revisão Manual (Após Mudanças)

Sempre que fizer deploy, redesenho ou migração, revise o robots.txt manualmente.

Checklist prático para seu robots.txt

Revise seu robots.txt a cada 3 meses ou após qualquer mudança grande no site. Esse checklist ajuda:

Configuração básica

O arquivo está em https://seudominio.com/robots.txt?
Aparece código 200 OK (não 404 ou erro)?
NÃO tem Disallow: / em produção?
O sitemap está com URL completa?
A formatação está correta (sem erros)?

Recursos e segurança

CSS e JS estão liberados?
Áreas administrativas estão bloqueadas?
URLs de filtro e busca estão bloqueadas?
Sabe como diagnosticar problemas no Search Console?
Monitora logs para URLs bloqueadas por engano?

Ferramentas que recomendo

Google Search Console TechnicalSEO Tools SEOptimer

Nível de risco dos erros mais comuns

Disallow: / (Bloqueio total) Risco Altíssimo

Seu site some do Google em horas. Já vi acontecer.

Bloqueio de CSS/JS Risco Médio

Google não vê seu site direito. Afeta posicionamento.

Tentativa de remoção errada Risco Baixo

Páginas não saem do índice, mas não geram tráfego.

Perguntas que me fazem sempre

Posso bloquear só o Google e deixar outros?

Tecnicamente sim, mas não recomendo. Seria assim:

User-agent: Googlebot

Disallow: /

User-agent: *

Allow: /

Mas sinceramente? Se você está no Google, por que bloquear ele? É a maior fonte de tráfego grátis que existe.

O robots.txt melhora velocidade?

Indiretamente. Se o Google gasta menos tempo rastreando páginas inúteis, seu servidor fica menos sobrecarregado. Em sites grandes, isso pode fazer diferença.

Com que frequência devo mexer?

Sempre que mudar algo importante no site. Fora isso, uma revisão a cada 3 meses é suficiente. E sempre teste no Google Search Console antes de considerar que está pronto.

Para terminar

O robots.txt não é um bicho de sete cabeças. É só um arquivo de texto que diz ao Google: "por aqui pode, por aqui não pode". O segredo está em dizer isso direito.

Depois de anos vendo os mesmos erros se repetirem, aprendi que a maioria dos problemas com robots.txt vem de três coisas:

Configure com cuidado, revise com frequência e seu site agradecerá com mais tráfego e menos dores de cabeça.

Sobre mim

Sou Henrique Max e trabalho com SEO técnico há 5 anos. Já ajudei varios sites a corrigirem problemas de indexação, muitos causados por erros no robots.txt.

APRENDA SEO

Continue aprendendo

Mais conteúdo para você dominar o SEO técnico

Robots.txt: Guia Definitivo para Evitar Bloqueios e Quedas de Tráfego

Domine o arquivo que controla o acesso do Google ao seu site

Aviso importante antes de continuar

Navegação Rápida do Artigo

1. Otimize seu tempo com o Google

2. O erro que derruba sites

3. Deixe o Google ver seu site direito

4. Como remover páginas do Google

5. Diretivas avançadas

6. Sensibilidade a maiúsculas

7. Convide o Google para seu sitemap

8. Auditoria e Monitoramento

Otimize o tempo que o Google passa no seu site

Como o Crawl Budget funciona na prática

Fatores Técnicos

Fatores de Qualidade

O erro que fez sites sumirem do Google

E os anúncios do AdSense?

Por que isso é tão comum?

Ambientes de teste

Cópia de templates

Falta de conhecimento

Se você descobrir um Disallow: / em produção

Deixe o Google ver seu site como ele realmente é

O que acontece na prática

Site "não amigável" para celular

Métricas de velocidade erradas

Imagens não renderizadas

Core Web Vitals prejudicados

Se você usa WordPress

Como realmente remover páginas do Google

O ciclo que não se completa

Compare você mesmo

❌ O que não funciona

✅ O que funciona

Método alternativo: Cabeçalho HTTP

Diretivas avançadas que você precisa conhecer

Letras maiúsculas e minúsculas importam

Exemplo de problema

Solução simples

Convide o Google para seu sitemap

Importante

Auditoria e Monitoramento Contínuo

1. Verificação Automática (Semanal)

2. Teste no Search Console (Mensal)

3. Análise de Logs (Trimestral)

4. Revisão Manual (Após Mudanças)

Checklist prático para seu robots.txt

Configuração básica

Recursos e segurança

Ferramentas que recomendo

Nível de risco dos erros mais comuns

Perguntas que me fazem sempre

Posso bloquear só o Google e deixar outros?

O robots.txt melhora velocidade?

Com que frequência devo mexer?

Para terminar

Sobre mim

Continue aprendendo

O que é Crawl Budget e quando ele realmente importa

Como diagnosticar problemas de indexação no Google Search Console

Quantas URLs um sitemap deve ter no máximo