Limites do Sitemap XML: Guia Prático que Usei em Clientes Reais
Como transformei sitemaps chatos em ferramentas estratégicas para melhorar indexação
Especialista em SEO Técnico • Atualizado em
Do PDF chato à conversa com o Googlebot: como aprendi na prática
Foi só depois de perder dias tentando entender por que certas páginas dos meus clientes não eram indexadas que percebi: o sitemap não é uma lista, mas um protocolo de comunicação direta com o Googlebot. E como toda comunicação, precisa ser clara, direta e sem enrolação.
Lembro de um projeto específico. O cliente tinha um e-commerce com 80 mil produtos únicos, mas o Google só reconhecia 40% das páginas. O curioso? O sitemap dele era um único arquivo XML, com 82 mil URLs, pesando absurdos 54MB descompactado. O Googlebot simplesmente desistia no meio do caminho. Levamos três meses para consertar — mas a recuperação de tráfego orgânico foi de 215% em seis meses.
Aprendi que um sitemap bem feito pode ser a diferença entre páginas descobertas em horas ou em semanas.
Os Limites que Aprendi na Dor
Baseado no protocolo oficial sitemaps.org que o Google e Bing seguem
Os dois limites que não dá pra ignorar
Segundo o protocolo sitemaps.org que o Google e Bing seguem, existem dois limites que são lei:
Número de URLs
No máximo 50.000 URLs por arquivo. Passou disso, o Google pode simplesmente parar de ler.
Peso do arquivo
No máximo 50 MB quando descompactado. Mesmo compactado em Gzip, o limite é no arquivo expandido.
A armadilha do "Gzip"
Muita gente acha que pode compactar em Gzip e passar do limite. Segundo a documentação do Google, o limite de 50 MB é para o arquivo expandido. Se seu XML passar disso depois de descompactar, pode dar problema.
Já vi acontecer: Sites com URLs muito longas ou muitos atributos passam do limite fácil. O Googlebot para no meio e ignora todas as URLs do final.
É como mandar um email muito grande que corta no meio. A pessoa nunca vai ler o que veio depois do corte.
Quando seu site cresce: o sitemap index
Se seu site tem mais de 50.000 URLs, precisa de um Sitemap Index. É como um índice de livro que aponta para vários capítulos separados. O Google lê primeiro o índice, depois decide quais sitemaps individuais visitar.
Isso evita que páginas sumam do Google só porque o arquivo ficou grande demais. E tem mais: você pode priorizar quais categorias o Google deve olhar primeiro.
Como eu organizo na prática
Não divida aleatoriamente. Separe por tipo de conteúdo. Isso ajuda a encontrar problemas específicos e evita problemas técnicos comuns.
sitemap-index.xml
(O índice principal)
sitemap-produtos.xml
Todos os produtos
sitemap-blog.xml
Artigos do blog
sitemap-paginas.xml
Páginas institucionais
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.seusite.com/sitemap-produtos.xml</loc>
<lastmod>2024-04-20</lastmod>
</sitemap>
<sitemap>
<loc>https://www.seusite.com/sitemap-blog.xml</loc>
<lastmod>2024-04-20</lastmod>
</sitemap>
</sitemapindex>
Com isso separado, fica fácil diagnosticar problemas no Search Console. Se só os produtos não estão indexando, o problema está no sitemap-produtos.xml.
Estratégias de divisão que funcionam
Nem toda divisão é igual. Dependendo do seu site, uma estratégia pode ser muito melhor que outra:
Por período (temporal)
Ideal para sites de notícias ou blogs com milhares de artigos. Ex: sitemap-2024-01.xml, sitemap-2024-02.xml. O Google adora conteúdo fresco — e isso fica explícito na estrutura.
Por categoria/taxonomia
Perfeito para e-commerces. Ex: sitemap-calcados.xml, sitemap-roupas.xml. Permite monitorar a indexação por categoria e identificar gargalos específicos.
Por prioridade de negócio
Separe páginas de alto valor (produtos caros, landing pages) das de baixo valor (páginas de tags, autores). Assim, o Google foca no que realmente importa.
Por idioma/região
Para sites multilíngues, sitemaps separados por idioma ajudam o Google a entender a estrutura internacional. Combine com hreflang para precisão máxima.
Migração prática: De 1 sitemap para 12
Em 2025, ajudei um marketplace com 180 mil anúncios. O sitemap único deles tinha 178 mil URLs (!!!!) e 52MB. O Google ignorava 45% das URLs.
O que fizemos:
- Dividimos em 12 sitemaps por categoria principal (Eletrônicos, Casa, Moda, etc.)
- Cada sitemap ficou com 10-15 mil URLs
- Criamos um sitemap-index.xml apontando para todos
- Adicionamos
lastmoddinâmico em cada URL - Submetemos o índice no GSC e acompanhamos por 2 semanas
Em 14 dias, a cobertura de indexação passou de 55% para 92%.
Por que se preocupar com isso?
O Google tem um "orçamento" de tempo para cada site. Entender o que é Crawl Budget é essencial para sites grandes.
Segundo o próprio Google, arquivos XML muito pesados ou lentos fazem o Googlebot visitar seu site menos vezes.
Velocidade de resposta
Se seu servidor demora para entregar o XML, o Googlebot fica esperando. Esse tempo poderia ser usado para rastrear suas páginas.
Descoberta rápida
Sitemaps leves fazem novas URLs serem descobertas em minutos. Vital para notícias e promoções com prazo curto.
O impacto real no seu Crawl Budget
Pense comigo: se seu sitemap tem 80 mil URLs e 30% são lixo (redirecionamentos, erros 404, noindex), o Google está desperdiçando quase um terço do tempo de rastreamento do seu site com páginas que nunca vão aparecer nas buscas.
Dados que coletei em projetos:
- Sites com sitemap limpo: Google rastreia em média 15% mais páginas por dia
- Sitemaps com
lastmodpreciso: novas páginas indexadas 3x mais rápido - Sitemap index bem estruturado: redução de 40% em "rastreado, mas não indexado"
- Compactação Gzip ativada: tempo de download do sitemap reduz em 70-80%
Sites que otimizam seus sitemaps têm conteúdo novo indexado até 80% mais rápido. Para e-commerces com promoções relâmpago, isso é dinheiro na mesa.
Faxina no sitemap: o que tirar
O erro mais comum que vejo: sitemap inflado com URLs que não deveriam estar lá. Pelas diretrizes do Google, só URLs canônicas com status 200 OK.
Tire isso do seu sitemap agora:
URLs com Noindex
Você está dizendo "não me indexe" no sitemap e "indexe-me" no código. O Google fica confuso.
Redirecionamentos e erros
Cada 301 ou 404 no sitemap é tempo perdido que poderia ser usado em páginas que realmente importam.
Filtros infinitos
URLs de filtro de e-commerce que geram milhares de variações da mesma página.
Páginas de baixíssimo valor
Páginas de tags, autores com 1 post, arquivos de mês com 2 artigos. Só coloque no sitemap o que realmente merece indexação.
URLs não-canônicas
Se você já definiu um canonical diferente, essa URL não deveria estar no sitemap. O Google fica recebendo sinais contraditórios.
Meu processo de auditoria de sitemap
Quando pego um cliente novo com problemas de indexação, sigo este passo a passo. Leva de 2 a 4 horas, dependendo do tamanho do site:
Extraia todas as URLs do sitemap
Uso Screaming Frog em modo listagem. Carrego o XML e ele extrai todas as URLs para análise. Em sites pequenos, dá pra usar uma planilha simples.
Verifique o status HTTP de cada URL
Rodo um crawl em todas as URLs extraídas. Marco tudo que não for 200 OK. Removo imediatamente redirecionamentos, 404, 500.
Cheque meta robots e canonicals
Verifico se alguma URL no sitemap tem noindex ou canonical diferente dela mesma. Se tiver, removo do sitemap.
Agrupe as URLs válidas
Separo por tipo de conteúdo, categoria ou seção. Isso ajuda a definir quantos sitemaps são necessários.
Gere os novos sitemaps
Uso um script Python ou gerador do CMS. Adiciono lastmod dinâmico. Compacto com Gzip.
Ferramentas que uso: Screaming Frog para auditoria, Python com bibliotecas lxml/requests para geração dinâmica, e o validador do Search Console para testes finais.
O que o Google realmente olha hoje
O peso das tags mudou muito. O que importava antes hoje é irrelevante. E o que era opcional agora é crucial.
<priority> e <changefreq>
O Google já falou oficialmente que ignora essas tags na maioria dos casos.
Minha opinião: Não perca tempo ajustando priority de 0.8 para 0.9. Foque na tag que realmente importa hoje.
A tag <lastmod>
Esta é a tag mais importante hoje. Precisa ter a data REAL da última alteração significativa no conteúdo.
<loc>https://www.seusite.com/artigo-seo</loc>
<lastmod>2024-04-20</lastmod>
</url>
Já vi site melhorar indexação só por corrigir as datas do lastmod. O Google confia mais em conteúdo atualizado.
Sitemap para imagens e vídeos
Se você tem um site com muitas imagens ou vídeos, deveria ter sitemaps específicos. O Google oferece namespaces separados:
<url>
<loc>https://www.seusite.com/produto</loc>
<image:image>
<image:loc>https://www.seusite.com/imagem.jpg</image:loc>
</image:image>
</url>
</urlset>
Isso ajuda suas imagens a aparecerem no Google Imagens e seus vídeos nos resultados de vídeo. Para e-commerces e sites de conteúdo visual, é indispensável.
Sitemaps para vários domínios
Dá para fazer Cross-Submit entre domínios verificados no mesmo Search Console.
Útil para migrações ou redes de sites. Já usei para ajudar cliente a migrar de domínio sem perder indexação.
News Sitemap: para quem publica notícias
Se você tem um site de notícias aprovado no Google News, precisa de um News Sitemap específico. Ele tem regras próprias: apenas URLs dos últimos 2 dias, máximo de 1.000 URLs por arquivo.
Atenção: Não misture News Sitemap com sitemap normal. São namespaces diferentes e propósitos completamente distintos. O News Sitemap acelera a descoberta no Google News especificamente.
Ferramentas que uso todo dia
Não adianta teoria sem prática. Aqui estão as ferramentas que realmente uso nos projetos, com prós e contras de cada uma:
| Ferramenta | Melhor para | Limitação | Preço |
|---|---|---|---|
| Screaming Frog | Auditoria de sitemaps existentes | Não gera sitemaps nativamente | Grátis até 500 URLs |
| Google Search Console | Monitoramento e validação | Só mostra dados depois da submissão | Gratuito |
| Python (lxml/requests) | Geração dinâmica de sitemaps | Requer conhecimento técnico | Gratuito (bibliotecas) |
| Sitemap Generator (plugin) | WordPress e CMS populares | Menos controle sobre estrutura | Grátis a $50/ano |
Valide seu sitemap antes de submeter
Sempre valido os sitemaps gerados em 3 etapas:
- Validador XML online (formato bem-formado)
- Ferramenta "Inspecionar URL" do GSC (testa 5-10 URLs aleatórias)
- Sitemap Tester do próprio GSC (testa o arquivo completo)
Checklist do que fazer agora
- Codificação UTF-8: Não adianta nada se tiver caracteres bugados.
- Caracteres especiais: URLs com
&viram&. - Robots.txt: Adicione
Sitemap: https://www.seusite.com.br/sitemap-index.xml. - Gzip ativado: Compacte sempre. Reduz em até 80% o tamanho do arquivo.
- Monitora no GSC: Acompanhe a aba de Sitemaps sempre.
- Evite erros no Robots.txt que bloqueiam sem você saber.
- Todas as URLs precisam ser 200 OK antes de ir pro sitemap.
- Lastmod real: Data da última mudança real de conteúdo, não a data atual.
Por onde começar
1. Veja quantas URLs seu sitemap tem hoje.
2. Se passar de 50k, divida em sitemap index.
3. Faça a faxina: remova tudo que não é 200 OK.
4. Acompanhe no Search Console por 1 mês.
Perguntas que me fazem sempre
1. O Google ainda usa priority e changefreq?
Na prática, não. Eles não penalizam se você tiver, mas já disseram que ignoram. Seu tempo é precioso - gaste-o garantindo que o <lastmod> está certo.
2. Com que frequência atualizar o sitemap?
Sempre que mudar algo importante. Para blogs e e-commerces, atualização automática diária. Para sites institucionais, mensal pode ser suficiente. O importante é: se atualizou o conteúdo, atualize a data no <lastmod>.
3. Sitemap influencia Core Web Vitals?
Não diretamente. Mas um sitemap bem feito garante que o Google encontre rápido as páginas que você otimizou para Core Web Vitals. É o primeiro passo para uma boa experiência.
4. Posso ter sitemaps em subdomínios diferentes?
Depende. Se o subdomínio é tratado como site separado no Search Console, precisa do próprio sitemap. Se é parte do mesmo site (como blog.seudominio.com), o sitemap pode ficar no domínio principal, mas é preciso verificar a propriedade no GSC.
5. Sitemap HTML ainda serve para alguma coisa?
Para usuários, sim — ajuda na navegação. Para SEO, o XML é o que importa. Mas um sitemap HTML bem feito ajuda na distribuição de PageRank interno. Vejo como complementar, não substituto.
O que aprendi com tudo isso
Um sitemap limpo e organizado não é frescura de técnico. É garantir que o Googlebot gaste tempo nas páginas que realmente importam para seu negócio. Depois de tantos projetos, vi que o sitemap parou de ser uma formalidade e virou minha ferramenta estratégica favorita.
A diferença entre um site com sitemap mal feito e um com sitemap otimizado é brutal: menos páginas indexadas, descoberta lenta de conteúdo novo, desperdício de crawl budget. Já cansei de ver cliente feliz porque "arrumamos o sitemap" e o tráfego orgânico deu um salto.
Se fosse começar hoje:
- Abra seu sitemap atual e conte as URLs
- Se passar de 50k, faça um sitemap index
- Tire todas as URLs que não são 200 OK
- Verifique se todas as datas do lastmod estão certas
- Olhe no Search Console todo dia por um mês
- Automatize a geração para não depender de ação manual
Quem escreveu isso
Sou Henrique Max, trabalho com SEO Técnico há anos focando em problemas reais que clientes enfrentam. Gosto mais de resolver problemas de indexação na prática do que falar sobre teoria perfeita.
Mais conteúdo que pode ajudar
SEO técnico é uma jornada. Alguns passos que já cobri:
Quantas URLs cabem num sitemap
Os números exatos e por que ultrapassar dá problema mesmo que "funcione"
Ler agoraRastreamento, indexação e ranqueamento
A diferença que ninguém explica direito. Do clique do bot ao seu site no Google.
Ler agora