Artigo
Como extrair texto do HTML do WP para read time e sumário
Se você trabalha com conteúdos no WordPress e precisa tornar cada página mais objetiva, entender como extrair o texto do HTML do WP para estimar o tempo de leitura (read time) e gerar um sumário eficaz é essencial. Esse processo não depende de ferramentas milagrosas: envolve entender onde o conteúdo fica, quais elementos atrapalham a…
Se você trabalha com conteúdos no WordPress e precisa tornar cada página mais objetiva, entender como extrair o texto do HTML do WP para estimar o tempo de leitura (read time) e gerar um sumário eficaz é essencial. Esse processo não depende de ferramentas milagrosas: envolve entender onde o conteúdo fica, quais elementos atrapalham a contagem de palavras e como transformar esse texto bruto em informações rápidas para o leitor. A ideia é entregar um método que ajude a definir expectativas, planejar a leitura e estruturar o conteúdo de forma prática para o usuário final.
Nesse guia, você vai encontrar um caminho pragmático para chegar a leituras mais precisas e a um sumário claro, sem depender de promessas impossíveis. A cada etapa, o foco é a aplicação real: o que fazer no WordPress, quais funções usar de forma segura e como validar os resultados com exemplos do dia a dia. Ao finalizar, você terá um roteiro pronto para adaptar aos seus temas, mantendo a experiência de usuário como prioridade.
Entendendo a estrutura HTML do WordPress
Onde está o texto principal dentro do post
Na prática, o conteúdo textual do post costuma aparecer dentro de um contêiner específico gerado pelo tema, frequentemente com classes como entry-content ou post-content. Esse texto é o que você quer contar ao estimar o read time e ao compor o sumário. Entender onde o conteúdo fica facilita a extração, especialmente em temas com estruturas personalizadas. Vale lembrar que, dependendo do tema, pode haver módulos adicionais (dados de metadados, caixas de autor, widgets) que não devem entrar na contagem de leitura.
“A extração de texto deve manter apenas o que o leitor precisa para entender o conteúdo, não o código.”
Elementos de formatação que dificultam a extração
Parágrafos, listas, títulos internos, links e anúncios podem inflar a contagem de palavras se não forem filtrados corretamente. Ao extrair o texto, é comum precisar remover ou desconsiderar elementos de formatação que não contribuem para a leitura básica, como scripts, widgets embutidos e blocos de código. O objetivo é chegar a um texto limpo, onde as palavras realmente contribuam para a compreensão do conteúdo.
Impacto de mídia e widgets
Imagens com texto em alt, vídeos, galerias e iframes não devem ser incluídos na contagem de palavras. Eles podem enriquecer a página, mas não substituem o texto do artigo. Em alguns casos, links descritivos ou legendas podem acrescentar nuance, mas é importante definir se eles entram na métrica de leitura. Em setups avançados, você pode incorporar o texto alternativo de imagens como apoio ao sumário, desde que haja consistência com o objetivo de leitura.
Metodologias para extrair texto e gerar read time
Abordagem com PHP no servidor (The Loop)
Uma forma comum de trabalhar com HTML do WordPress é no servidor, dentro do loop clássico. Você pode obter o conteúdo bruto com get_the_content() (ou the_content em contexto de exibição), aplicar filtros do WordPress e, em seguida, limpar o HTML para extrair apenas o texto. Em termos práticos, você pode usar strip_tags para remover as tags HTML, mantendo apenas o texto legível. Para referência oficial, veja a função the_content no Codex/WordPress Developer: the_content e o conjunto de funções do loop em The Loop. Também é comum usar get_post_field(‘post_content’, $post_id) para obter o conteúdo de forma direta antes de aplicar filtros.
“O que você precisa é do texto puro, não do HTML completo.”
Abordagem com JavaScript no front-end (quando o HTML já está renderizado)
Se o conteúdo já foi entregue ao navegador, você pode coletar o texto diretamente do DOM. Em sites WordPress com temas modernos, o conteúdo pode estar sob seletores como .entry-content ou .post-content. A ideia é percorrer os elementos de texto visíveis, extrair o texto com textContent e depois filtrar espaços em branco. Essa abordagem funciona bem para ajustes rápidos, especialmente em páginas já publicadas, mas exige cuidado com conteúdo gerado dinamicamente ou com scripts que ocultam partes do texto.
“O read time precisa refletir o que o leitor realmente verá ao abrir a página.”
Como calcular o Read Time e montar o sumário
Definindo a taxa de leitura
Uma prática comum é usar uma taxa de leitura entre 200 e 250 palavras por minuto, com variações para o público-alvo. Esse intervalo funciona como referência inicial para a média de leitura de conteúdos online. Lembre-se de que leitores em dispositivos móveis, com foco médio, podem ter variações, então adaptar a taxa para o seu público tende a melhorar a precisão. Trata-se de uma estimativa, não de uma garantia.
Extrair trechos para o sumário
Um sumário eficaz não é apenas uma lista de títulos; ele deve indicar onde o leitor encontrará as informações-chave. Com base no texto extraído, selecione 2 a 4 trechos curtos (parágrafos iniciais, subtítulos próximos ao tema principal) que apareçam de forma natural no início do artigo. O objetivo é fornecer um “mapa” rápido do conteúdo, não apenas uma contagem de palavras. Em WP, você pode automatizar isso capturando o primeiro parágrafo, mais um parágrafo de cada seção principal, e os títulos de seções relevantes para o tema.
Tratamento de conteúdos multimídia
Inclua no sumário apenas referências que ajudem a leitura. Se houver imagens com alt-text rico ou infográficos com descrições, use o texto relevante que complemente o conteúdo, desde que não distraia a leitura. Em casos de conteúdos com vídeos ou slides, o sumário pode indicar que há recursos multimídia, mas não precisa descrevê-los em detalhe. O objetivo é orientar a leitura, não transformar o sumário em um índice de mídia.
Roteiro técnico: 6 passos para extrair e criar sumário
- Identifique o alvo: determine qual post ou página será processado e quais partes do HTML devem entrar na leitura estimada.
- Abra o conteúdo bruto: pegue o HTML gerado pelo WordPress (pode ser via the_content ou via REST API, conforme o fluxo). Consulte a documentação oficial de funções como the_content e o The Loop para entender onde o texto fica armazenado. the_content • The Loop.
- Filtre o texto: remova tags desnecessárias e conteúdos que não contribuem para a leitura (scripts, widgets, códigos). Em PHP, strip_tags é útil para retirar as tags HTML; veja a referência: strip_tags.
- Calcule o tempo de leitura: conte palavras do texto limpo e aplique a taxa de leitura escolhida (ex.: 220 wpm). Registre o resultado como uma estimativa de leitura para o usuário.
- Monte o sumário: selecione trechos representativos e organize uma lista clara de tópicos. Use títulos e parágrafos de apoio para orientar a leitura.
- Valide com exemplos reais: aplique o fluxo em posts diferentes (curto, longo, com imagens) e ajuste a taxa de leitura e a seleção de trechos conforme necessário.
Erros comuns e como evitar
Erro: contar palavras do HTML inteiro em vez de texto limpo
Contar palavras do HTML completo tende a inflar a leitura estimada e a descrever incorretamente a experiência de leitura. Corrija removendo tags e conteúdos não-textuais antes de fazer a contagem. Uma prática comum é extrair apenas o texto visível ao leitor e medir dele a quantidade de palavras.
Erro: não considerar conteúdo acessível e textos alternativos
Imagens com alt text e descrições podem enriquecer a compreensão. Se possível, inclua no sumário referências ao conteúdo textual adicional disponibilizado pelas imagens ou legendas, mantendo o foco na experiência do leitor.
Perguntas frequentes
- Q: Por que usar a Taxa de Leitura de 200 a 250 palavras por minuto? A: É uma média amplamente utilizada para conteúdos online, balanceando leitura rápida e compreensão. Pode ser ajustada com base no seu público-alvo e no comportamento de leitura do seu site.
- Q: Como evitar que o read time dependa do layout ou de anúncios? A: Concentre a contagem no texto efetivamente visível e remova conteúdos dinâmicos e anúncios da avaliação. A consistência entre posts ajuda a manter a precisão ao longo do tempo.
- Q: Preciso atualizar o sumário toda vez que o conteúdo muda? A: Se o conteúdo é editado, é recomendável reexecutar o fluxo de extração para manter o sumário alinhado com o texto atual e a leitura estimada.
Para quem atua com WordPress, entender a relação entre HTML, texto visível e leitura exige prática. A integração entre PHP (ou JavaScript no front-end) e as funções oficiais do WordPress facilita a automação sem depender de ferramentas externas pesadas. Se quiser aprofundar as bases de como o conteúdo é gerado pelo WordPress, vale consultar a documentação oficial sobre o Loop e a função the_content, além de referências sobre como manipular o conteúdo com PHP: the_content, The Loop e strip_tags.
Ao aplicar esse método, você cria uma base sólida para decisões de SEO orientadas por dados: leitura, compreensão e organização de informações, tudo com foco na experiência do usuário. O resultado não promete ranking milagroso, mas oferece ganho real de clareza e eficiência na entrega de conteúdo.
Se quiser complementar este conteúdo com exemplos práticos de código ou modelos prontos para adaptar ao seu tema, posso trazer um roteiro pronto para sua stack específica e exemplificar com trechos reais de posts do seu site.
Convido você a testar esse fluxo em um post da sua linha editorial e observar como o tempo de leitura estimado e o sumário ajudam a guiar a leitura. A prática constante facilita decisões mais rápidas sobre formatos, introduções e estrutura geral do conteúdo, alinhando-se com a intenção de busca e com a experiência do leitor.