Conteúdo do PDF feito com OCR não aparece nas pesquisas

marvila · Novembro 5, 2024, 12:58pm

Oi pessoal, tudo bem?

Nós temos dois tipos de PDFs no acervo.

O primeiro tem origem em programas de criação de PDF e todo o conteúdo é pesquisável normalmente pelo Tainacan, aparecendo nas pesquisas.

O segundo foi criado a partir de imagens de itens antigos, como jornais e revistas, cujo conteúdo foi lido com OCR. Estes não aparecem nos resultados de pesquisa, mesmo quando pesquisamos por palavras que sabemos que existem dentro do conteúdo.

Em ambos os casos, basta abrir o item específico no site para ver o PDF e usar a pesquisa do próprio browser por aquela palavra e ela ser identificada dentro do PDF como esperado.

Ou seja, por algum motivo a pesquisa do Tainacan pelo conteúdo do PDF não funciona quando este conteúdo foi gerado usando OCR. Eu conferi e não é o caso de uma palavra estar com um caracter errado (como um L em vez de i ou um espaço em branco a mais), mas me parece que esse conteúdo não é lido mesmo.

Vocês já viram isso? Sabem se tem alguma razão para isso acontecer?

Uma coisa que pensei foi a possibilidade desses PDFs com problema (OCR) terem sido importados antes do parâmetro de indexar conteúdo dos PDF nas pesquisas (TAINACAN_INDEX_PDF_CONTENT) ser adicionado ao wp-config.php, pois não tenho esse histórico do sistema.

Não sei se isso faz sentido, mas me veio como possibilidade caso a leitura do conteúdo do PDF aconteça no momento do envio para o Tainacan.

Obrigado!

mateus.m.luna · Novembro 5, 2024, 1:27pm

Não conheço muito dos pormenores desta parte do código, mas olhando aqui me parece que sim, a indexação é feita em um hook que é disparado quando o documento do item é atualizado. Você pode experimentar remover o documento e enviar novamente?

vnmedeiros · Novembro 5, 2024, 7:47pm

boa tarde, existe um comando na wp-cli que refaz a indexação dos conteúdos dos PDF:

marvila · Novembro 11, 2024, 11:48am

Oi Vinícius, tudo bem?

Eu acabei de fazer a reindexação dos PDFs pelo cli e o problema não foi resolvido

Essa é a saída do WP Cli.

wp tainacan index-content --collection=all
indexing documents of items to collection 10:  100% [=============================================================================================================================================] 2:57 / 2:11
Success: 
2322 items indexed

Após esse comando ser executado, eu fui na pesquisa da coleção, tanto no site como usuário, quanto no admin do tainacan e ambos não trazem uma palavra que eu sei que existe no documento.

Abrindo o a página do item, eu consigo encontrar essa palavra normalmente executando a pesquisa do próprio navegador.

Então me parece que pode existir algum problema na indexação do conteúdo gerado por OCR no PDF.

Tem mais alguma coisa que pode estar atrapalhando essa pesquisa pela palavra nesses PDFs feitos via OCR?

Muito obrigado!

vnmedeiros · Novembro 12, 2024, 10:59am

bom dia @marvila
você consegue me enviar um PDF de exemplo para eu testar no meu ambiente?

marvila · Novembro 14, 2024, 7:59pm

Vou mandar o PDF no privado

vnmedeiros · Novembro 25, 2024, 7:41pm

atualizamos a versão da biblioteca que recupera os dados do PDF, isso deve ser suficiente para pegar esse tipo de conteúdo

marvila · Janeiro 13, 2025, 11:41am

Foi resolvido com a nova versão, muito obrigado!

bastou apenas que eu fizesse a reindexação com o WP CLI e os arquivos em OCR antigos passaram a ser indexados.

Alan_Bittencourt · Novembro 24, 2025, 11:31pm

Olá @vnmedeiros e @mateus.m.luna Qual a biblioteca precisa estar instalada no servidor para o tainacan ler o conteudo dos pdfs?

mateus.m.luna · Novembro 25, 2025, 12:09pm

Olá @Alan_Bittencourt, tudo bem?

Usamos a Smalot\PDF_Parser mas ela vem instalada no próprio pacote do Tainacan. Ela não vai conseguir ler todos os casos de PDF, claro, alguns com texto puramente em imagem por exemplo podem ser prejudicados, mas em geral faz um bom trabalho de extrair o conteúdo.

Tópico		Respostas	Visualizações
PDF search Suporte	4	38	20 de Janeiro de 2026
Full text search Dúvidas coleções	6	339	26 de Setembro de 2023
Informação sobre indexação do PDF Dúvidas	9	79	18 de Dezembro de 2025
Há possibilidade de usar o TAINACAN para indexar PDFs pesquisáveis sem a necessidade de um programador? Dúvidas	9	414	11 de Abril de 2022
Arquivos PDF anexados a um item não são encontrados na pesquisa por conteúdo Suporte	4	62	5 de Setembro de 2025

Conteúdo do PDF feito com OCR não aparece nas pesquisas

Tópicos relacionados