Conteúdo do PDF feito com OCR não aparece nas pesquisas

Oi pessoal, tudo bem?

Nós temos dois tipos de PDFs no acervo.

O primeiro tem origem em programas de criação de PDF e todo o conteúdo é pesquisável normalmente pelo Tainacan, aparecendo nas pesquisas.

O segundo foi criado a partir de imagens de itens antigos, como jornais e revistas, cujo conteúdo foi lido com OCR. Estes não aparecem nos resultados de pesquisa, mesmo quando pesquisamos por palavras que sabemos que existem dentro do conteúdo.

Em ambos os casos, basta abrir o item específico no site para ver o PDF e usar a pesquisa do próprio browser por aquela palavra e ela ser identificada dentro do PDF como esperado.

Ou seja, por algum motivo a pesquisa do Tainacan pelo conteúdo do PDF não funciona quando este conteúdo foi gerado usando OCR. Eu conferi e não é o caso de uma palavra estar com um caracter errado (como um L em vez de i ou um espaço em branco a mais), mas me parece que esse conteúdo não é lido mesmo.

Vocês já viram isso? Sabem se tem alguma razão para isso acontecer?

Uma coisa que pensei foi a possibilidade desses PDFs com problema (OCR) terem sido importados antes do parâmetro de indexar conteúdo dos PDF nas pesquisas (TAINACAN_INDEX_PDF_CONTENT) ser adicionado ao wp-config.php, pois não tenho esse histórico do sistema.

Não sei se isso faz sentido, mas me veio como possibilidade caso a leitura do conteúdo do PDF aconteça no momento do envio para o Tainacan.

Obrigado!

Não conheço muito dos pormenores desta parte do código, mas olhando aqui me parece que sim, a indexação é feita em um hook que é disparado quando o documento do item é atualizado. Você pode experimentar remover o documento e enviar novamente?

boa tarde, existe um comando na wp-cli que refaz a indexação dos conteúdos dos PDF:

Oi Vinícius, tudo bem?

Eu acabei de fazer a reindexação dos PDFs pelo cli e o problema não foi resolvido :frowning:

Essa é a saída do WP Cli.

wp tainacan index-content --collection=all
indexing documents of items to collection 10:  100% [=============================================================================================================================================] 2:57 / 2:11
Success: 
2322 items indexed

Após esse comando ser executado, eu fui na pesquisa da coleção, tanto no site como usuário, quanto no admin do tainacan e ambos não trazem uma palavra que eu sei que existe no documento.

Abrindo o a página do item, eu consigo encontrar essa palavra normalmente executando a pesquisa do próprio navegador.

Então me parece que pode existir algum problema na indexação do conteúdo gerado por OCR no PDF.

Tem mais alguma coisa que pode estar atrapalhando essa pesquisa pela palavra nesses PDFs feitos via OCR?

Muito obrigado!

bom dia @marvila
você consegue me enviar um PDF de exemplo para eu testar no meu ambiente?

Vou mandar o PDF no privado :slight_smile:

atualizamos a versão da biblioteca que recupera os dados do PDF, isso deve ser suficiente para pegar esse tipo de conteúdo

1 curtida

Foi resolvido com a nova versão, muito obrigado!

bastou apenas que eu fizesse a reindexação com o WP CLI e os arquivos em OCR antigos passaram a ser indexados.

1 curtida