O primeiro tem origem em programas de criação de PDF e todo o conteúdo é pesquisável normalmente pelo Tainacan, aparecendo nas pesquisas.
O segundo foi criado a partir de imagens de itens antigos, como jornais e revistas, cujo conteúdo foi lido com OCR. Estes não aparecem nos resultados de pesquisa, mesmo quando pesquisamos por palavras que sabemos que existem dentro do conteúdo.
Em ambos os casos, basta abrir o item específico no site para ver o PDF e usar a pesquisa do próprio browser por aquela palavra e ela ser identificada dentro do PDF como esperado.
Ou seja, por algum motivo a pesquisa do Tainacan pelo conteúdo do PDF não funciona quando este conteúdo foi gerado usando OCR. Eu conferi e não é o caso de uma palavra estar com um caracter errado (como um L em vez de i ou um espaço em branco a mais), mas me parece que esse conteúdo não é lido mesmo.
Vocês já viram isso? Sabem se tem alguma razão para isso acontecer?
Uma coisa que pensei foi a possibilidade desses PDFs com problema (OCR) terem sido importados antes do parâmetro de indexar conteúdo dos PDF nas pesquisas (TAINACAN_INDEX_PDF_CONTENT) ser adicionado ao wp-config.php, pois não tenho esse histórico do sistema.
Não sei se isso faz sentido, mas me veio como possibilidade caso a leitura do conteúdo do PDF aconteça no momento do envio para o Tainacan.
Não conheço muito dos pormenores desta parte do código, mas olhando aqui me parece que sim, a indexação é feita em um hook que é disparado quando o documento do item é atualizado. Você pode experimentar remover o documento e enviar novamente?
Eu acabei de fazer a reindexação dos PDFs pelo cli e o problema não foi resolvido
Essa é a saída do WP Cli.
wp tainacan index-content --collection=all
indexing documents of items to collection 10: 100% [=============================================================================================================================================] 2:57 / 2:11
Success:
2322 items indexed
Após esse comando ser executado, eu fui na pesquisa da coleção, tanto no site como usuário, quanto no admin do tainacan e ambos não trazem uma palavra que eu sei que existe no documento.
Abrindo o a página do item, eu consigo encontrar essa palavra normalmente executando a pesquisa do próprio navegador.
Então me parece que pode existir algum problema na indexação do conteúdo gerado por OCR no PDF.
Tem mais alguma coisa que pode estar atrapalhando essa pesquisa pela palavra nesses PDFs feitos via OCR?