Informação sobre indexação do PDF

Boa tarde! Vi que na versão 1.0, nas configurações, aparece:

image

Isso é para pesquisar no texto do pdf? Vi em algum tópico antigo que tal funcionalidade estava em fase de teste. Foi implementado na versão 1.0? Eu marquei a opção, salvei, mas não consegui fazer a pesquisa.

Olá @Celma, tudo bem? A funcionalidade em si já existia faz um tempinho, o que tem de novidade é a possibilidade de se habilitar ou desabilitar isso via interface.

Mas tem alguns fatores pra isso funcionar. Primeiro vale dar uma olhada na sua tela de Diagnóstico do Sistema, ver se não tem nada faltando por lá. Depois, caso esta opção não estivesse habilitada antes, pode ser que seja necessário reindexar o conteúdo. Temos um comando que pode ser rodado por administradores do servidor para executar isso em massa. Caso você não tenha acesso ao servidor, pode fazer manualmente editando o item e enviando o arquivo novamente.

Uma vez feito isso o que deve ocorrer é que ao fazer uma busca textual (a barra de busca simples) texto que estava dentro do conteúdo do PDF deve ser alcançável.

Por fim vale lembrar que nem todo conteúdo de PDF pode ser extraído com perfeição. Usamos um OCR chamado Smallot que tenta extrair os dados e convertê-lo em texto mas é natural que possam haver algumas percas de informações como caracteres misturados, acentos confundidos, e às vezes até falha de leitura se o PDF conter imagens de texto ao invés de texto de fato.

Oi Mateus! Boa tarde! Que ótimo! Valeu demais pelas informações mais uma vez! Você é 1000!!! Muito obrigada!

Oi Mateus, boa tarde!

Pedi para o pessoal da nossa STI rodar o comando e a pessoa responsável me retornou com a seguinte mensagem:

No entanto, fizemos alguns testes e vimos que alguns arquivos legíveis, que foram inseridos a mais tempo não estavam sendo recuperados. Nesse caso, rodamos o comando novamente? Ou teria alguma outra coisa a ser feita? Já olhamos a tela de diagnóstico do sistema e parece que está tudo certo. A base já está com mais de 3000 registros, enviar novamente os arquivos, vai ser um trabalho hérculeo.

Obrigada e bom final de semana!

Olá @Celma , tudo bem? Este comando aí é pra recalcular os metadados de controle. Seria o index-content.

Oi Mateus, boa tarde! Tudo bem? Nós atualizamos o Tainacan e rodamos o comando que você nos indicou.

Mas, não está funcionando. Será que está tendo algum outro problema?

Em relação a essa questão, observei que na busca avançada aparece automaticamente um item de pesquisa, “conteúdo do documento”, não é um metadado que criamos. É para buscar no texto integral? Mas, no nosso caso, também não está funcionando.

Muito obrigada mais uma vez!!!:smiling_face_with_three_hearts:

É difícil @Celma, não sei o que poderia estar faltando aí, precisaria mergulhar em detalhes do servidor para entender. à esta altura não dá pra avançar sem demandar mais coisas do pessoal que está com acesso ao servidor.

Por exemplo, quando vocês rodam o comando, aparece algo relevante nolog de erros do apache? Talvez algo sobre o módulo Smallot?

E se quem tem acesso fazer um teste, via phpMyAdmin ou via WP CLI para olhar os post meta, conseguiria encontrar algum com a chave document_content_index?

Oi Mateus, boa tarde! Vou repassar sua resposta para o pessoal da TI. Estou achando estranho porque nem os que inseri após a atualização estão sendo recuperados. :smiling_face_with_tear:

Olha, nem sei como te agradecer pela atenção e disponibilidade de sempre! Você é 1.000!!! Muito obrigada! Boas festas! E um ano cheio de muitas alegrias e realizações para você! (Já estou mandando os votos, para caso, não nos falemos mais antes do Natal.).

1 Like

Oi Mateus, boa tarde! Deu certo a busca no PDF, você não vai acreditar o que era :sweat_smile: . É que temos uma versão de homologação (para testes) e uma de produção. Eu tinha marcado na de teste a opção de busca no PDF e me esqueci de marcar na de produção. :grimacing: Eita cabeça no final de ano. Mas, foi bom para fazermos algumas atualizações no servidor e nas bases. Valeu aí! Tainacan funcionando a todo vapor! :smiling_face_with_three_hearts: :sparkling_heart:

1 Like

Hahahha que ótimo @Celma!

O melhor bug é aquele que não existe :rofl:

Um bom descanso e um ótimo final de ano pra vocês :tada: