PDF com mais de 110MB causando lentidões ao salvar item

Oi pessoal, tudo bem?

Tenho um PDF que tem mais de 110MB que processado com OCR depois de digitalizado.

Toda vez que temos de editar o item que tem esse PDF, o salvamento demora muito, coisa de minutos (já chegou a mais de 15 min).

Inicialmente ele dava erro 500 por causa de timeout. Eu tirei o timeout para testar e só assim o Tainacan termina o processo, mas ainda assim leva muito tempo.

Nosso servidor não é dos melhores e já notei lentidão nele por outros motivos, mas esse item, com esse PDF desse tamanho é o único que tem esse comportamento. Temos outros PDFs com até 50MB e vídeos de mais de 1GB e eles não têm problema para processar.

Note que não alteramos o PDF em momento algum depois da criação do item. Nós apenas alteramos os metadados do item.

Me parece que o tamanho desse PDF está causando o problema. Só que, para mim, isso só faz sentido se, toda vez que o item for salvo, o PDF estiver sendo reprocessado. Na entrada do PDF a primeira vez, entendo que ele tenha de ser processado para ter seu conteúdo indexado, mas não esperava que isso fosse acontecer a cada salvamento do PDF como é a minha hipótese.

Vcs conseguem me dizer por que isso poderia estar acontecendo nesse caso?

Obrigado!

Salve @marvila!

Fui investigar e é exatamente isso que você está dizendo. Eu concordo, deveria ter uma lógica básica para checar isso e evitar que ele seja reindexado sempre que o item é atualizado. Abri uma issue pra isso, acredito que ainda conseguimos atacar neste ciclo de pré-lançamento da 1.0:

@marvila este bug deve estar corrigido na versão 1.0.0. Ele ainda deve tentar processar uma vez mas ao salvar o item e voltar a editá-lo agora ele deve lembrar que já processou. Se puder testar, agradecemos :slight_smile:

1 Like

Obrigado, Mateus.

Vou tentar montar um ambiente de testes para verificar. Além da lentidão que a gente sente, que não sei se vou conseguir reproduzir. Tem alguma outra maneira de conferir se o PDF foi reprocessado?

Uhm… pra ser sincero o único jeito que eu consigo pensar agora seria colocando um error log nessa linha aqui:

Eu acho que é até algo que podemos planejar pro futuro, salvar um post_meta pra mostrar na interface que este cara já foi indexado e tal…

Este tópico foi fechado automaticamente 60 dias depois da última resposta. Novas respostas não são mais permitidas.