Tenho um PDF que tem mais de 110MB que processado com OCR depois de digitalizado.
Toda vez que temos de editar o item que tem esse PDF, o salvamento demora muito, coisa de minutos (já chegou a mais de 15 min).
Inicialmente ele dava erro 500 por causa de timeout. Eu tirei o timeout para testar e só assim o Tainacan termina o processo, mas ainda assim leva muito tempo.
Nosso servidor não é dos melhores e já notei lentidão nele por outros motivos, mas esse item, com esse PDF desse tamanho é o único que tem esse comportamento. Temos outros PDFs com até 50MB e vídeos de mais de 1GB e eles não têm problema para processar.
Note que não alteramos o PDF em momento algum depois da criação do item. Nós apenas alteramos os metadados do item.
Me parece que o tamanho desse PDF está causando o problema. Só que, para mim, isso só faz sentido se, toda vez que o item for salvo, o PDF estiver sendo reprocessado. Na entrada do PDF a primeira vez, entendo que ele tenha de ser processado para ter seu conteúdo indexado, mas não esperava que isso fosse acontecer a cada salvamento do PDF como é a minha hipótese.
Vcs conseguem me dizer por que isso poderia estar acontecendo nesse caso?
Fui investigar e é exatamente isso que você está dizendo. Eu concordo, deveria ter uma lógica básica para checar isso e evitar que ele seja reindexado sempre que o item é atualizado. Abri uma issue pra isso, acredito que ainda conseguimos atacar neste ciclo de pré-lançamento da 1.0:
@marvila este bug deve estar corrigido na versão 1.0.0. Ele ainda deve tentar processar uma vez mas ao salvar o item e voltar a editá-lo agora ele deve lembrar que já processou. Se puder testar, agradecemos
Vou tentar montar um ambiente de testes para verificar. Além da lentidão que a gente sente, que não sei se vou conseguir reproduzir. Tem alguma outra maneira de conferir se o PDF foi reprocessado?