PDF com mais de 110MB causando lentidões ao salvar item

marvila · Outubro 15, 2025, 1:46pm

Oi pessoal, tudo bem?

Tenho um PDF que tem mais de 110MB que processado com OCR depois de digitalizado.

Toda vez que temos de editar o item que tem esse PDF, o salvamento demora muito, coisa de minutos (já chegou a mais de 15 min).

Inicialmente ele dava erro 500 por causa de timeout. Eu tirei o timeout para testar e só assim o Tainacan termina o processo, mas ainda assim leva muito tempo.

Nosso servidor não é dos melhores e já notei lentidão nele por outros motivos, mas esse item, com esse PDF desse tamanho é o único que tem esse comportamento. Temos outros PDFs com até 50MB e vídeos de mais de 1GB e eles não têm problema para processar.

Note que não alteramos o PDF em momento algum depois da criação do item. Nós apenas alteramos os metadados do item.

Me parece que o tamanho desse PDF está causando o problema. Só que, para mim, isso só faz sentido se, toda vez que o item for salvo, o PDF estiver sendo reprocessado. Na entrada do PDF a primeira vez, entendo que ele tenha de ser processado para ter seu conteúdo indexado, mas não esperava que isso fosse acontecer a cada salvamento do PDF como é a minha hipótese.

Vcs conseguem me dizer por que isso poderia estar acontecendo nesse caso?

Obrigado!

mateus.m.luna · Outubro 15, 2025, 2:04pm

Salve @marvila!

Fui investigar e é exatamente isso que você está dizendo. Eu concordo, deveria ter uma lógica básica para checar isso e evitar que ele seja reindexado sempre que o item é atualizado. Abri uma issue pra isso, acredito que ainda conseguimos atacar neste ciclo de pré-lançamento da 1.0:

github.com/tainacan/tainacan

PDF content being parsed even if document does not change.

abertos 02:02PM - 15 Oct 25 UTC

mateuswetah

[Type] Bug [Effort] Level 1 😎 [Module] Admin

The `generate_index_content` function is being called inside the `tainacan-api-i…tem-updated` hook. There should be a check there to avoid parsing the content every time the item is update, unless there has been an actual change to the document itself. This was reported here: https://tainacan.discourse.group/t/pdf-com-mais-de-110mb-causando-lentidoes-ao-salvar-item/2525

mateus.m.luna · Outubro 30, 2025, 7:09pm

@marvila este bug deve estar corrigido na versão 1.0.0. Ele ainda deve tentar processar uma vez mas ao salvar o item e voltar a editá-lo agora ele deve lembrar que já processou. Se puder testar, agradecemos

marvila · Outubro 30, 2025, 8:43pm

Obrigado, Mateus.

Vou tentar montar um ambiente de testes para verificar. Além da lentidão que a gente sente, que não sei se vou conseguir reproduzir. Tem alguma outra maneira de conferir se o PDF foi reprocessado?

mateus.m.luna · Outubro 31, 2025, 12:26pm

Uhm… pra ser sincero o único jeito que eu consigo pensar agora seria colocando um error log nessa linha aqui:

github.com/tainacan/tainacan

src/classes/class-tainacan-media.php

af6c0221f


      
          
          		// Allow plugins to implement other approach to index pdf contents
          		$alternate = apply_filters('tainacan-index-pdf', null, $file, $item_id);
          		if ( ! \is_null($alternate) ) {
          			return $alternate;
          		}
          
          		try {
          			$parser = new \Smalot\PdfParser\Parser();
          			$content = $parser->parseFile($file)->getText();
          
          			$wp_charset = get_bloginfo('charset');
          			$content_charset = mb_detect_encoding($content);
          			$content = mb_convert_encoding($content, $wp_charset, $content_charset);
          			update_post_meta( $item_id, SELF::$content_index_meta, $content );
          			
          			// Store file metadata for future change detection (only if we have valid data)
          			if ($current_mod_time !== false && $current_file_size !== false) {
          				$file_info = array(
          					'file_name' => $current_file_name,
          					'mod_time' => $current_mod_time,

Eu acho que é até algo que podemos planejar pro futuro, salvar um post_meta pra mostrar na interface que este cara já foi indexado e tal…

Tópico		Respostas	Visualizações
Tainacan muito lento para mostrar itens no admin e executar Edição em Massa Suporte	20	129	23 de Janeiro de 2026
Conteúdo do PDF feito com OCR não aparece nas pesquisas Erros	9	115	25 de Novembro de 2025
Informação sobre indexação do PDF Dúvidas	9	79	18 de Dezembro de 2025
Arquivos pdf não aparecem no visualizador do PDF na página do item Tainacan 0.19 Dúvidas	4	339	23 de Agosto de 2022
Não está pegando a primeira página do PDF Erros	25	890	19 de Abril de 2022

PDF com mais de 110MB causando lentidões ao salvar item

Tópicos relacionados