[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов #521

psydok · 2025-03-26T13:47:55Z

Проблема, озвученная в #489, полностью актуальна для версии 2.3 и 2.3.2 (докер образ). Полностью воспроизводится с тем же файлом из прошлого ишью.

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
        at org.apache.fontbox.cmap.CMap.readCode(CMap.java:165)
        at org.apache.pdfbox.pdmodel.font.PDType0Font.readCode(PDType0Font.java:553)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.showText(PDFStreamEngine.java:690)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.showTextStrings(PDFStreamEngine.java:633)
        at org.apache.pdfbox.contentstream.operator.text.ShowTextAdjusted.process(ShowTextAdjusted.java:53)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processOperator(PDFStreamEngine.java:849)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processStreamOperators(PDFStreamEngine.java:495)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processStream(PDFStreamEngine.java:469)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processPage(PDFStreamEngine.java:142)
        at org.apache.pdfbox.text.LegacyPDFStreamEngine.processPage(LegacyPDFStreamEngine.java:146)
        at org.apache.pdfbox.text.PDFMarkedContentExtractor.processPage(PDFMarkedContentExtractor.java:41)
        at model.Document.parseTags(Document.java:317)
        at model.Document.load(Document.java:82)
        at DedocTableExtractor.extract(DedocTableExtractor.java:148)
        at DedocTableExtractor.run(DedocTableExtractor.java:118)
        at DedocTableExtractor.main(DedocTableExtractor.java:72)

NastyBoget · 2025-03-27T08:37:34Z

Скорее всего это связано с объемом оперативной памяти компьютера, на котором проводилось тестирование. На компьютере с размером ОП 8 Гб ошибка воспроизводится, на компьютере с размером ОП 64 Гб все отрабатывает без ошибок. Скорее всего уменьшить размер требуемой ОП не получится, так как файл большой, и ресурсов на его обработку требуется много.

@sunveil есть ли возможность уменьшить размер требуемой ОП компьютера при парсинге больших PDF?

psydok · 2025-03-27T09:18:50Z

Я заметил, что если отправлять большой файл, но просить распарсить только 2 страницы, то OOM не падает. Возможно есть какая-нибудь фича, чтобы включить парсинг файлов от 20-30мб чанками (по странично) и в конце склеивать результат будто все целиком за раз обработалось?
После тестирования файла в 23мб, я хотел бы попробовать 80мб и 100мб.

В документации не нашел, но может планируется добавить?

NastyBoget · 2025-03-27T09:37:36Z

Фичи такой нет, но идея хорошая. Добавить можно, но скорее всего это будет нескоро

NastyBoget assigned sunveil Mar 27, 2025

NastyBoget added the enhancement New feature or request label Mar 27, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов #521

[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов #521

psydok commented Mar 26, 2025

NastyBoget commented Mar 27, 2025

psydok commented Mar 27, 2025 •

edited

Loading

NastyBoget commented Mar 27, 2025

[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов #521

[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов #521

Comments

psydok commented Mar 26, 2025

NastyBoget commented Mar 27, 2025

psydok commented Mar 27, 2025 • edited Loading

NastyBoget commented Mar 27, 2025

psydok commented Mar 27, 2025 •

edited

Loading