Skip to content

Coversion of the document contains false positive classified tables #1680

Open
@fifibanana

Description

@fifibanana

Bug

Conversion of the document contains some false classified tables. Some plain text sections are being misclassified as tables, resulting in false positives during the table extraction phase. This causes incorrect structure in the output (e.g. misplaced table tags or cells with arbitrary segmentation).

Steps to reproduce

Soruce pdf: iriesd_enea-operator_wer.2.3.pdf
Page 12

Image

The portion shown in the attached screenshot (items I.1.12 to I.1.22) is mistakenly interpreted as a table, although the layout and semantics indicate it's a regular list of paragraphs.

Pipeline Options that i used

pipeline_options.do_ocr = True
pipeline_options.do_table_structure = True
pipeline_options.table_structure_options.do_cell_matching = True
pipeline_options.accelerator_options = accelerator_options
pipeline_options.ocr_options = EasyOcrOptions(force_full_page_ocr=True, lang=["pl", "en"])
pipeline_options.generate_page_images = True
pipeline_options.generate_picture_images = True
pipeline_options.table_structure_options.mode = TableFormerMode.ACCURATE

This leads to missing some of the information from this page

Markdown output:

1.1.12. IRiESD przestaje obowiązywać podmioty z datą łącznego spełnienia następujących
1) odłączenie podmiotu od sieci dystrybucyjnej ENEA Operator;, 2) rozwiązanie Z ENEA Operator umowy 0 świadczenie usług dystrybucji lub
umowy kompleksowej: ENEA Operator udostępnia do wglądu IRiESD W swojej siedzibie oraz zamieszcza
1.1.14. ją na swoich stronach internetowych. IRiESD jak również wszelkie zmiany IRiESD podlegają zatwierdzeniu, przez
Prezesa URE, W drodze decyzji.
1.1.15. 1.1.16. Data wejścia w życie IRiESD lub jej zmian jest wpisywana na jej stronie tytułowej lub na stronie tytułowej Karty aktualizacji. W zależności od potrzeb; ENEA Operator przeprowadza aktualizację IRiESD.
1.1.17 . Zmiana IRiESD przeprowadzana jest poprzez wydanie nowej IRiESD albo poprzez wydanie Karty aktualizacji obowiązującej IRiESD.
1.1.18. Każda zmiana IRiESD jest poprzedzona procesem konsultacji Z użytkownikami systemu.
1.1.19. Karta aktualizacji zawiera w szczególności: przyczynę aktualizacji IRiESD,
1.1.19. a)
1.1.19. b) zakres aktualizacji IRiESD,
1.1.19. nowe brzmienie zmienianych zapisów IRiESD lub tekst uzupełniający dotychczasowe zapisy.
1.1.19. przypadku rozbieżności pomiędzy dotychczasowymi postanowieniami IRiESD; zapisami Karty aktualizacji, rozstrzygające są postanowienia zawarte W Karcie
1.1.19. a aktualizacji. Karty aktualizacji stanowią integralną część IRiESD .
1.1.20. Proces wprowadzania zmian IRiESD jest przeprowadzany według następującego
a) ENEA Operator opracowuje projekt nowej IRiESD albo projekt Karty aktualizacji publikuje g0 na swojej stronie internetowej,
b) wraz projektem nowej IRiESD albo projektem Karty aktualizacji, ENEA Operator publikuje na swojej stronie internetowej komunikat, informujący rozpoczęciu procesu konsultacji zmian IRiESD; miejscu sposobie nadsyłania uwag oraz okresie przewidzianym na konsultacje.
1.1.21 . Okres przewidziany na konsultacje nie może być krótszy niż 14 dni od daty opublikowania projektu nowej IRiESD albo projektu Karty aktualizacji.

Page 11 however is treated as bullet points:

  • c) opracowywanie, aktualizację udostępnianie odbiorcom oraz ich sprzedawcom ich standardowych zużycia; a także uwzględnianie zasad ich stosowania w IRiESD, profili
  • d) udostępnianie danych dotyczących planowanego rzeczywistego zużycia energii elektrycznej wyznaczonych na podstawie standardowych profili zużycia dla uzgodnionych okresów rozliczeniowych;
  • f) zamieszczanie na swoich stronach internetowych oraz udostępnianie do publicznego wglądu w swoich siedzibach:
  • wdrażanie warunków trybu zmiany sprzedawcy energii elektrycznej oraz ich uwzględnianie w IRiESD;
  • (i) aktualnej listy sprzedawców energii elektrycznej; Z którymi ENEA Operator zawarła umowy 0 świadczenie usług dystrybucji energii elektrycznej,
  • (iii) wzorców umów zawieranych Z użytkownikami systemu; W szczególności wzorców umów zawieranych 2 odbiorcami końcowymi oraz ze sprzedawcami energii elektrycznej,
  • 'ii) informacji 0 sprzedawcy Z urzędu energii elektrycznej działającym na obszarze działania ENEA Operator,
    1. współpracę Z operatorem systemu przesyłowego elektroenergetycznego przy opracowywaniu planów działania na wypadek zagrożenia wystąpienia awarii 0 znacznych rozmiarach w systemie elektroenergetycznym oraz odbudowy tego systemu po wystąpieniu awarii,
    1. planowanie rozwoju sieci dystrybucyjnej Z uwzględnieniem przedsięwzięć związanych Z efektywnością energetyczną, zarządzaniem popytem na energię elektryczną lub rozwojem mocy wytwórczych przyłączanych do sieci dystrybucyjnej,
    1. stosowanie się do warunków współpracy z operatorem systemu przesyłowego elektroenergetycznego w zakresie funkcjonowania koordynowanej sieci 110 kV,
    1. opracowywanie normalnego układu pracy sieci dystrybucyjnej W porozumieniu Z sąsiednimi operatorami systemów dystrybucyjnych oraz współpracę Z operatorem systemu przesyłowego elektroenergetycznego przy opracowywaniu normalnego układu pracy sieci dla koordynowanej sieci 110 kV,
    1. utrzymanie odpowiedniego poziomu bezpieczeństwa pracy sieci dystrybucyjnej elektroenergetycznej oraz współpracę Z operatorem systemu przesyłowego elektroenergetycznego lub systemu połączonego elektroenergetycznego W utrzymaniu odpowiedniego poziomu bezpieczeństwa pracy koordynowanej sieci 110 kV.
  • 1.1.10. Koordynowanie prowadzenia ruchu sieciowego w koordynowanej sieci 110 kV oraz dysponowanie mocą przyłączonych do niej jednostek wytwórczych 0 mocy osiągalnej równej 50 MW lub wyższej jest realizowane przez operatora systemu przesyłowego.
  • 1.1.11 . Wykaz jednostek wytwórczych oraz elementów koordynowanej sieci 110 kV, 0 których mowa W 1.1.10. jest zamieszczony W umowie przesyłowej zawartej pomiedzv ENEA Operator i OSP . pkt. 23

Docling version

2.30.0
docling-core 2.32.0

Python version

Python 3.11.0

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions