Skip to content

IncompleteJSONError avec ijson #113

@ColinMaudry

Description

@ColinMaudry

Je pensais qu'on avait résolu ce soucis avec #107, mais non : avec de nombreux fichiers (par exemple decp-2022.json du dataset EPIDE), cette erreur apparaît :

09:28:49.401 | INFO    | Task run 'stream_get-0e1' - Finished in state Completed()
09:28:49.405 | INFO    | Task run 'json_stream_to_parquet-d97' - Finished in state Completed()
09:28:49.408 | INFO    | Task run 'get_resource-b08' - Finished in state Completed()
09:28:49.426 | INFO    | Task run 'get_clean-12c' - Finished in state Completed()
09:28:49.458 | INFO    | Task run 'get_resource-455' - ➡️  decp-2022.json (Données essentielles du profil acheteur EPIDE)
Exception ignored in: <generator object utf8_encoder at 0x78ffd3726ce0>
Traceback (most recent call last):
  File "/home/colin/git/decp-processing/.venv/lib/python3.13/site-packages/ijson/backends/python.py", line 46, in utf8_encoder
    target.close()
  File "/home/colin/git/decp-processing/.venv/lib/python3.13/site-packages/ijson/backends/python.py", line 116, in Lexer
    target.send(EOF)
  File "/home/colin/git/decp-processing/.venv/lib/python3.13/site-packages/ijson/backends/python.py", line 161, in parse_value
    raise common.IncompleteJSONError('Incomplete JSON content')
ijson.common.IncompleteJSONError: Incomplete JSON content

Dans ce cas elle est suivie d'une erreur de Deadlock documentée en #112, mais je ne sais pas si elles sont liées. Les erreurs IncompleteJSONError apparaissent très souvent, les erreurs Deadlock beaucoup moins.

ijson documente vaguement comment résoudre ce genre de problème, donc c'est à explorer.

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Projects

    Status

    Backlog

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions