希望可以添加对GB 18030-2022中列出的一些非常用字符的识别,方便将符合GB 18030-2022中的级别1标准的字符识别出来。 #16485
neville-studio
started this conversation in
Ideas & Features
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
在使用本工具对一些医学类的书籍进行识别时,出现医学名词“错𬌗畸形”中的“𬌗”字未被识别,且被替换为其它字形相似的文本。
翻阅文件GB 18030-2022,文字“𬌗”属于实现级别1要求内的文本[1],但在使用本工具识别后任意字号的“𬌗”字会被替换成其他任何错误的文字。没有识别正确的版本。
后面个人猜测该工具可能无法识别部分符合GB 18030-2022中的级别1标准的文本。虽然该标准已于2023年8月强制实施。可能是由于文本编码太靠后,引入Unicode较迟的原因,暂时未被添加进识别库中。
希望可以完善OCR的功能,使得其能够识别GB 18030-2022 中级别1要求的一些汉字。
参考:
[1]中华人民共和国工业和信息化部.信息技术 中文编码字符集:GB 18030-2022[S].中国标准出版社,2022.7,715.
Beta Was this translation helpful? Give feedback.
All reactions