希望可以添加对GB 18030-2022中列出的一些非常用字符的识别，方便将符合GB 18030-2022中的级别1标准的字符识别出来。 #16485

neville-studio · 2025-09-14T01:46:16Z

neville-studio
Sep 14, 2025

在使用本工具对一些医学类的书籍进行识别时，出现医学名词“错𬌗畸形”中的“𬌗”字未被识别，且被替换为其它字形相似的文本。

翻阅文件GB 18030-2022，文字“𬌗”属于实现级别1要求内的文本^[1]，但在使用本工具识别后任意字号的“𬌗”字会被替换成其他任何错误的文字。没有识别正确的版本。

后面个人猜测该工具可能无法识别部分符合GB 18030-2022中的级别1标准的文本。虽然该标准已于2023年8月强制实施。可能是由于文本编码太靠后，引入Unicode较迟的原因，暂时未被添加进识别库中。

希望可以完善OCR的功能，使得其能够识别GB 18030-2022 中级别1要求的一些汉字。

参考：
[1]中华人民共和国工业和信息化部.信息技术　中文编码字符集:GB 18030-2022[S].中国标准出版社,2022.7,715.