领导活动 | 部门工作动态 | 集团新闻 | 媒体关注 | 图片新闻 | 视频新闻 | 专题报道 | 一周回顾

古联OCR系统助力古籍数字化

今年4月,中办、国办印发了《关于推进新时代古籍工作的意见》(以下简称“意见”),《意见》中明确指出做好古籍工作对“赓续中华文脉、弘扬民族精神、增强国家文化软实力、建设社会主义文化强国”的重要意义。为深入推进新时代古籍工作,《意见》将古籍数字化工作放在特别突出的位置。古籍数字化不仅是古籍保护与传承发展的重要手段,也是实现古籍文本结构化,形成知识体系等研究开展的基础。

想要实现古籍数字化,第一步就是要获取古籍文本。如何大规模、快速、准确地获取古籍文本?仅仅依靠人工识别早已无法满足古籍整理的需求,越来越多的整理者转而求助于技术——OCR文字识别。

OCR(Optical Character Recognition),中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。早在1970年代末,我国就开始进行了汉字OCR的研究工作,在1990年代以后推出了许多成熟的印刷体简体中文OCR软件及搭载OCR软件的扫描仪、扫描笔,然而中文古籍的学习者、研究者、整理者,仿佛被遗忘在了笔耕砚田的时代中。市面上可以处理繁体竖排、手写体的OCR产品凤毛麟角,更别说能处理古籍的了。

由于古籍版面的特殊性及文字处理等方面的复杂性,行业内一直亟待一款能满足古籍整理数字化所需要的专业OCR识别系统。2018年10月起,中华书局古联公司开始带着实现古籍整理出版数字化转型的展望和在以往古籍数字化工程中遇到的问题,与图像识别、自然语言信息处理、云计算等相关领域的研究团队、技术公司接洽,尝试研发一款面向中文古籍的整理、研究、出版的智能OCR技术。而这一技术成果已于近日上线“籍合网”(www.ancientbooks.cn),该系统被命名为——古联OCR系统。

1

“籍合网”首页

古联OCR系统,是古联公司基于机器学习技术研发的面向古籍的智能OCR(图像文本识别)系统,该系统使用Cascade R-CNN模型进行版面分析、CRAFT模型进行文字检测、CRNN进行文字识别。借助前沿AI技术,古联OCR系统表现突出,不仅可以处理版刻、写本等各式版本类型的古籍图像,对常规古籍版面,包含双行夹注、眉批、行间批注、表格的特殊版面也能较好处理, OCR识别准确率高达98%,为新时代古籍数字化提供有力工具!

2

含眉批页面示例

3

跨页复杂表格示例

除了在古籍文字识别准确率方面表现优异,古联OCR系统还提供了便捷、高效的人工校对功能。文字识别完成后,默认以“版式校对”左图右文的形式展示结果;同时支持折校及单列校对,有效提升人工精校时的专注度。

此外,古联OCR系统中的 “候选字推荐”功能中的文字,为算法提供的其他可能的识别结果,整理者不仅可以据系统识别结果进行修正,还可以自行增字、删字,最大程度提高OCR识别的精度。据悉,古联OCR算法已通过内部批处理的方式为许多文献整理工作提供了OCR服务,识别结果得到作者、校对者、编辑的一致认可。

4

同时,古联OCR系统同步面向个人用户进行开放,服务于广大古籍爱好者。据了解,2022年12月31日之前,注册并登录籍合网账号进入OCR系统界面,即可一次性获赠100页长期有效的使用额度。据介绍,古联公司的算法团队还在进行一些特殊版面、字体、应覆盖未覆盖的汉字的标注和训练,前端开发团队也在努力搭建集图像批处理、自动标点、富文本编辑等于一体的OCR后处理服务的工作平台。

分享到:

主办单位:中国出版集团有限公司 网站维护:中版集团数字传媒有限公司   京公网安备 11010102002203号 中国出版集团有限公司 2009,All Rights Reserved 京ICP备12053001号-1