中华书局数字出版中心主任李晨光:投入大量精力参与数字化建设

数字出版这个概念有一个发展过程,如果从文本数据化的准备开始,那么,中华书局的数字化工作开始于2001年。这一年,中华书局进行了“中华古籍语料库”项目的可行性研究,由此开始了古籍数字化工作。2003年“中华古籍语料库”正式启动,同年成立古籍资源部,全面开展古籍数字化。数字化工作开展初期,以加工古籍语料为主,将中华书局传统铅排古籍数字化,通过5期语料库建设,书局编辑加工了3亿字高质量的点校本古籍语料,为以后开发古籍数字化产品打好了基础。多年语料库工程的经验,使中华书局形成了一整套规范的数据采集、加工工作流程,保证了基本数据的可靠性与完整性。

在古籍数字化的工作中,结合遇到的问题和对未来发展的思考,中华书局投入了大量精力参与数字化相关项目的建设和研发,如:“新闻出版用大字符集”项目、“信息技术中文编码字符集汉字排序(笔画序和笔顺序)”项目、国家图书馆汉字规范处理项目、“‘中华字库’工程项目”建设等。通过这些项目的建设,我们规范了计算机用字,并积累了大量的汉字属性数据,为古籍数字化的开展提供了基础条件。

在制作海量数据的同时,我们也在思考古籍数字出版的发展方向。互联网的高速发展使得海量数据加全文检索模式产品的竞争力急剧下降。大众的需求变得更高,用户需要获取的是“知识”,而不再仅仅是内容。2008年,我们认识到“知识服务”将是未来数字出版物发展的方向,开始了相关领域的探索。2009年我们开始建设“中华基本史籍分析系统”项目,尝试把二十四史为代表的中国基本史籍作深度加工,实现基于知识的内容检索,强化信息重组的能力,扩展语料库的应用。该项目在专业领域内获得了一致的好评,得到了北京市创意产业文化发展基金的支持。

2011年,中华书局启动了古籍数字出版项目———中华经典古籍库,将古籍语料库成果作更进一步编辑加工,开发面向机构用户的古籍数据库产品。目前该产品已经开发完成,处于上市准备阶段。

作为一个数字化产品,“中华经典古籍库”功能丰富。除去原书图像对照功能外,该产品的检索功能也颇具特色,包括书目检索和全文检索。由于保留了点校本古籍的整理成果,该产品能实现在正文、校注、书名、专名、标题等小范围内的全文检索,满足不同的研究需求。系统能对任何检索词自动进行繁简关联,且额外收录了异体字字典的内容,共计47000多对,从而也能实现异体关联。

围绕古籍整理、学术研究等核心业务,中华书局也出版了面向更广泛读者的出版物,对这类出版物,我们采取有序渐进的方式,选择优质、适合出版物特点的平台,合作推广电子书、期刊等,如知网。2013年,中华书局电子书在多看阅读平台上线。今后,还将选择合适的平台上线中华书局电子书。

责任编辑:袁思源
分享到微信

分享到:

主办单位:中国出版集团公司 网站维护:中版集团数字传媒有限公司 技术开发:博云易讯技术有限公司 中国出版集团公司 2009,All Rights Reserved 京ICP备12053001号