李晨光:集中优质资源促进古籍数字化转型

“《中华经典古籍库》是中华书局版点校本古籍的首度数字化,这也是我国第一款基于整理本的古籍数据库。”中华书局数字出版中心主任李晨光这样介绍中华书局在不久前上线的大型数字出版产品。该产品主要针对机构用户,6月10日古籍库上线之初在全国已有近二十家用户安装试用,目前已增加至三十家左右,有意向使用该古籍库的用户达五十家左右。目前,国内市场上已经出现了很多不同类型的古籍库产品,相较其他古籍库,李晨光总结了《中华经典古籍库》的几大特点。

第一是版本。中华书局在自主研发的第一个数据库产品中就推出了品牌核心资源。中华书局的点校本古籍汇集了文史界专家的学术成果,尤其是“二十四史”及《清史稿》,是历时20年完成的古籍整理工程,参与整理的当代史学家均为一时之选,代表了新中国史学界各断代史研究的最高水平。古籍库收录包括“二十四史”及《清史稿》《资治通鉴》以及“新编诸子集成”“清人十三经注疏”等经典系列在内的权威整理本,一期收录三百余种,计两亿余字。另外,目前国内数字版权保护工作并不完善,中华书局古籍数字化会是一个打击盗版的有力手段。

第二,古籍库不仅可以提供索引,而且相关内容可以被直接引用。中华书局版的点校本古籍一直受到学界的广泛认可,是学术研究的引文范本,《中华经典古籍库》将所收书目的版本信息也全部准确录入,省去了查找原书的步骤,用户可以随检随引。同时,中华书局作为古籍整理的专业出版社,在数据加工上更为精细,甚至改正了不少纸书的错误,因此其数字文本准确度很高。

第三,产品不仅提供了保留全部整理成果的数字文本,还能自动生成引用格式,除支持在正文、校注、书名、专名、标题等小范围内的全文检索外,还添加了独具特色的人名异称关联检索,目前已经涵盖约十五万个人名异称。系统能对任何检索词自动进行繁简关联,且收录了异体字字典的内容,共计四万七千多对,从而也能实现异体关联。为辅助用户阅读与研究,该产品还添加了联机字典和纪年换算两个小工具。

第四,除了数字文本外,古籍库更实现了文本与原书图像的一一对照,用户可以随时点开对应的原书图像进行检验。

第五,《中华经典古籍库》将持续更新数据。中华书局计划每年推出一辑数据包,持续收录新出版的优秀整理本古籍,在保证质量的基础上有序扩充数据量,同时不断进行数据的修订与完善,预计每年更新字数为一亿字左右。

中华书局很早以前就开始了在数字出版方面的探索,为数字化的精品建设打下基础。2003年,中华书局便开展了对“中华古籍语料库”项目的研制开发,他们用6年时间将3亿字的整理本古籍作数字化处理,完成了初步的平台建设和语料积累工作。在这一过程中他们遇到了一个特殊的难题,即计算机用字大量缺失,且字符集外汉字的处理无标准可以参照。为此,中华书局投入了大量精力参与如“中华字库”“国家数字图书馆汉字规范处理项目”“新闻出版用大字符集项目”等计算机用字规范项目的建设。通过这些项目的建设,既规范了计算机古籍用字,也保证了《中华经典古籍库》造字工作的顺利开展。对古籍进行数字化加工,中华书局着重解决了造字、专名线在程序中的显示问题,完成了检索功能的优化。

知识库是今后古籍数字化的发展方向,李晨光介绍,中华书局为此已经启动了他们的第二个大型数据库产品———《中华基本史籍知识库》。这将不是一个单纯的数据库产品,而是在古籍库的基础上,收入学术著作及工具书,借鉴“史籍分析系统”项目的建设经验,建立人物、时间、地点等史籍知识元间的关联,可视化地展示其语义关系,为学者提供更为专业的知识服务。通过对知识库的建设,未来将为实现大型古籍数字化平台的搭建打下基础。

中华书局希望可以找到一条途径,吸引其他古籍类出版社参与到大型古籍数字化平台的建设中来,这样可以发挥各社优势,集聚优质资源,共同为古籍数字化转型贡献力量。

责任编辑:袁思源
分享到微信

分享到:

主办单位:中国出版集团公司 网站维护:中版集团数字传媒有限公司 技术开发:博云易讯技术有限公司 中国出版集团公司 2009,All Rights Reserved 京ICP备12053001号