中华书局古籍数字化侧记:让古籍不胫而走

程毅中先生有些烦。

这位中央文史馆馆员、中华书局前副总编,虽退休20多年,却仍然以整理古籍为业。最近他正校勘《大宋宣和遗事》(元代人根据多个笔记小说以说书形式连贯而成的话本,后成为《水浒传》的蓝本),需用笔记小说原文来对,但他用不惯手机上的数据库,打开慢不说,一不小心一碰就把页面弄丢了。

现在好了,“中华经典古籍库”微信个人专业版上线了。用户可以在电脑端使用,古籍原书图像、页码都清晰在目。

从对古籍简单的数字化处理,到产品化设计,再到互联网化……回顾一路摸索的曲曲折折,中华书局数字出版中心副主任、古联(北京)数字常务副总经理洪涛既感慨万千,又对未来充满期待。

厚积终有薄发日

洪涛是学历史的,因为喜欢计算机,2001年直接被招进中华书局信息中心。书局当时连电脑都没有,只好现买电脑,建局域网。2003年,中华书局成立了“古籍资源开发部”,建设“中华古籍语料库”。

洪涛坦言,当时完全没有数字出版概念,只是对中华书局传统铅排古籍整理书籍进行数字化编辑加工。

这一工作不仅为《史料笔记丛刊》《古典文学基本丛刊》、佛教道教典籍的出版提供了数字内容,也让书局借此建立了数字加工和流程管理的标准,造了3.1万个字符集以外的字,这些成果直到今天还在应用。

2008年前后,已完成3亿字的数字化加工的中华书局并没开发产品,而是进入了对古籍知识库的研究。他们认为,以谷歌百度为代表的搜索引擎,有强大的资源索引、聚合功能,代表了从内容服务到知识服务的互联网方向。于是开始对《资治通鉴》《二十四史》进行分析系统建设,把书中相关知识信息标引、组织起来,形成以人物、时间、地点和事件为不同维度的知识网络,脱离了原书目录结构,相当于一个小世界。比如搜索张飞和关羽,系统会图形化给出两个人的关系图,包括他们共同参与的事件、接触的人物,甚至可以看到他俩在地域上的移动轨迹,文献变得可视、立体化了。

事实证明,这个项目思维过于超前、工作量过于庞大,技术、知识和资金都严重不足。通常的用户群——普通读者、学生、教职、研究者,不知道该用这个知识库做什么;反倒是结构简单的数据库,在商业上容易成功。

这段经历看似歧路,却为后续开发“中华经典古籍库”提供了重要思路。

贴近互联网后的“人”

中华书局迟迟没有开展数字产品化,不仅有技术因素的考量、对市场的理解和把握,但最重要的还是对知识产权保护的顾虑。

众所周知,整理本古籍(将同一古籍的不同版本研究对照、整理出版)是书局最核心的资源,也是书局这个品牌安身立命之所在。古籍的高重印率是书局重要的经济支撑,很难确定数字化是否会加重盗版风险、伤害传统纸本书市场。

在对侵权的网络数字公司进行知识产权诉讼中,有用户说,如果你们有自己的数字版,我们当然不会看别人的。书局意识到,产品化或许才是最好的保护。

2012年,中华书局开始了数据库的产品化。当时手头两三亿字的数据量,与一些民营古籍库动辄10亿字的数据量相比,实在差距颇大。

他们在跟踪用户使用习惯中发现,很多用户先在数据库检索到需要内容,然后去图书馆与整理本核对原文,记录下原文出处等信息。在这一文献检索使用过程中,用户只把数据库当成了纸质图书的电子索引。

于是,他们的数据库中保留了原书版面图像,让用户不必再去图书馆查纸书;用户复制文献时,来源出处会自动在文献后显示。

由于整理本涵盖了新中国成立以来无数顶尖专家学者的研究成果,具有不可替代性和权威性,再加上对用户的尊重和体贴,中华书局数据库受到用户欢迎,培养出很多重度专业用户。

2014年到2015年间,他们的主要产品是“中华经典古籍库”的局域网版,主要面向高校图书馆及专业院系、公共图书馆、党政机关、出版社、研究机构、博物馆及其他民间机构。局域网版符合国内用户一次性买断的习惯,但不适合海外推广。所以,2015年底发布了在线版,可以通过网络授权访问。短短1年,在线版已经在100多个机构开通试用,北美的哈佛、耶鲁、普雷斯顿、哥伦比亚等大学都购买了在线产品。

2016年4月23日,他们又发布了微信版古籍库,这是社交移动平台上第一次出现的古籍资源,读者可随时随地阅读检索。短短半年,微信版吸引了3.5万读者,原来隐藏在局域网版后的用户个体浮出水面。通过后台统计,他们可以了解用户在检索和阅读哪些内容、什么时间使用数据库、哪些地方的用户多、他们的操作方式是什么。这些数据让他们能够将营销和服务真正定位到“人”,这也是微信产品最核心的价值。

沟通古籍和当代人的平台

2015年,古联(北京)数字传媒科技有限公司成立,统合了中华书局的古籍数字化业务。

2017年1月北京图书订货会上,“中华经典古籍库”第四期发布,古籍库总字数达到7.5亿字。但与往期不同,这一期纳入的古籍有2/3不是中华书局出版的,比如《册府元龟》《全元文》《苏轼文集编年笺注》《宋代序跋全编》《八旗文经》等,分别来自天津古籍出版社、凤凰出版社、齐鲁书社、巴蜀书社、辽海出版社、华东师范大学出版社。古联公司还与其他古籍出版社洽谈业务,到2017年底,古籍库将收入古籍1000种、10亿字,古籍库会变得更为全面、权威,充分体现“古联”的内涵。

随着产品越来越多,局域网版的价格越来越贵,需要化整为零。为此,他们开发了个人微信版,直接针对有不同需求的个体用户。

但这远远不够。

洪涛介绍说,根据《中国古籍总目》,中国古籍著录约20万种,其中重要的古籍约四五千种,整理本无法满足用户的所有需求。除去核心的人文类古籍,像医学、天文、数学等古籍,虽然很偏,却同样是古人的智慧结晶,同样具有当代价值。同时他们注意到,现有数字产品实质上是纸书的附属物,受制于纸书的出版。互联网时代,很多内容产品靠用户自己生产达到迅速扩张,维基百科、知乎都是这样。

2016年,他们开始筹划“籍合网”平台:提供古籍书目(包括版刻书及整理本)及相关的参考资料和已有整理成果。平台发布需要整理的古籍信息,采用众包形式,由读者共同整理完成。

赵萍是河北经贸大学大三的学生。在电话采访中她告诉记者,她从小就喜欢古文,平常的碎片时间都在阅读古文。去年4月参加中华书局读者开放日,受赠一年的个人微信版会员资格,发现里面的书特别多,还有检索功能。过去下载PDF电子书,总要划上划下,现在是横排,直接一搜,复制,拿去请教老师,“我还把它推荐给老师呢!”我问她会不会参加“籍合网”的古籍整理,她笑着说:“哪怕没有报酬,能做也是开心的。”

这个预计今年内上线的平台,将打通数字和出版的双向通路:古籍整理出版物用数字形式发布,平台通过数字化产生整理作品,提供给出版社纸质出版。平台上还可介绍学术会议成果、学术动态,让用户在这一空间自由交流,大大增强用户黏合度,数据库将更像一个现代互联网产品。

通过古联,我们或者可以看到古籍数字化的宏大全景。

责任编辑:曹宇
分享到微信

分享到:

主办单位:中国出版集团公司 网站维护:中版集团数字传媒有限公司   京公网安备 11010102002203号 中国出版集团公司 2009,All Rights Reserved 京ICP备12053001号-1