领导活动 | 部门工作动态 | 集团新闻 | 媒体关注 | 图片新闻 | 视频新闻 | 专题报道 | 一周回顾

AI与古籍出版融合发展的现状、挑战与未来

■洪涛(中华书局古联(北京)数字传媒科技有限公司总经理)

人工智能在古籍出版领域的应用实践。人工智能尤其是大模型技术在古籍出版领域展现出独特的影响力与应用潜力。古联公司开展了四个与人工智能紧密相关的业务方向。一是数据库业务,10年来构建了近30个古籍数据库,涵盖经典古籍文献整理、出土文献以及各类专题数据库,形成庞大的数据资源。二是古籍智能整理业务,自2016年成立新闻出版署的古籍实验室以来,持续推进相关技术研发。如利用word模型进行古籍自动标点、图像识别,到打造古籍在线智能整理平台等。三是人才培养业务,建立线上集合学院,增设数字化前沿课程,着力培养兼具古籍功底与数字素养的复合型人才。四是文化产业业务,积极开展数字人项目,如上线苏东坡数字人、为大同文旅打造花木兰数字人等。

古籍出版中AI技术面临的挑战。一是知识产权界定愈发困难。古籍整理包含标点、注释、校勘、翻译等对文本内容的加工,其知识产权存在争议。现行著作权法对古籍整理成果保护模糊,基础整理工作难以构成独创性表达,侵权维护困难。从学术发展角度看,古籍整理需借鉴前人成果,如何确保数据溯源与知识产权保护,是古籍整理行业亟待解决的重要问题。

二是现有模型存在很大局限性。以古文垂直模型为例,其迭代速度落后于通用模型,常需借助通用模型进行增量化训练与蒸馏。虽然通用模型在专业领域表现有所提升,但仍无法解决诸多专业问题。如古籍用字统计显示,常用古籍字约2万字,可涵盖99.96%语料,但中华书局古籍库包含13万个字符,中华字库项目更是包含约50万个字符,其中包含大量甲骨金文、小篆、简帛石刻异体字等,现有大模型难以处理。

三是技术能力与应用场景不够统一。古籍专业模型在古籍整理工作中,如文字识别、标点、内容分类等方面效率较高,但在将古籍内容与大众需求打通方面存在不足。与通用模型相比,古籍模型推理和交互能力较弱,从古籍知识向大众应用转化的能力也有待提升。

基于人工智能的古籍出版融合发展趋势。一是实现企业级智能化。出版企业不仅要在选题策划、编辑加工、宣传推广、融媒体制作等产品线应用人工智能技术,还需应用到企业经营管理的各个环节。例如通过与ERP整合,利用大模型抓取图书馆馆藏、市场需求及二手书交易信息,可助力重印书选题策划,盘活历史出版资源,根据市场需求重组产品线。

二是数字化资源价值释放更加迅速。以往古籍数字化资源主要通过出售数据库变现,模式单一。借助大模型定制,可实现数据定制服务,满足用户对特定古籍内容的精准需求,如古代军事、防灾抗灾、地方史料等信息,降低成本的同时拓展业务领域,充分盘活数字化资源。

三是落实国家古籍工作规划。古籍作为国家传统文化传承的重要载体和基础文化设施建设内容,国家高度重视。两办文件提出开展古籍文本结构化、知识体系化、智能化研究和实践,推动古籍利用转型升级。国家制定的《2021—2035年国家古籍工作规划》,明确了古籍智能化利用和数字化支撑体系建设任务。

四是重塑产业链条。下游面临游戏、视频等外部竞争,用户获取知识方式转变为网络问答,全民个性化学习和教育趋势凸显;上游高校学科要求文理结合,传统学科与新兴技术融合,成立数字人文中心和专业。出版方需响应上下游变化,打通上下游,构建新的出版生态链条。

责任编辑:李爱莉

主办单位:中国出版集团有限公司 网站维护:中版集团数字传媒有限公司   京公网安备 11010102002203号 中国出版集团有限公司 2009,All Rights Reserved 京ICP备12053001号-1