用数据融合,探索高质量发展

中译公司 武学敏

很荣幸能够在本次论坛上代表公司分享在通过数据融合、推进高质量发展中,我们所做的一些观察、思考和尝试。我们都知道英国德温特出版公司,它在1951年做了一件事情:把不同国家的专利文献数据进行了整合收录,这个看似不是很复杂的尝试使他推出了“专利文献索引系统”,奠定了德温特在世界知识产权数据界的江湖地位,也得益于这个尝试,诞生了一家估值约42亿美金的公司。 所以在通过加速数据融合,实现高质量创新发展这件事情上,我们思考并实践了许多事情,可以说,我们趟过坑,迈过坎儿, 但更积累了很多有益的经验。接下来,结合中译语通实际情况,和大家分享以下几点内容:

一、破解技术难题

千百年来,从雕板印刷、活字印刷、再到铅字印刷…… 出版行业总能拥抱技术进步,随着技术发展不断发展壮大。把破解技术难题这部分拿来第一个进行分享,是因为在新时代下,技术影响了我们发展的宽度。

中译语通作为中译公司的控股子公司,是以数据和技术为特色的高新企业,在技术上率先进行布局,比如,智能语义技术,在科技文本语义检索算法方面,中译语通已经具备世界领先的精度水平,智能语义是数字化、知识化转型中一个很核心的技术点。

有了智能语义技术,我们可以赋能智能出版,例如,智能审校,可以自动对稿件的语法正确性、表达规范性、语言流畅性、内容原创性进行自动的校核和预警,将编审专家从大量的重复性工作中解放出来。例如,知识化出版,我们可以将海量出版物加工成细粒度的知识,将分散在不同出版物中的相关知识组合成全面、客观、高质量的知识工具,解决用户深入的专题性问题。

下图是孟晚舟的简历,我们从数万网页中,抽取出她在各个时间点的事件,绘制成一个人物的详细履历:

再比如,机器翻译,机器翻译帮我们消除了阅读的语言壁垒,拓宽了我们知识视野,使我们可以自由的去阅读各国文献,说到机器翻译,它是典型的数据和技术融合的例子,值得拿出来单独分享,接下来我们带着这个案例进入到今天分享的第二部分。

二、技术与数据的融合

《案例一:世界领先的机器翻译是怎样在中国诞生的?》

中译公司从1973年至今,在40多年服务联合国及国内外重大外事活动、重大国际赛事,以及重要企业的实践中,积累了丰富的多语种翻译语料和数据资源。

我们把公司多年来积累的跨语言数据资源和机器学习技术进行了融合,通过这个举措,我们创造出了中国最好用的机器翻译产品,在机器翻译领域,中译语通已经具备了与谷歌、微软并肩甚至更好的成绩:

2019年国际机器翻译大赛,中译语通与微软亚洲研究院、Facebook三家夺冠数量并列第一 2018年国际机器翻译大赛,中译语通超越谷歌取得英中方向自动评测第一名 2017年国际口语机器翻译评测(IWSLT 东京)中译语通荣获机器翻译综合评测排名第一,囊括 16个语言方向第一名

三、数据与数据的融合

《案例二:知识服务新形式的探索》

基于全球海量的专利、期刊、学术论文等科技大数据,全球长时序及实时的新闻资讯大数据,以及各类别的法律、标准等其他大数据,通过对上述巨量的信息源进行科学合理的融合,并基于公司深度神经网络人工智能算法、语义检索与分析核心模型库、人工智能机器翻译算法等一系列核心技术的基础上,通过对科技行业信息应用的专家建模,形成集成了语义智能检索、深层多维分析、科技价值评估等功能的综合性科技大数据平台—JoveEye科技大数据平台。

它是全球第一款支持跨语言智能语义检索与分析的科技大数据平台(在PPT中结合部分功能进行展示)。

《案例三:如何通过数据跨界融合,实现既有数据在新领域的新价值?》

在科技大数据平台基础上,我们继续整合了企业工商分析数据、专家学者数据、论文期刊数据、投融资信息等科技数据,并在业界首次实现对多源科技信息标准化治理。我们成功的开发出了JoveEye全球科技发现与价值评估系统,实现了科技数据在金融领域的重大突破。

通过系统我们可以找到全球范围内最好的技术、最值得投资的企业、技术领域内的专业人才;还可以从科技、风险、舆情、工商4个维度对科技公司进行综合评价和画像(结合PPT进行部分展示)。

四、数据融合,让市场站在C位

数据融合这盘大棋可以说是,玲珑初开,百子待落,我们面向市场需求、面向应用场景的尝试,一定会收获满园芬芳。

收获一:科创城市---将数据信息服务与城市发展相结合,需要打通企业、园区、政府等主体之间的信息屏障,需要跨越科技、金融、社会等行业之间的数据鸿沟,在科技创新这个国家大背景下,中译语通形成了完善的“科技创新城市”解决方案,已对接上海、苏州、杭州、福州、成都、深圳、西安、广州等地,得到了市场良好的反馈。

收获二:科技评价系统---国家今年重点筹划科创板,并在今年正式上市运行,中译语通成功地交付了上海证券交易所科创板智能审核的科技评价系统,这一市场成绩的取得,使语通迅速赢得了金融市场!

收获三:联合更多交叉领域共同开拓数据产业新业态---这一路走来,我们发展了自己也融到了“朋友”来共同推动产业发展。一方面,中译语通正联合科技部、工信部、大型金融机构与高校相关研究院等核心金融与科技主体,积极尝试构建“数据+技术+服务+政策”的产业标准与战略规划。另一方面,中译语通联合中国科学院、北京大学等机构申请科技部重点研发计划,并与大型科研型机构紧密合作,一起探索从印本到富媒体出版,从文本到知识图谱,从资料到科研解决方案的转型之路,打造引领新时代科研工作的“科研创新加速系统”。

五、莫为浮云遮望眼  风物长宜放眼量

未来,我们的事业将横跨出版、科技、金融等多领域,将撬动数千亿的政府、科研、金融、咨询市场,伟大的道路注定不平凡,我们将在集团的统一领导下,与各出版社、集团旗下公司携手并肩、深度融合,加强数据共建、技术共享、市场共赢,高质量完成集团赋予的每一项任务,打造新时代的中国出版旗舰。

分享到:

主办单位:中国出版集团公司 网站维护:中版集团数字传媒有限公司   京公网安备 11010102002203号 中国出版集团公司 2009,All Rights Reserved 京ICP备12053001号-1