两个古籍数据库于2月8日在国家图书馆同步发布:一个是“《永乐大典》高清影像数据库”,一个是“《国家珍贵古籍名录》知识库”。
两个库均为全国古籍整理出版规划领导小组“2021年度国家古籍数字化工程专项经费资助项目”,已于2022年11月顺利结项,读者可免费登录使用。这次,国家图书馆、北京大学和字节跳动合作,为古籍数字人文建设提供了一个合作样板。
多项技术实现古籍传承与创造性利用
《永乐大典》是明成祖(朱棣)永乐年间编纂的一部大型百科全书,其副本目前仅发现有400余册800余卷及部分零叶存世,总数不及原书的4%。国家图书馆共收藏《永乐大典》224册,占存世《永乐大典》的一半以上。
为完整保存和全面传达《永乐大典》相关信息,国家图书馆委托国家图书馆出版社进行《永乐大典》高清数据库项目的制作,后者于2021年12月委托北京大学数字人文研究中心承担该项目的设计与研发工作。该研究中心以北京大学-字节跳动数字人文开放实验室为基地,整合学校和字节跳动双方力量,建成了《永乐大典》高清影像数据库。
项目第一辑收录国家图书馆藏《永乐大典》四十册、七十五卷的内容,共涉及14个韵部、17个韵字、1800部书,除呈现《永乐大典》高精图像、整体风貌及相关知识外,还尝试对部分大典内容做了知识标引示范,为后续《永乐大典》的知识体系化、利用智能化进行探索。
北京大学数字人文研究中心主任王军表示,这一数据库在互联网环境下以可交互、可视化的方式向大众传播古籍知识,它展现了以数字人文手段实现古籍活化的技术路径,实现了古籍的创造性转化和创新性应用。
国家图书馆(国家古籍保护中心)联合北京大学数字人文研究中心研发的“《国家珍贵古籍名录》知识库”,包含了已批准公布的六批《国家珍贵古籍名录》,还收录了《国家珍贵古籍名录图录》中包含的书影图像、说明文字内容。该项目综合应用现有数字人文的多项技术,将珍贵古籍名录书目数据重构为知识库,以多维度知识图谱、GIS等多种可视化形式展示历史时空构架下书与书、书与人、人与人之间的多维关系。
推进古籍数字化需多方合力
2022年,中共中央办公厅、国务院办公厅发布《关于推进新时代古籍工作的意见》。其指出,要深入推进中华优秀传统文化创造性转化、创新性发展,加强古籍抢救保护、整理研究和出版利用,促进古籍事业发展,为实现中华民族伟大复兴提供精神力量。
长期从事相关工作,王军对古籍数字化也有一些感悟。他指出,古籍活化利用的关键,在于“数据加工+学术保障+设计转化”,即需要图书馆的开放理念、高校的学术转化和企业的研发与传播平台携手。
参与此次合作的字节跳动方相关负责人建议,可以通过行业共建,引入更多学术资源,并以百科、图文、短视频、直播、数字读物、VR交互等多种形态进行内容导读,不断完善数字环境下古籍保护与传承的生态体系建设。图书馆是古籍收藏和保护机构,高校是教学和研究机构,出版社是出版和发行单位,互联网可以作为古籍活化和传播的平台,四者都是链条上的关键环节。
北京大学信息管理系主任张久珍提到了目前大热的聊天机器人ChatGPT。在古籍数字化工作中,人工智能也将成为新常态。假如让类似的人工智能学习浩如烟海的中华历史典籍,它能成为一个拥有中华智慧的“人”吗,如果大家跟它聊天会怎样?“我们古籍数字化的目标还可以定得更高一些。”张久珍说。
在她看来,ChatGPT还存在一些硬伤和短板。比如它的回答看似逻辑严密工整,但是论点欠缺专业性,论据无法溯源,这可能是因为数据源权威性存在问题,数据基础建得不够好。“这也给古籍数字化提了一个醒,一定要从一开始就重视中华古籍的数字基础设施建设。”张久珍说。
“数字化和智能化的信息环境使得千余年来基于纸本传播和利用知识的方式发生根本性变革。将中华典籍迁移到数字环境下,用数智技术挖掘古籍资源所蕴含的文化价值、用融媒体手段呈现典籍的精神魅力,是当代人义不容辞的历史责任。”北京大学副校长王博这样感叹。