利用智能技术加速中华古籍资源数字化建设

古籍蕴含着中华民族的灿烂文明和优秀的传统文化，保护好古籍对传承和弘扬中华优秀传统文化、增强文化自信有着重要意义。今年的政府工作报告中，明确提出要“加强文物古籍保护利用和非物质文化遗产保护传承”，体现了对提升古籍保护水平，拓展社会参与的广度和深度的重视。

然而从古籍保护现状来看，我国目前还面临数字化程度低、以文本形式进行数字化的古籍数量少、难以检索等问题。数据显示，我国现存古籍有20万种。据不完全统计，其中有数字化扫描影像的有8万种，而实现文本数字化的仅有3万至4万种。

为推动改变这一局面，3月17日，字节跳动向北大教育基金会提供捐赠，支持“北京大学-字节跳动数字人文开放实验室”，研发古籍数字化平台，利用智能技术加速中华古籍资源的数字化建设，向全社会提供公益化服务。该实验室将调动相关资源，力争在3年内完成1万种精选古籍的智能化整理工作。提供开放、体验良好的阅读服务和基本文本库，并借助知识图谱等技术帮助学者高效检索和利用古籍中的信息。同时，项目也将推出结合OCR文字识别、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台，并对社会大众免费开放，便于收藏机构、研究者、相关专业的师生和广大古籍爱好者自行完成古籍数字化工作，加快整个行业数字化古籍资料的效率。

中国社会科学院教授郑永晓多年来一直从事数字人文方面的实践和理论探索，参加了古典文献数字化早期的实践工作。他谈到，近20年来，我国在古籍文献数字化和古籍数据库建设方面的成就是巨大的。但目前古籍数据库的建设也面临发展的瓶颈。“虽然像《中华经典古籍库》《四部丛刊》等挂接联机字典、年代转换、批注等各种工具，很有实用价值，但从根本上说，这些数据库的主体内容属于非结构化数据，除全文检索外，并不能协助学者完成其他工作。因此，对古籍文献数据库进行升级换代势在必行。”

在郑永晓看来，未来的古籍文献数据库应结合数据挖掘技术、自然语言处理技术以及相关学者的深度参与，在古籍词频分析、版本分析比较、计算机辅助句读等方面有切实的进展。他说：“要利用人工智能、大数据等最新技术，力求完成人力所难以完成的宏观分析和微观比较等工作，协助学者进行多维度的统计、比较、分析，产生新的知识和思想。”

“我们希望与北大的跨学科团队在OCR文字识别、自然语言处理、知识图谱等技术领域展开全面合作，充分利用人工智能技术加快古籍数字化整理、研究与利用，让更多的研究者、爱好者以更高效、便利的方式获取古籍里蕴藏的丰富知识。”字节跳动有关负责人表示。(于帆)