【小哈划重点:“识典古籍”平台提供三种校对版本:其一为AI识别整理;其二为AI+人工初校;其三为AI+人工精校。三者的错误率大致分别为3%、3‰、3‱...“识典古籍”是一个公益的古籍阅读与整理平台,2022年对公众开放,目前已上架古籍2.9万部。】
当浩如烟海的古籍与现代科技碰撞交融,展现出令人神往的新前景。
2025年“我用AI校古籍——我是‘校书官’古籍大众智能整理计划”活动海报
我国现存古籍20多万种,存世版本50万个。当浩如烟海的古籍与现代科技碰撞交融,即展现出令人神往的新前景。
“人工智能和人类智力的结合,为素来作为文科堡垒的古籍整理领域注入了满满的科技感,势将打造一个兼顾数量与质量的大型古籍阅览平台。”不久前,61岁的艾俊川撰写了一篇3000余字的文章,分享其担任“校书官”、使用“识典古籍”平台的测评体验,文章标题为《花费一天时间,识典帮我整理了两部古籍》。
艾俊川现任中国古籍保护协会古籍鉴定专业委员会委员、北京印刷学院兼职教授。“识典古籍”是一个公益的古籍阅读与整理平台,2022年对公众开放,目前已上架古籍2.9万部,预计年底将突破4万部。
所谓“校书官”,是志愿者参加“我用AI校古籍——我是‘校书官’古籍大众智能整理计划”(以下简称“我是校书官”活动)后自动获得的身份昵称。该活动依托“识典古籍”平台,面向全国征集志愿者参与古籍数字化整理,由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心和字节跳动公益联合主办。
热潮
“2025年‘我是校书官’活动于3月启动,截至8月初,报名的志愿者人数已超过1.5万人,其中1万人是在校大学生,来自全国1000多所高校。预计年底参与人数将突破3万人。”北京大学数字人文研究中心研究助理伞红雷告诉本刊记者。
该活动在2024年首次启动时,仅面向大学生群体,策划团队原计划招募2000名志愿者。伞红雷坦言当时“内心还有点忐忑:这么多人,能招满吗?”报名热情却远超预期——首月报名人数即突破3000名,至2024年底,总计参与人数达10129人,覆盖全国1300多所高校,共完成粗校古籍1643部、总字数逾6亿,精校古籍184部、总字数2451万字。
吉林大学中文系大三学生周蔡琳通过“到梦空间”(一款由团中央学校部与全国学校共青团研究中心共同指导开发的免费校园应用,提供校园活动发布、报名签到、学分颁发与评价等功能)了解到“我是校书官”的活动信息,于2025年4月成为志愿者。截至8月初,她通过“识典古籍”平台整理了20多万字古籍,积累了1300点贡献值,约相当于130个小时工作量。
伞红雷介绍,在志愿者贡献值排行榜上,目前最高纪录超过3.7万点,其中一名志愿者曾在一个月内积累下1万点贡献值,相当于平均每天工作近7小时,效率之高令策划团队都颇为惊讶。
伞红雷负责为志愿者选取古籍书目,其选目原则有“三选、三不选”,“三选”头一条即“大众喜闻乐见、富于趣味者选”。如经典的诗词歌赋、史书传记类书籍,还有如讲述插花艺术的明代散文集《瓶史》,被誉为“吃货指南”的清代美食著作《随园食单》,展示上古至西汉奇女子风采的《古列女传》等。
周蔡琳表示,参与活动让她积累了大量古籍专业知识,了解了如天头、地脚、象鼻、鱼尾等术语,还收藏了多个实用古籍网站,“很是受益”。
赋能
艾俊川在其体验文章中,详细介绍了“识典古籍”助其整理两部古籍的经过:诗集《北山楼集》,未加标点的字数有3988字;书信集《师友绪余》,未加标点的字数有15132字。AI识别完这些字仅用了几秒,若以人力用拼音输入,按照艾俊川每小时打字不超过1000字计算,录完全文需近20个小时。
AI识别认错的字,亦被详列于文:《北山楼集》为41字,《师友绪余》为135字,错误率约1%。艾俊川分析,因这两部古籍字形不标准,有一些随意雕刻的异体字,故错误率稍高。在测试《四库全书》等字体规范的刻本或抄本时,AI的错误率只有3‰-4‰。他表示,总体识别率令他满意。
北京大学数字人文研究中心常务副主任杨浩告诉本刊记者,“识典古籍”平台提供三种校对版本:其一为AI识别整理;其二为AI+人工初校;其三为AI+人工精校。三者的错误率大致分别为3%、3‰、3‱。
“我是校书官”活动中,志愿者相应被分为初阶组和进阶组,分别对应人工初校和精校环节。周蔡琳先后参与了两个组别的工作。
“进阶组工作难度更高,其中标点校对比文字精校更难,需要查阅大量资料自行消化理解并判断。”周蔡琳介绍,“遇到问题可在QQ群请教专家老师,他们都会及时解答。”
山东大学文学院教授杜泽逊曾这样总结:今人难以读懂古书,主要障碍有三,第一是繁体字,第二是文言文,第三是没有标点。
杨浩表示,“识典古籍”平台借助人工智能技术,可将扫描版古籍图像转化为带标点断句、可检索的简体文本,甚至能为原文添加现代翻译。
公开数据显示,我国现存20多万种古籍中,实现数字化的不足8万种,且多数仅完成初步的影像扫描,真正实现文本数字化的不足4万种。
“若无AI介入,完全依靠人力,古籍数字化全部完成可能需要上百年。有了AI助力,或许只要二三十年。”杨浩对此信心十足。
44岁的杨浩是北京大学哲学系教授汤一介的弟子,曾参与《儒藏》编纂与研究工作近十年,2022年调入北京大学数字人文研究中心。《儒藏》是新中国成立以来最大规模系统整理海内外儒学典籍的一项基础性文化建设工程,由汤一介提出倡议并主持工作多年。
目前,全国专业古籍整理人员仅约1万人。杨浩亲历了古籍整理从传统时代迈向AI时代的过渡期,他向本刊记者感慨:“AI能承担古典文献整理中大量基础性‘体力活’,从而解放专业人士精力,使其专注于更重要的‘脑力活’。”
2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出推进古籍数字化。2024年底,《儒藏》数字化项目启动,并宣布相关成果将在“识典古籍”平台上线。
传承
“民间力量是古籍传承不可或缺的生命力所在。”北京大学数字人文研究中心主任、人工智能研究院副院长王军在多个场合表示,“每逢乱世,官府藏书常遭毁坏、散佚,往往依靠民间收藏才能延续典籍生命,盛世修典时才有书可征。”
以《四库全书》为例,这部世界最大手抄丛书共计7.9万卷、3.6万册、近8亿字,在清乾隆时期历时13年编成。编修第一步即向全国征书,长达7年,“遍搜旧籍,稽古右文”,共征书12237种,各省采进本与私人进献本成为《四库全书》的重要底本来源。
“‘识典古籍’看似是AI时代的创新事物,实则其内核与这种民间修书、藏书的传统一脉相承。”王军告诉本刊记者。
“识典古籍”平台的所有古籍资源,均来源于机构合作、捐赠、网络搜集,项目资金来自字节跳动公益捐赠,整理校对工作则有赖于学术界与公众力量,最终以公益免费的方式供大众使用,形成“取之于民,用之于民”的传承闭环。
在“识典古籍”平台上,有一个醒目的专区——哈佛燕京数据库。连续两年的“我是校书官”活动中,志愿者整理的古籍资源绝大部分来自于此。
哈佛燕京图书馆是美国哈佛大学专注于东亚文献收藏与研究的专业图书馆。其中文典藏以规模宏大、品类珍稀著称,现藏中文古籍15万册(13300余部),善本约4000余部,涵盖宋元明清刻本、稿抄本、套印本等。
北京大学历史系校友杨继东于2022年接任哈佛燕京图书馆馆长,在王军积极沟通下,于2023年11月促成哈佛燕京图书馆向北京大学数字人文研究中心公益捐赠该馆全部中文善本古籍数字化扫描影像资源,共计7000余种,目前大部分都已在“识典古籍”平台上线。
活化
日前,周蔡琳收到了一枚《本草纲目》主题徽章,这是她用贡献值兑换的志愿者权益。
“我是校书官”活动为志愿者设置了一套激励机制,设计者为清华大学历史系硕士生常亮。他借鉴唐代校书官体系,依据贡献值设置了9级权益,从低到高分别为:秘书正字、校书郎、秘书郎、著作佐郎、著作郎、秘书丞、秘书少监、秘书监和秘书令, 每个级别可兑换相应徽章或文创玩偶“孔小石”“孟典典”。
周蔡琳完成了1300点贡献值,目前的级别是第4级,对应为著作佐郎。她的目标是达到最高级,对应为秘书令,贡献值需要达到1万点。
在小红书上,不少志愿者晒出自己收到的徽章或玩偶,骄傲满满。用户“周凡”将“孔小识”和“孟典典”摆在书架上的《史记》前,为其命名“我的书架守护神”;用户“人间风尘即恶”也晒照片配文,《重生之我在北大当校书官》。
“有了古籍数字资源,免费阅读平台,并通过‘我是校书官’活动让数万人和古籍建立连接后,如何更好地活化利用古籍、让其真正走进年轻人生活?”王军一直在思考这个问题。他坦言:“短视频时代,让人静心读现代小说亦非易事,何况古书?”
近年来,王军团队做了诸多尝试。
7月,北京大学数字人文研究中心与首都图书馆联合主办第四届东亚古籍数字人文国际论坛,便特设“古籍活化”“典籍新生·AI创意”两个分论坛。其中,“典籍新生·AI创意”活动向全国征集AI创意作品,要求以指定古籍如《牡丹亭还魂记》《绿窗女史》《听琴图》《十八学士图》等为创作材料,利用AI技术转化为短视频作品,两个月内共收到60多个团队的投稿作品,其中28部获奖,获奖者既有博士生,也有小学生。
王军团队打造的数字化创作平台“原境智生”即将上线。该平台旨在为用户提供沉浸式、个性化的古典艺术创作新体验。比如“承古”模块,通过大量古籍中的宋画图像,对AI模型进行训练,用户输入文字指令,便可自动生成宋画风格的图像;“摹影”模块,可根据用户提供的人像照片,生成宋画风格的人物图像……
“借助AI技术整理、传承、活化文明积累,是当代人义不容辞的责任。”王军说,“我们正努力通过AI创意让传承历久的古籍与新时代的年轻生命发生连接,创造出新时代的文化作品,让古籍焕发新生。”
(本文刊载于《瞭望东方周刊》2025年第19期,总第942期。原文标题:《我用AI校古籍》。原文编辑陈融雪)
https://baijiahao.baidu.com/s?id=1843684849514019979&wfr=spider&for=pc