第A01版:头版

如何用AI为古籍插上“翅膀”?

这是年轻人的事业要由年轻人挑大梁

本文字数:3921

    在字节跃动的时代,如何让卷帙浩繁的古籍走出深阁高库,融入当代人的精神生活? 在上海古籍出版社,一群平均年龄仅32岁的年轻人,正在用代码与算法,为古籍注入新的生命。他们跨越文理疆界,承古创新,在茫茫数字世界中开辟出一条属于这个时代的文明航道。

    ■04-05

    作为中华传统文化体系中最完备的典籍集成,《四库全书》的重要价值毋庸置疑。然而时至今日,如何以AI赋能,使其在数字时代发挥更大作用,变得日益迫切。在上海古籍出版社,有一群平均年龄32岁的年轻人,以跨学科的专业能力与敢闯敢试的劲头,攻克重重难关,让这部典籍挣脱“故纸堆”,在数字浪潮中焕发新生。

    青年报记者 唐骋华

    年轻人的事业

    古籍数字化,总共需要分为几个步骤?如果是简单操作,扫描古籍,制成电子版即可。网上流传的数字古籍多为此类。当然,不要对质量抱太大希望。“版本不明、图片模糊是常见问题,给学界和使用者造成了极大困扰。”上海古籍出版社数字编辑室副主任鲁秀梅说。尤其令专业人士无法忍受的,是夸张的差错率。鲁秀梅告诉记者,市面上的数字古籍差错率远远超过图书编校差错率不高于万分之一的国家标准,使用者稍有不慎就会“踩坑”。

    不过,若要提供可靠且实用的数字古籍,事情就变得复杂起来。

    扫描只是第一步,接下来要进行数据的校验和加工,在确保准确率的同时,还要研发翻阅、检索、标点、引用乃至翻译等功能,便于学者开展研究。一两本古籍还好说,可如果是卷帙浩繁的《四库全书》呢?

    《四库全书》号称“全书”,是因为它基本囊括了我国清代中期前的所有图书。为推动这项浩大工程,清乾隆帝召集360多名官员、学者进行编撰,3800多人抄写,历时19年才告完工。编成之日,乾隆帝命人手抄7部,分藏北京、沈阳、杭州等地。近代以来,中国饱经忧患,《四库全书》很难得到妥善的保存,多份抄本或毁于战火或流散民间,最终只剩“三部半”。其中,原藏于故宫的文渊阁本是较为完整的一部,1987年由上海古籍出版社在中国大陆影印发行,共收录3000余种书,分装1500多册,总字数约8亿。

    将文渊阁《四库全书》数字化,远不止把纸质书搬到线上那样简单。以前,识别、校对等工作常交给外包,如今几乎所有流程都要由出版社完成——这是一家传统出版社能完成的吗? 当社里将打造“文渊阁四库全书数据库”的任务交给数字编辑室时,鲁秀梅内心不免忐忑。但她坚信一点:“数字出版是年轻的事业,要由年轻人挑大梁。”

    2019年,为建设“汇典”项目,在上海世纪出版集团的支持下,上海古籍出版社“招兵买马”,很快搭建起一支平均年龄32岁的年轻团队。数字编辑室共11名成员,年长的四十岁出头,最小的1999年出生,其“胶原蛋白含量”大约是整个出版社最高的。这也是一支跨学科团队。成员除了来自文献学、古代文学、历史学等对口专业,还有计算机、机械工程、信息工程等理工专业,堪称“文理兼备”。

    “驯服”古籍

    高典可以说是文理兼备的“本体”。长着一张娃娃脸的他生于1989年,本科就读于计算机专业,硕士阶段转入中国古典文献学。为什么由理转文? 他嘿嘿一笑:“从小听家里的话念理科,但我一直对古代文学非常感兴趣,考研的时候想试试,结果考上了。”巧的是,古典文献学逻辑性极强,高典的理科思维反而成了优势,专业转得十分顺畅,没经历什么痛苦。

    毕业后高典在北京工作了一段时间,2021年加入上海古籍出版社。他刚开始做编辑,也处理过疑难字,后来被聘为技术岗,成为文渊阁《四库全书》数字化项目的技术负责人。

    “几乎是白手起家。”回忆刚接手项目时的情景,高典感叹,“手头只有文渊阁《四库全书》的扫描图,别的什么都没有。”与现代书不同,古代没有标准化的书写和排版格式,不同书籍往往从版式到装帧都大相径庭,再加上批注、表格和插图,导致样貌千差万别。拿现代书的OCR(光学字符识别)技术去识别,不仅视觉呈现上异常凌乱,更会给使用者制造各种麻烦。

    “解决这个问题,必须先确定数据格式。”高典说。于是,他带着技术组的伙伴开始攻关。

    这时候《四库全书》的优点体现了出来。它用浙江出产的上等开化纸缮写,即便是两百多年后影印的文渊阁本,依然崭新如初。页面布局也很用心:每页8行、每行21个字,如需注解,标以双行小字。“格式规整,字迹和插图清晰,正好给我们练手,为古籍数字化攒经验、树模板。”高典说。这也是上海古籍出版社决定率先将文渊阁《四库全书》数字化的原因之一。

    饶是如此,确定数据格式还是花了他们两个多月的时间。经过反复推敲、反复尝试,他们自主研发的OCR工具也有了雏形,可以顺利地把古籍图片中的文字识别并提取出来。

    到了这一步,真正的难题,才刚刚浮现。古籍里存在大量异体字、通假字、避讳字,古籍影印版中也不可避免会有字迹模糊的情况,OCR经常识别错误,这就需要人工校验。更大的挑战来自插图。“古籍的插图很多时候是文字,但它既然以图的形式表示,就不能把它当文字。”高典说。可OCR哪里分得清? 于是又要人工判断。据估算,数字编辑室组织识别了20多万个疑难字,插图加表格超过10万页。所幸,数据加工组的三名95后成员,凭借古典文献学的专业功底,起到了把关作用。

    2024年初,“文渊阁四库全书数据库”上线,支持全文阅读、检索、引用复制、联机字典、纪年转换等功能。这群年轻人交出了“驯服”古籍的初步成果。

    和“幻觉”作斗争

    “在完成‘文渊阁四库全书数据库’的基础上,我们希望能与AI技术结合,为用户提供更优质服务,因此决定打造‘文渊阁四库全书’AI+版。”鲁秀梅说。这意味着除了阅读和检索等基本功能,还要能AI标点、AI标引、AI翻译……这次,轮到另一名“技术大牛”陈诚大展身手了。

    陈诚,1997年出生,机械工程硕士,毕业后先在某大厂干了两年多,主攻自动驾驶。大厂的工作强度很大,陈诚觉得没什么业余生活,刚好上海古籍出版社招聘算法工程师,自己又对古文感兴趣,就投了简历,顺利加入数字编辑室。恰逢“文渊阁四库全书”AI+版启动,有AI项目实操经验的他立刻挑起大梁。

    “古籍社拥有大量优质古籍资源,为我们提供了丰富的高质量语料,能够喂给大模型,构造数据集。”陈诚介绍。以AI标点为例,他们找来已经出版的书,去掉标点,先让大模型添加标点符号,随后对照原书一点点校正。经过不断地训练和调试,AI标点渐渐有模有样,正确率可达97%。这已然是专业水平了。

    真正的难关在文言文翻译。“AI的幻觉太严重了,经常翻译得不知所云。”陈诚说。比如,《阿房宫赋》最后一句:“秦人不暇自哀,而后人哀之;后人哀之而不鉴之,亦使后人而复哀后人也。”大模型怎么都翻译不好。

    “大模型其实是个‘黑盒子’,我们知道它能输出结果,但搞不清里面是怎么运作的。”陈诚解释。简单来说,虽然大模型本质是一种算法,它的参数却不是程序员提前设定的,而是其自主学习和调整形成的。由于参数量极为庞大,整个系统表现出的数学复杂性超出了人类能直观理解和推理的范畴。

    情况就是这么个情况,阁下将如何应对?

    只能下“笨功夫”。数字编辑室的小伙伴们群策群力,用一篇又一篇古文去测试大模型,一字、一词、一句地琢磨它到底哪里犯错、为什么会犯错,确认后再用提示词进行约束和规范。“跟打地鼠一样,出来一个打一个,靠提示词压制幻觉。”高典说。这样靠着几百篇古文的反复测试,翻译的准确率大大提高。

    与此同时,高典策划了流式阅读,让使用者能方便地调用AI功能。流式阅读还使古籍文本以适合当代读者阅读习惯的形式呈现,既实用又美观。

    “文渊阁四库全书”AI+版毕竟是大工程,尽管有出版社的全力支持,仅靠数字编辑室的力量还是不够,必须借助技术公司及数据加工团队。但外包方不熟悉古典文献,如何让他们“听懂”需求呢? 产品经理王子伟发挥了作用。她本硕念的都是中国古典文献专业,专业过硬,求学期间又用过多款古籍数据库,善于站在用户角度看问题。通过她的内外衔接,数字编辑室和外包方得以紧密合作,项目“丝滑”推进。

分享到微信
使用"扫一扫"即可将网页分享至朋友圈
青年报社版权所有,未经书面授权 不得复制或建立镜像
总机:021-61176117 | 广告热线:021-61173717
违法和不良信息举报电话:021-61177819/61177827 | 举报邮箱:services@why.com.cn | 个人信息保护
青年报头版 A01这是年轻人的事业要由年轻人挑大梁 2025-09-22 2 2025年09月22日 星期一