青年报记者 唐骋华
本报讯 2025年8月,“文渊阁四库全书”AI+版问世,并现身上海书展,吸引了众多读者前往体验区观看和试用。一名中学生轻轻用指尖在大屏幕上划了一段古文,AI立刻翻译成现代汉语。一名学者凑近屏幕,看着AI自动标点的古籍原文连连点头,编辑递上一张30天试用卡,笑着说:“回家您慢慢研究。”
一同亮相上海书展的还有“典籍整理文献数据库”和“上海文献总库数据库”。前者以上海古籍出版社出版的核心整理本古籍为主,同时收录上海世纪出版集团内、外相关出版机构的优质资源,包括中国古典文学丛书、十三经注疏、商周青铜器铭文暨图像集成系列等。后者收录上海府县旧志丛书、上海市新编地方志书,全面记述上海的历史与现状。加上“文渊阁四库全书数据库”,共计约20亿字,由此构成了“尚古汇典·古籍数字服务平台”的内容部分。
“上海古籍出版社在数字出版市场急缺古籍精品的情况下,主动承担起补缺工作。”鲁秀梅如此阐释打造“尚古汇典·古籍数字服务平台”的意义。目前,该平台已在技术上完成古籍OCR个人版、机构版的优化开发,以及AI自动标点、自动标引、自动翻译等功能的适配与优化。值得一提的是,由上海古籍出版社自主研发的OCR识别系统已在四川大学等高校及科研机构的文献整理项目中得到应用,极大地提升了效率。
正所谓百尺竿头更进一步。陈诚坦言,“文渊阁四库全书”AI+版尚有改进空间,“比如AI幻觉,还远远谈不上根治”。他和伙伴会继续调试,将“幻觉”控制在合理范围内。王子伟则表示,自己在产品开发和运营方面积累了一定经验,有了不少想法,希望在今后的工作中加以实践运用。
而这群年轻人即将迎来新的挑战。鲁秀梅告诉记者,《清代诗文集汇编》数字化项目已提上议事日程,预计于2026年启动。
《清代诗文集汇编》是上海古籍出版社 于2010年影印出版的大型清人文集,是清史工程的重要整理成果,收书约4000种,共4亿字。“《清代诗文集汇编》的数字化将是古籍社继‘文渊阁四库全书数据库’后的又一盛举。”鲁秀梅说,“当然工作量也是空前的。”但她有信心,凭借优化后的OCR识别系统和工业化流程,不仅数字化速度和准确率会提升,整体成本也将缩减三分之二。