AI太炎:以智能技术 探文言奥妙
致敬先贤,以AI智慧贯古今。
助力学人,于万卷典籍探奥妙。
ChatGPT、GPT-4等大语言模型展现出非凡的语言理解和生成能力,然而,当它们遇到古汉语的深奥之处,由于缺乏专业知识,仍会产生不少令人捧腹又值得深思的错误。
语言+文化:双重挑战
古代汉语的文言表达绵延千年,其文字、词汇、语法、语音系统不断发展,每个时期都产生了复杂的语言现象,给后人的阅读理解带来了诸多障碍。除了语言层面的问题,对古汉语文本的理解还需依赖文本之外的历史文化常识——古人对人、事的指称常有多种变体,且表述追求含蓄蕴藉,常化用典故表达情感或思想。
语言与文化的双重挑战,不仅为现代人学习和阅读文言文带来了困难,也是当前我国古籍整理工作和古汉语信息处理研究中的重难点所在。
古汉语AI大模型,来了!
近日,北京师范大学汉字汉语研究与社会应用实验室和数字人文系的研究者们构建了专门适用于古汉语文本理解的大语言模型。该模型具有较强的古典文献释读能力,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,且兼容简体和繁体中文输入。
为了致敬近代国学大师章太炎先生,秉承章黄学派弘扬中华优秀传统文化的宗旨,该模型命名为“AI太炎”。
AI太炎的基础语言能力来源于阅读海量的古代汉语+现代汉语文本语料,进一步地,在专家的设计和引导下,TA正在专门学习古代汉语中字词、句段、语篇层面的语言知识和历史文化常识。
让我们来看看现在TA能做什么吧?
01
能够结合语境,对词的意义甚至特殊用法进行准确注释,并输出流畅的译文。
“矢”是什么含义?
TA不仅识别出“三遗矢”中的通假现象,还正确理解了“臣”的指代用法!
02
除了语言能力,TA也颇具“文化水平”。当文本涉及历史文化常识时,哪怕面对并非常见或浅易的古文,它也可进行较为准确地判断。
人物别称的识别。
(例句出自柳亚子《磨剑室文录》)
较为罕见的官职名识别。
(出自[清]孙奇逢《夏峰先生集》)
03
对于古人含蓄蕴藉的用典现象,TA同样可以大显身手、识别典故背后的含义哟!
典故识别。
(出自[清]吕留良《宋诗钞序》)
识别多处用典。
(出自[唐]张九龄《眉州康司马挽歌词》)
04
TA还可以进行高精度的句读标点!
句读标点。
(出自[宋]沈括《梦溪笔谈》)
值得一提的是,文白翻译是最具挑战性的任务。因为,在翻译文段时,模型需要综合运用词汇、句法及相应的文化知识,传达言内和言外之意,如下例所示。
文白翻译。
(出自[元]辛文房《唐才子传》)
(1) 在背景知识方面,模型将“山东”翻译为“崤山东”,并解释了为何梦见长庚星要取名为李白。
(2) 在语法方面,补充了省略的主语,并注重古今连词差异(如将“因”翻译为“于是”),使得句子衔接更加自然。
(3) 在词汇方面,模型未受现代汉语双音节词影响,准确译出了“天才”的含义。
注:在均衡采样的外部测试集上, 该模型的机器翻译BLEU值(衡量机器译文与参考译文一致性的指标)大大超过了通用大语言模型和专用文白机器翻译系统。
开启内测
作为一个计算模型,虽然AI太炎已展现出一定的文言理解能力,但TA仍然是一位处于襁褓之中的“AI婴儿”,有很多待学习和改进之处。先贤的渊博学识、深邃思想将激励研发团队持续地迭代优化,使其未来更好地服务于现代人阅读和学习古诗文,以及整理和研究古文献。
如果您看好古汉语AI的潜力,迫不及待想要尝试体验;
如果您希望亲自为它“出题”,评估其能力和潜力;
如果您计划在学习和工作中引入这位AI助手,并乐于分享您宝贵的反馈与建议;
欢迎扫码填写信息,我们将邀请您加入AI太炎内测,共同致力于新一代古汉语AI研究,探寻科技与文化的交融之美!
内测地址:
扫码报名参加内测
研发团队主要成员:李绅、胡韧奋、王立军
发表评论