哈希力量归集文库路径访问: 首页 > 通用人工智能 > 人工智能产业要闻库

与“荀子”对话:古籍版ChatGPT发布

李晨 ☉ 文 来源:中国科学报 2023-12-18 @ 哈希力量

【小哈划重点:“比如《岳阳楼记》,要训练机器标注文中的形容词,首先就要训练相关人员标注形容词,在大量人工标注的基础上,再让机器学习。”这项坐“冷板凳”的基础标注工作一做就是10年之久。】

对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事。近日,国内首个专门应用于古籍处理与研究的智能工具“荀子”上线,意味着在智媒时代和古籍对话成为可能。2Fc哈希力量 | 消除一切智能鸿沟

这个古籍大语言模型“荀子”由南京农业大学信息管理学院教授王东波研究团队研发,是一个包含了《四库全书》在内的超20亿字的古籍文献大型语料库,能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能。作为开源的、公益的研究成果,该模型已在GitHub、ModelScope等网站开源。2Fc哈希力量 | 消除一切智能鸿沟

向思想家荀子致敬2Fc哈希力量 | 消除一切智能鸿沟

为何取名“荀子”?据王东波介绍,荀子不仅是我国先秦时期伟大的朴素唯物主义思想家,也是一位散文大家。在对荀子的作品深入研究后,团队发现其在语言学理论的阐述上也是一位开拓者,将大语言模型命名为“荀子”是为了纪念这位思想家。2Fc哈希力量 | 消除一切智能鸿沟

“咱们请它以金陵为主题,生成一首五言绝句。”王东波现场演示了“荀子”的智能写诗功能。指令一输入,系统便生成了一首原创绝句:“秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”2Fc哈希力量 | 消除一切智能鸿沟

除此之外,古文的阅读理解、标点添加,以及将古汉语翻译为现代汉语,这些让普通人难啃的“硬骨头”,“荀子”都可以轻松拿下。2Fc哈希力量 | 消除一切智能鸿沟

对于相关领域的专家,可以借助“荀子”完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等专业古籍研究处理工作。2Fc哈希力量 | 消除一切智能鸿沟

同时发布的基座模型,还可以让用户根据自己的需求,使用本地的训练语料微调“荀子”基座模型,使其在古籍下游处理任务上获得更优越的性能。2Fc哈希力量 | 消除一切智能鸿沟

10年“冷板凳”教会机器通读古今2Fc哈希力量 | 消除一切智能鸿沟

尽管目前有200多个通用模型在各领域得到应用,但古籍领域仍缺乏专业的大语言模型。功能强大的“荀子”到底是怎么做到化繁为简、通读古今的?2Fc哈希力量 | 消除一切智能鸿沟

“首先是‘算力充足’,并且‘饱读诗书’。”王东波介绍,“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及团队长期积累的大量标注、精加工语料库,团队给“荀子”投喂了40亿字大型混合语料数据。2Fc哈希力量 | 消除一切智能鸿沟

“模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据是最为关键的。”王东波介绍,团队从2008年开始接触古籍,2013年至今一直专注于人工精标注数据的工作。2Fc哈希力量 | 消除一切智能鸿沟

“比如《岳阳楼记》,要训练机器标注文中的形容词,首先就要训练相关人员标注形容词,在大量人工标注的基础上,再让机器学习。”这项坐“冷板凳”的基础标注工作一做就是10年之久。2Fc哈希力量 | 消除一切智能鸿沟

王东波表示,期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻性的科研视野,又具有较为深厚的人文底蕴。同时让更多受众接触古籍、品读古籍、传播古籍,真正地唤活“故纸堆”,共同推动中华优秀传统文化创造性转化和创新性发展,赓续传承中华文脉。2Fc哈希力量 | 消除一切智能鸿沟

联合发布“荀子”古籍大语言模型的中华书局古联公司,则主要致力于未来的场景应用和领域推广。除了让广大用户能够顺畅利用古籍内容,在专业领域推动古籍整理、古籍数字化、古籍活化利用与传播之外,“荀子”大模型未来还可广泛应用于AI写作、AI教学、数字文娱等领域。2Fc哈希力量 | 消除一切智能鸿沟

《中国科学报》 (2023-12-15 第4版 文化)2Fc哈希力量 | 消除一切智能鸿沟



收录源追溯链接或暂略


本文收录后固定可引用URL链接
    http://www.haxililiang.com/toutiao/kuaixun/36269.html


☉ 文库同一主题内容智能推荐 ☉
哈希力量 ☉ 人机智能科普文库