
为了探索ChatGPT的技术路线,并获得大语言模型研究的一手经验,复旦团队加快了MOSS开发。如今,MOSS成为国内首个公开亮相的类ChatGPT语言模型,“端到端”走通了大语言模型的开发全程。据悉,这款人工智能助手已进入内测阶段,内测将在用户许可的情况下获取数据,还将收集用户的反馈意见,期待借此大幅增强MOSS的对话能力。MOSS的回答语言流畅、逻辑清晰且观点正确。但研究人员也坦诚指出,当前版本的MOSS表现不够稳定,有些回答存在事实差错或逻辑不顺。
在邱锡鹏教授看来,开源是人工智能发展如此快速的原因之一;他说:“从早期可能以10年为单位发展,到最近几年可以看到,以大型预训练模型、大型模型推动人工智能发展,它的突破性模型发展时间大概已经缩短到以年为单位,人工智能已经成为计算机学科里发展最快的领域之一。背后的原因是什么呢?离不开两个字,就是开源。”这背后的逻辑在于,开源让整个科研过程形成良性闭环。
在对话方面,MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。可见,MOSS的最大短板是中文水平不够高,主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。为此,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。研究人员相信,这将有效提升模型的中文对话能力。
日前,邱锡鹏教授谈到了MOSS的研究进展。他说:“它是国内第一个发布的类ChatGPT模型,我们也是最早提出开源的插件增强版本,比OpenAI的发布都更早。”复旦团队当时就意识到,语言模型不只是用来对话,最重要的是它作为使用工具和外部世界相连接时对人的赋能。邱教授还说:“我们现在也在不断提高,会有些更新的结果,在原来的能力基础上取得大幅提升。”
语言模型由早期的专家系统到深度学习,再到现在参数量上千亿或万亿的大模型,总体上进入参数量和训练数据都大规模发展的状态。但这些千亿语言模型或百亿语言模型不是最近才出现的,可能几年前就有了。以前是把一个语言模型作为基座,运用到不同任务中,每个任务要微调一个自己的模型;而现在大语言模型有了新的内涵,即一个模型能够解决所有问题,如MOSS的出现使大语言模型变得更加流行。
由上我们看到了MOSS是如何创建自己的语言模型的,以及它当前所面临的问题。语言模型是自然语言处理的重要组成部分,可以用于许多自然语言处理任务。目前自然语言处理已经进入大语言模型时代,其发展前景十分可观。正如我国著名学者周海中教授说的那样,自然语言处理是极有吸引力的研究领域,它具有重大的理论意义和实用价值。
文/张树仁、何宏亮(作者单位分别为西安交通大学、澳门科技大学)