
為了探索ChatGPT的技術路線,並獲得大語言模型研究的一手經驗,復旦團隊加快了MOSS開發。如今,MOSS成為國內首個公開亮相的類ChatGPT語言模型,「端到端」走通了大語言模型的開發全程。據悉,這款人工智慧助手已進入內測階段,內測將在用戶許可的情況下獲取數據,還將收集用戶的反饋意見,期待藉此大幅增強MOSS的對話能力。MOSS的回答語言流暢、邏輯清晰且觀點正確。但研究人員也坦誠指出,當前版本的MOSS表現不夠穩定,有些回答存在事實差錯或邏輯不順。
在邱錫鵬教授看來,開源是人工智慧發展如此快速的原因之一;他說:「從早期可能以10年為單位發展,到最近幾年可以看到,以大型預訓練模型、大型模型推動人工智慧發展,它的突破性模型發展時間大概已經縮短到以年為單位,人工智慧已經成為計算機學科裡發展最快的領域之一。背後的原因是什麼呢?離不開兩個字,就是開源。」這背後的邏輯在於,開源讓整個科研過程形成良性閉環。
在對話方面,MOSS的英文回答水準比中文高,因為它的模型基座學習了3000多億個英文單詞,中文詞語只學了約300億個。可見,MOSS的最大短板是中文水準不夠高,主要原因是互聯網上中文網頁干擾資訊如廣告很多,清洗難度很大。為此,復旦大學自然語言處理實驗室正在加緊推進中文語料的清洗工作,並將清洗後的高質量中文語料用於下一階段模型訓練。研究人員相信,這將有效提昇模型的中文對話能力。
日前,邱錫鵬教授談到了MOSS的研究進展。他說:「它是國內第一個發布的類ChatGPT模型,我們也是最早提出開源的插件增強版本,比OpenAI的發布都更早。」復旦團隊當時就意識到,語言模型不只是用來對話,最重要的是它作為使用工具和外部世界相連接時對人的賦能。邱教授還說:「我們現在也在不斷提高,會有些更新的結果,在原來的能力基礎上取得大幅提昇。」
語言模型由早期的專家系統到深度學習,再到現在參數量上千億或萬億的大模型,總體上進入參數量和訓練數據都大規模發展的狀態。但這些千億語言模型或百億語言模型不是最近才出現的,可能幾年前就有了。以前是把一個語言模型作為基座,運用到不同任務中,每個任務要微調一個自己的模型;而現在大語言模型有了新的內涵,即一個模型能夠解決所有問題,如MOSS的出現使大語言模型變得更加流行。
由上我們看到了MOSS是如何創建自己的語言模型的,以及它當前所面臨的問題。語言模型是自然語言處理的重要組成部分,可以用於許多自然語言處理任務。目前自然語言處理已經進入大語言模型時代,其發展前景十分可觀。正如我國著名學者周海中教授說的那樣,自然語言處理是極有吸引力的研究領域,它具有重大的理論意義和實用價值。
文/張樹仁、何宏亮(作者單位分別為西安交通大學、澳門科技大學)