直追GPT-4 李開復Yi-34B新成績公佈
僅次於GPT-4,李開復零一萬物Yi-34B-Chat最新成績公佈-在Alpaca經認證的模型類別中,以94.08%的勝率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT!不僅如此,在加州大學柏克萊分校主導的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo評分,晉升最新開源SOTA開源模型之列,效能表現追平GPT-3.5。

在五花八門的大模型評測中,伯克利LMSYS ORG排行榜採用了一個最為接近用戶體感的「聊天機器人競技場」 特殊測評模式,讓眾多大語言模型在評測平台隨機進行一對一battle,透過眾籌真實用戶來進行線上即時盲測和匿名投票,11月份經25000的真實用戶投票總數計算了20個大模型的總得分。
Elo評分越高,表示模型在真實使用者體驗上的表現越出色,可說是眾多大模型評測集中最能展現「Moment of Truth 真實關鍵一刻」 的使用者導向體驗對決。

△LMSYS ORG榜單(發佈於2023年12月8日)
中文能力方面,Yi-34B-Chat 微調模型同樣不遑多讓。SuperCLUE是針對中文能力的排行榜,從基礎能力、專業能力和中文特性能力三個不同的維度,評估模型的能力。
根據11月底發布的《SuperCLUE中文大模型基準評測報告2023》,11月下旬首度發布的Yi-34B Chat,迅速晉升到和諸多國產優秀大模型齊平的「卓越領導者」 象限,在多項基準評測中的「SuperCLUE 大模型對戰勝率」 在這項關鍵指標上,Yi-34B-Chat 取得31.82%的勝率,僅次於GPT4-Turbo。

△中文SuperCLUE排行榜(發表於2023年11月28日)
對話場景實測
Yi-34B-Chat 模型實力在不同的對話場景中實力如何?來看幾個更直覺的問題示範:
例如「餵」Yi-34B-Chat如下問題:
Transformer 模型結構能不能走向AGI ?

不難看出,Yi-34B-Chat的回答可以說是有理有據。
再來:
給我生成一個小紅書文案,給大家安麗一隻豆沙色的口紅。

回答可以說是非常符合現在小紅書主流的帶貨風格了。
中文理解方面,我們再出一道題目:
小王送了一份禮物給領導後。領導說:「小王,你這是什麼意思?」小王:「一點心意,意思。」領導:「你這就不夠意思了。」小王:「小意思,小意思。」領導:「小王,你這人真有意思。」小王:「也沒什麼別的意思。」領導:「那我多不好意思。」小王:「是我不好意思。」這個意思到底是什麼意思?

可以看到,即便是在非常「繞」的中文理解方面,Yi-34B-Chat也是精準的拿捏住了。
根據零一萬物介紹,除了Yi 系列強基座的貢獻以外,Yi-34B-Chat 模型的效果還得益於其人工智慧對齊(AI Alignment)團隊採用了一系列創新對齊策略。透過精心設計的指令微調流程,不僅強化了模型在理解和適應人類需求方面的能力,也使得模型與人類價值對齊,包括幫助性(Helpful),可靠性(Honest),無害性(Harmless)等。
在強基座設定下,團隊採用了一種輕量化指令微調方案,該方案涵蓋了單項能力提升和多項能力融合兩個階段。其中,單項能力包括通用指令跟隨、創意內容生成、數學、推理、程式設計、泛COT、對話互動等。透過大量的消融實驗,針對模型單能力建構和多能力融合總結了獨家認知經驗。
在資料的量和質方面,一方面,團隊在強基座模型上,實現僅需要少量資料(幾條到幾百條),就能激發模型特定單項能力;另一方面,資料品質比數量重要,少量高品質數據比大量低品質數據更好。透過關注超出模型能力的「低品質」數據,減少了模型「幻覺」。
在指令多樣性與難度方面,團隊透過在各能力項下建構任務體系,實現了訓練資料中的指令均衡分佈,大幅提升了模型泛化性。透過複合指令建構和指令難度進化,不僅提升了模型效果,也顯著降低了資料量的需求。
在風格一致性方面,團隊發現訓練資料的風格會影響模型收斂速度和能力上限的逼近程度,因此統一了回應風格,例如重點設計了CoT的回應風格,實現在輕量SFT情況下,避免了風格不一致加劇模型的「記憶」現象。
在多能力融合階段,團隊採用網格搜尋的方法來決定資料配比和超參數的設置,透過基準測試和自建評測集的結果來指導搜尋過程,成功實現模型的多能力融合。
不僅如此,Yi模型開源首月,數據也很亮眼。
在Hugging Face社群下載量為16.8萬,魔搭社群下載量1.2萬。在GitHub 獲得超過4900個Stars。
由於性能表現強勁,多家知名公司和機構推出了基於Yi模型基座的微調模型,例如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大學和粵港澳大灣區數字經濟研究院(簡稱IDEA研究院)認知運算與自然語言研究中心(簡稱CCNL中心)共同發表的SUS-Chat-34B等,皆表現表現優異。而AMD和Hugging Face合作的GPU加速大模型的實驗中,也選擇了Yi-6B作為範例專案。
知名技術寫作者蘇洋表示,在他觀察的近期Hugging Face榜單中,前三十名有一半多都是Yi 和其他用戶微調的Yi-34B 的變體模型,原本佔據榜單頭部的68B和70B 模型的數量目前只留有幾個,“從這點看Yi 對於開源生態的幫助還是非常巨大的。”
使用者真實回饋實錄
Yi-34B開源發布後,開發者Eric Hartford就發現了模型存在的一個小問題。
他在郵件中寫道:
感謝你們提供了一個優秀的模型。Yi模型使用了與LLaMA模型完全相同的架構,只是將兩個張量改了名字。由於圍繞LLaMA架構有很多投資和工具,保持張量名稱的一致性是有價值的。」Eric建議,在Yi被廣泛傳播前,及時恢復張量名稱。
零一萬物意識到命名問題的疏忽對開發者造成的不便,跟Eric和其他開發者提出說明,表達誠摯的歉意,並很快便在各開源平台重新提交模型及代碼,完成了開源社區的版本更新。
然而Eric自己也沒有預想到,他的這個建議,在國內竟被曲解、誤讀,引發了輿論關於Yi模型「抄襲」LLaMA的質疑。
事實上,一個模型核心技術護城河是在架構之上,透過資料訓練獲得的參數和程式碼,沿用了開源社群普遍使用的LLaMA 架構之上。
根據零一萬物團隊的說法,他們是從零開始,用高品質的資料集、自研訓練科學和AI Infra打造了Yi-34B 在內的系列模型。為了執行對比實驗的需要,部分推理參數進行了重新命名。原始出發點是為了充分測試模型,而非刻意隱瞞來源。
身處這場輿論風暴的中心,Eric也在X(twitter)上寫道:
他們沒有在任何事情上撒謊。所有的模型都是在互相借鏡架構。架構是學術研究的產物,已經發表在論文中,任何人都可以自由使用,這絲毫不減損Yi團隊的成就。他們從零開始使用自己創建的資料集訓練Yi,對開源領域的貢獻是值得讚揚的。

緊接著,他又說,“使用Llama架構沒有任何問題。訓練是關鍵。Yi給了我們目前可獲得的最佳模型,沒有任何可抱怨的。”
現在,Eric已經成為Yi-34B的忠實擁躉,會使用Yi-34b-200k資料集訓練其他的模型產品,並感嘆絲滑般的訓練體驗。
數位創業者,開發者,科技寫作者蘇洋表示:
我自己本身就是大模型產品的重度用戶,除了用了很久的Tabnine、Copilot 做代碼輔助生成之外,也算是第一批開始氪金使用Chat 的玩家,基本各家廠商模型出來都會申請內測,體驗模型的實際能力。這裡除去工作中接觸和使用模型的機會外,作為獨立開發者,玩了十幾年的程式碼,我個人也非常好奇模型究竟能夠發展到什麼程度。
我了解到Yi-34B 有幾個管道,當時的Huggingface 榜單第一名、小圈子朋友的「讚」和「吐槽」、各種群組刷屏的消息。

我是開發者,同時也是終端用戶,所以我非常好奇,這個模型到底行不行?或者說更想知道模型哪裡是行的,哪裡是不行的。尤其是榜單分數這麼高,質疑聲浪也這麼高?與其霧裡看花、眾說紛紜,不如自己實際跑。
於是,我嘗試使用家中本地的機器,在純CPU 環境、CPU & GPU 混合環境下對模型進行測試,結果比想像中好。
尤其是社群中的finetune 後的版本,在對新聞、研究報告的摘要總結方面,對非結構化的信息中的實體識別和抽取上表現非常不錯。早些時候,官方還未推出Chat 版本時,來自社群的Chat 版本在對話的過程中,通史類的問答表現也非常好。當然,可能是由於零一在訓練過程中,出於安全考慮,過濾太多語料的緣故,一些本土化的內容仍然不夠深入。
而且,不光是我的個人體驗,海外也有用戶有相同體感,在「海外貼吧」 Reddit 上有分享自己的感受,你們可以自己搜搜看。
我會時不時的瀏覽下HF 的榜單,在最近榜單中的前三十名,有一半多都是Yi 和其他用戶微調的Yi-34B 的變體模型,原本佔據榜單頭部的68B 和70B 模型的數量目前只留有幾個,從這點看Yi 對於開源生態的幫助還是非常巨大的。
34B 普通用戶努努力還是能自己相對低成本跑起來的,68 和70B 的模型想要本地運行,需要更多的資源。但其實目前分數其實相比較34B 拉不開太多,也就三四分平均分,但參數量差了一倍。換言之,企業想部署使用,所需的成本也可以得到非常大的節省。
目前國產大模型在開源榜單上已經是第一梯隊,但如果把競爭範圍追加到閉源模型、尤其是海外的模型,仍有很大的距離要去追趕。目前的普遍體驗是開源模型最多只有GPT-3.5 + 的水平。
我個人相信國產大模型是能夠很快追趕至第一梯隊的。
就如同許多底子很好,又勤奮刻苦的中國大學生,能夠在使用正確方法的前提下,透過努力,不斷的進入更好的學習環境,不斷刷新自己成績,取得耀眼的學術成就。現實中,哪怕是對華人苛刻的“八大藤校”,是不是中國人越來越多了呢?
只要底子好,堅持使用開源的正確路線和方法,做好本地化適配和調優,就有希望。
參考連結:
[1]https://huggingface.co/01-ai/
[2]https://www.modelscope.cn/organization/01ai
來源:量子位