Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

谷歌又鬧大烏龍Jeff Dean參與的新模型竟搞錯Hinton生日

谷歌又鬧大烏龍Jeff Dean參與的新模型竟搞錯Hinton生日

2022-10-23 Comments 0 Comment

最近,谷歌研究員發布了關於指令微調的最新工作!然而卻宣傳圖中出現了可笑的烏龍。幾個小時之前,谷歌大腦的研究員們非常開心地曬出了自己最新的研究成果:“我們新開源的語言模型Flan-T5,在對1,800多種語言的任務進行指令微調後,顯著提高了prompt和多步推理的能力。”

然而,就在這張精心製作的“宣傳圖”上,竟藏著一個讓人哭笑不得的bug!

請注意看Geoffrey Hinton的出生日期:

但實際上,Hinton出生於1947年……

雖然沒有必然聯繫,但是Google自己的模型,竟然會把自家大佬的生日搞錯?

馬庫斯同志看完直接就驚了:你們Google,沒人負責審核的嗎……

理論上,這篇擁有31位作者,外加Jeff Dean這種大佬參與的論文,不應該發生這種“低級錯誤”才對啊。

“複製”的時候“打錯了”而已!

很快,論文的共同一作就在馬庫斯的推文下面進行了回复:“我們都知道,模型的輸出並不總是符合事實。我們正在進行負責任的AI評估,一旦有了結果,我們將立即更新論文。”

沒過多久,這位作者刪除了上面那條推文,並更新留言稱:“這只是在把模型的輸出複製到Twitter上時,『打錯了』而已。”

對此,有網友調侃道:“不好意思,你能不能給我翻譯翻譯,什麼叫『複製』來著?”

當然,在查看原文之後可以發現,“圖1”所示的生日,確實沒錯。

至於在宣傳圖中是如何從“1947”變成“1963”的,大概只有做圖的那位朋友自己知道了。

隨後,馬庫斯也刪除了自己的這條推文。

世界重歸平靜,就像什麼也沒有發生一樣。

只留下Google研究員自己推文下面的這條在風中飄搖——

擴展指令微調語言模型

既然誤會解除了,我們就讓話題重新回到論文本身上來吧。

去年,Google推出了一個參數量只有1370億的微調語言網絡FLAN(fine-tuned language net)。

https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令調優(instruction-tuned)版本。指令調優管道混合了所有數據集,並從每個數據集中隨機抽取樣本。

研究人員稱,這種指令調節(instruction tuning)通過教模型如何執行指令描述的任務來提高模型處理和理解自然語言的能力。

結果顯示,在許多有難度的基準測試中,FLAN的性能都大幅超過了GPT-3。

這次,Google將語言模型進行拓展之後,成功刷新了不少基準測試的SOTA。

比如,在1.8K任務上進行指令微調的Flan-PaLM 540B,性能明顯優於標準的PALM 540B(平均+ 9.4%),並且在5-shot的MMLU上,Flan-PaLM也實現了75.2%的準確率。

此外,作者還在論文中公開發布Flan-T5檢查點。即便是與更大的模型(如PaLM 62B)相比,Flan-T5也能實現強大的小樣本性能。

論文地址:https://arxiv.org/abs/2210.11416

總結來說,作者通過以下三種方式擴展了指令微調:

擴展到540B模型

擴展到1.8K的微調任務

在思維鏈(CoT)數據上進行微調

作者發現具有上述方面的指令微調顯著提高了各種模型類(PaLM、T5、U-PaLM)、prompt設置(zero-shot、few-shot、CoT)和評估基準(MMLU、BBH、 TyDiQA、MGSM、開放式生成)。

這次的微調數據包括473個數據集、146個任務類別和1,836個總任務。

作者是通過結合之前工作中的四種混合(Muffin、T0-SF、NIV2 和CoT),縮放(scale)成了下圖中的1836個微調任務。

在研究中,微調數據格式如下圖這樣組合。研究者在有樣本/無樣本、有思想鏈/無思想鏈的情況下進行了微調。要注意的是,其中只有九個思維鏈(CoT)數據集使用CoT格式。

第四種微調數據的混合涉及CoT註釋,作者用它來探索CoT註釋的微調是否可以提高看不見的推理任務的性能。

作者從先前的工作中創建了9個數據集的新混合,然後由人類評估者手動為訓練語料庫編寫CoT註釋。這9個數據集包括算數推理、多跳推理(multi-hop reasoning)和自然語言推理等。

作者在廣泛的模型中應用了指令微調,包括T5、PaLM和U-PaLM。對於每個模型,作者都採用了相同的訓練過程,使用恆定的學習率,並使用Adafactor優化器進行了微調。

從下表中可以看出,用於微調的計算量僅佔訓練計算的一小部分。

作者根據模型的大小和微調任務的數量,在保留任務的性能上檢測了縮放的影響。

作者從對三種大小的PaLM模型(8B/62B/540B)進行實驗,從任務最少的混合開始,一次添加任務混合,然後再到任務最多的混合(CoT、Muffin、T0-SF 和NIV2)。

作者發現,擴展指令微調後,模型大小和任務數量的擴展都會大大改善性能。

是的,繼續擴展指令微調就是最關鍵的要點!

不過,在282個任務之後,收益開始略微變小。

從下表中可以看出,對於三種大小的模型,多任務指令微調後,相比沒有微調時,性能有很大的提高,性能增益範圍從9.4%到15.5%。

其次,增加微調數量可以提高性能,儘管大部分的改進來自282個任務。

最後,將模型規模增加一個數量級(8B→62B或62B→540B)會顯著提高微調和非微調模型的性能。

為什麼282個任務之後增益就變小了呢?有兩種解釋。

一是附加任務不夠多樣化,因此沒有為模型提供新知識。

二是多任務指令微調的大部分收益,是因為模型學習更好地表達了它在預訓練中已經知道的知識,而282個以上的任務並沒有太大的幫助。

另外,作者還探討了在指令微調混合中包含思想鏈(CoT)數據的效果。

可以看出,Flan-PaLM在所有評估基准上都優於PaLM。

不過令人驚訝的是,以前的指令微調方法(如FLAN,T0)顯著降低了non-CoT的性能。

對此的解決方案是,只需在微調混合中添加9個CoT數據集,就可以在所有評估中獲得更好的性能。

雖然思維鏈(Chain-of-Thought)prompting通常非常有效,但只能編寫少量樣本,而且零樣本CoT並不總是有效果。

而Google研究者的CoT微調顯著提高了零樣本推理能力,比如常識推理。

為了展示方法的通用性,研究人員訓練了T5、PaLM和U-PaLM。其中參數量的覆蓋範圍也非常廣,從8000萬到5400億。

結果證明,所有這些模型都得到了顯著提升。

在以往,開箱即用的預訓練語言模型可用性通常都很差,比如對輸入的prompt沒有反應。

Google的研究者要求人類評估者來評估開放式生成問題的“模型可用性”。

結果顯示,Flan-PaLM 的可用性比PaLM基礎模型要高79%。

此外,指令微調還補充了其他的模型適應技術,比如UL2R。

同樣的,Flan-U-PaLM取得了很多優秀的結果。

論文地址:https://arxiv.org/abs/2210.11399

Google的另一起“翻車”事件

可以說,剛剛發生的這個劇情,既視感相當強了!

沒錯,就在10月19日,當GooglePixel的官方賬號試圖挖苦蘋果CEO庫克時,被網友抓包:是用iPhone發的推文……

顯然,這種事情早已不是第一次了。

2013年,T-Mobile的CEO就在Twitter上對三星Note 3贊不絕口,但用的是iPhone。

同樣是2013年,黑莓的創意總監Alicia Keys在發布會上說,她已經拋棄了自己之前的iPhone,換了黑莓Z10。隨後,就被發現用iPhone發推,甚至在被抓到後發推狡辯說是因為自己被黑了。

三星,也不例外:

而且,相比於Google的這次刪推,三星當時做得更加決絕:直接刪號!

看來,營銷課程有必要加上這樣的一條戒律了:如果你要推廣一個產品,請不要用競爭對手的產品來做。

這並不是一個難以傳授的信息,甚至還可以做得直白:在推銷其他產品時,手裡請不要拿著iPhone。

來源:新智元 

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
烹飪自動化初創企業決定轉型為公寓居民提供高性價比新鮮餐食
NEXT
《模擬人生》創造者計劃製作區塊鏈元宇宙遊戲

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2022 年 10 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
31  
« 9 月   11 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 小米15週年發表會官宣:除了自研玄戒O1晶片還有首款SUV 2025-05-19
  • 印尼將羅沃托比拉基- 拉基火山的警戒級別提升至最高級 2025-05-19
  • 微軟發布新技術指南解釋Windows 10/11安裝更新時各種錯誤代碼的含義和排除方法 2025-05-19
  • 比爾蓋茲有張麥當勞金卡全球門市都能免費吃 2025-05-19
  • 小米YU7定檔5月22日發表首款SUV即將登場 2025-05-19
  • 中科海鈉首款商用車專用鈉離子動力電池通過強檢 2025-05-19
  • Microsoft Edge將整合Phi-4 mini模型在Windows 11上啟用「裝置上」AI 2025-05-19
  • Gurman:下個月的WWDC 上不太可能討論Siri 升級等內容 2025-05-19
  • 宇宙碰撞暴露了火星隱藏的冰層和岩石層 2025-05-19
  • NASA的PUNCH以令人驚嘆的3D彩虹色揭示了太陽看不見的風 2025-05-19

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • Adobe Zii v4.5.0 CC 2019/5.1.4 2020 Universal Patcher Mac- Adob​​e for Mac激活工具
  • Windows及OFFICE激活密鑰+電話激活教程–自用
  • 網站未在Google上顯示(未編入索引)的可能原因及解決方案
  • GaN-on-Si和GaN-on-SiC的路線之爭
  • 三星Galaxy S25 系列官方桌布下載
  • 研究人員發現神秘的史前巨蛋屬於“末日魔鴨”
  • 北京地鐵扶梯上多了兩隻黃色腳印不必“左行右立”
  • NVIDIA中國特供晶片懸念再起黃仁勳確認H20已無法再改
  • 中國新創公司曾淡化出身如今一些新創公司卻開始自豪於這一點

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.