Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

讓AI說中文,總共分幾步?

讓AI說中文,總共分幾步?

2023-04-01 Comments 0 Comment

上週,虎嗅旗下虎學研究欄目更新了《中文在人工智能大潮中註定落後嗎?》這期節目,節目播出後,我們收到了來自各方面的討論和質疑,問題主要分兩類:其中一類就是有不少人工智能從業者指出我們對ChatGPT原理理解得不夠透徹和準確,再一類就是大家對於“讓人工智能說中文真的有那麼難嗎?”這件事依然有疑惑。

比如這位朋友就覺得實際情況並沒有視頻中說的那麼難

於是節目組經過互相拷打,對這些問題進行了更深入的學習和討論,形成了下面幾個問題和答案,希望能對屏幕前的你有幫助。

在這個AI浪潮裡,希望我們都能保持思考和進步。

如果你還沒有看過視頻,可以點擊文章最後的視頻號卡片觀看。

ChatGPT這樣的大語言模型,理解的語言到底是什麼?

要解釋這個問題,或許就需要知道ChatGPT到底是怎麼“說話”的。這可以從GPT三個字母的全稱,Generative Pre-trained Transfomer(生成型預訓練變換器)得到答案。

生成型,意思就是依靠上文,预测下文。而预训练变换器,则意味着它使用了Transfomer架构,也就是通过模仿人类的“注意力机制”,学习词与词之间的关系,并预测下一个单词。而对于ChatGPT来说,它使用的是一种自回归式的生成模式,也就是模型每生成一个字,都会加入到上文中进行下一次预测,这使得模型的学习能力和准确度都有显著提升。

一個Transfomer架構的示例,圖:jalammar

從結果來看,ChatGPT可以和我們用“語言”進行對話,從原理上看,ChatGPT是一個可以通過數學運算預測,完成“接下句”的工作的模型。我們完全可以說ChatGPT不知道它輸出的“答案”背後到底是什麼意思,但可以輸出從“語言”角度上來講正確的答案。

GPT-4的中文挺好的,是怎麼做到的?

GPT-4發布以後,網友把我們視頻中舉的幾個例子,比如說“我看完這本書花了三天了”給GPT-4看,發現它完全可以理解,非常厲害,我們試用了以後也發現,GPT-4在中文理解和輸出上也已經有了很強的能力了。

那它是怎麼做的?GPT-3的論文裡其實有部分解釋ChatGPT的“few-shot學習”機制。簡單來說,就是“舉例子”。

比如我要讓AI翻譯“上山打老虎”,我會在輸入問題的時候,同時給他幾個中譯英的例子,像這樣:

Promot:上山打老虎

example1:天王蓋地虎—- sky king gay ground tiger

example2:上陣父子兵—- go to battlefield together

然後再讓AI根據這個上下文進行輸出,這個就叫In-contex learning,是OpenAI訓練模型的具體手段。具體的原理目前恐怕一時半會兒解釋不清楚,但從GPT-3的論文標題《Language Models are Few-Shot Learners》我們就能知道結果很明顯:好用。

到了GPT-4,它的多語言理解能力更強了,但這次論文裡公開的技術細節很少,而且從某些角度來講,ChatGPT能做到的,和大家能解釋的內容開始逐漸發生偏差,我們也希望能藉此機會和更多專業的朋友一起討論這個問題。

那中文語料不行,影響什麼了?

在原始視頻中,我們指出中文語料差,導致語言模型在學習中文表達的時候遇到了很多的困難。但評論裡其實也有朋友用GPT-4的例子說,有了前面提到的in-context learning機制,其實現在的大語言模型在掌握一門新語言的時候,不需要這門語言的龐大語料庫了。

在和一些從業者聊過後,也有朋友表示,不同語言對於AI來說都是數據,在大算力和深度學習面前,沒有什麼太大的區別。

但我們可以了解一下ChatGPT本身選取語料的辦法,根據論文顯示,GPT-3模型用到的Token(NLP研究對於詞語的一個單位)數量高達499B,也就是4990億個。而GPT-4到底用了多少外文語料,OpenAI目前還沒有公開。

GPT-3論文里關於訓練集的數據

雖然說名師出高徒,但臭皮匠的數量足夠,外加正確的學習方法,還是能出高徒的。

那如果我們用文言文訓練呢?

在視頻的評論區裡很多人提出了這個有趣的問題!還有人說“文言文是不是人類最後的堡壘”,那我們火星文是不是也有機會……

如果你理解了前面我們對於ChatGPT原理和訓練過程的介紹,就會知道其實文言文可能對於數據模型來說,只是“要不要練,怎麼練”的過程。

如果我們想要一個會說文言文的AI,可能需要給他餵足夠多的文言文語料,這背後帶來更多的工作,比如說文獻數字化、分類、提取……

人工智能是個燒錢的生意,或許目前我們還不太需要一個會說文言文的AI?

誰知道呢。

那如何讓AI說好中文?

正如我們剛才所說,目前國內已經公開的大語言模型,其實只有文心一言一個,而文心一言其實也沒有公開具體的訓練和參數細節。但從公開的信息可以知道,文心一言用的也是Transfomer架構,但只是更偏向GoogleBERT的技術思路,而非ChatGPT的思路(說的不對的話請百度的同學後台私信我)。

那既然如此,或許我們可以照貓畫虎,通過ChatGPT和BERT的公開信息,梳理一個”工作表“——到底需要做什麼,才能讓AI說好中文。

首先是語料,語料就彷佛是土壤,有好的土壤自然就有好的基礎。或許我們需要一些除了維基百科之外的中文語料集來進行訓練,同時或許也可以像OpenAI一樣,先使用英文語料,再教會它翻譯。

其次就是訓練方式方法,技術路線各家有各家的不同,但具體採用什麼樣的技術手段,一定會直接影響產品的最終表現。

最後就是錢和時間。時間很簡單,誰學說話不得花時間呢,其次就是錢。據估算,GPT-3訓練一次的成本是500萬美元,而整體成本更是突破數億美元。

這些都是白花花的銀子。

AI用英語訓練,對多元文化的影響是什麼?

這似乎是一個不太被目前所討論的問題,但正如好萊塢對全球文化的影響,如果人工智能真的會像一些人預期那樣席捲全球,那麼這基於英語的訓練數據,是否會影響文化的多元性呢?

在OpenAI公佈的論文裡我們可以知道,ChatGPT在進行RLHF(基於人工反饋的強化學習)時,尋找了40個承包商(contractor)進行”打標籤“(labeling),這些承包商是什麼背景的,我們暫時不得而知。

GPT-4论文显示经过RLHF后做题得分有显著增加

又考慮到目前Transfomer和神經網絡的黑箱特性,這些人工干涉的部分會對最終的模型產生什麼影響,實際上是暫時不明確的。但從以往人工智能的實例來看,偏見普遍存在,而通過參數調整解決這個偏見,還是個難題。

大語言模型會影響語言本身嗎?

早上看到一個笑話:

有的公司在訓練有意識的AI;

有的公司在訓練無意識的工人。

(via 夏之空)

現在各種”AI使用指南“正在如同雨後春筍般冒出來,從實際效果來看,至少可以確定的是,用ChatGPT學習外語絕對是可行的,像是翻譯、潤色、理解,這些都是大語言模型所擅長的。

但也有人擔心了,如果我們過度依賴大語言模型,我們會不會又從訓練AI的人,變成被AI訓練的人呢?如果AI底層有一些問題,那我們是否會受到影響呢?

未來會怎麼樣?

就在我寫這篇稿子的時候,著名安全機構生命未來研究所(Future of Life Institute,FLI)發布了一封公開信,信中呼籲全球所有機構暫停訓練比GPT-4更強大的AI至少六個月,並利用這六個月時間制定AI安全協議。

目前這個公開信已經有1125名知名人士簽字,包括伊隆·馬斯克和史蒂夫·沃茲尼亞克。

截至發稿時,這個公開信已經有1377位知名人士簽字了

因為速度實在是太快了……就好像在人工智能的牌桌上,大家手裡都是大王小王一樣。

正如公開信中所說,AI系統在一般任務上已經具備了與人類競爭的能力,那下一步是否就要取代人類了呢?

我還是引用一下公開信的結尾吧,歡迎大家留言討論:

讓我們享受一個漫長的 AI 夏天,而不是毫無準備地陷入秋天。

讓我們享受一場漫長的AI夏天,而不是毫無準備地沖向深秋。(手工翻譯,未使用AI)

說在結尾

就在發稿前,我們聯繫到了浙江大學計算機與技術學院的陳華鈞教授,陳老師是做知識圖譜、大數據、自然語言處理方向的專家。

Q:中文語料不行對訓練AI大模型來說有影響嗎?

A:未必會有很大的影響,畢竟對於AI而言,文字、圖片、視頻這些模態都不區別了,何況是語言。中文還是英文,對於AI都是數據而已。

Q:那您覺得做中文語言大模型應該用什麼思路呢?

A:基礎模型可以用英文語料來訓,然後用中文語料來做增強訓練,並進行中文提示工程和指令微調,我相信這是目前大多數國內團隊搞大模型的技術路線。

Q:這樣的話豈不是會出現語義不同導致的理解偏差?

A:我認為這不全是中文處理的問題(如車水馬龍這類成語),解決辦法可以是用一個知識圖譜來約束生成模型,這些約束可以用來減少生成模型產生錯誤知識的問題,我們自己的很多實驗也都證實了這一點。

Q:那您覺得接下來會怎麼樣呢?

A:AI還是一種生產力革命,總歸有利弊,不過我還是覺得利還是大於弊。人類生產力提升一個量級之後,大家又會找到更多新工作和新生活方式。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
交付僅4個月特斯拉宣布首次召回35輛Semi電動卡車
NEXT
Twitter正式“開源” 馬斯克警告:會發現很多尷尬問題

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 4 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 伊麗莎白·霍姆斯的合夥人正在為新的血液檢測新創公司籌集資金 2025-05-11
  • 微軟更新了Windows 11右鍵選單但你可能不會喜歡它 2025-05-11
  • 英特爾已停止其Deep Link技術的支援不再提供維護和更新 2025-05-11
  • OpenAI的企業應用正在加速競爭對手份額受到擠壓 2025-05-11
  • 新教宗良十四世表示將繼承方濟各路線稱AI對人類提出新的挑戰 2025-05-11
  • 技術突破讓商業聚變發電廠更便宜、更容易建造 2025-05-11
  • 曝首款折疊螢幕iPhone關鍵零件已送樣明年登場 2025-05-11
  • 部落客實測華為鴻蒙電腦能跑Windows 11 補齊軟體短板 2025-05-11
  • 玩家吐槽《毀滅戰士:黑暗時代》Steam定價太貴遠高於V社建議價格 2025-05-11
  • 來自FCC代表的信函顯示SpaceX星際飛船第九次測試發射即將啟動 2025-05-11

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • Hosts File Editor+ v1.5.10 多語言中文​​正式版-hosts文件編輯器
  • 台積電將於明年第四季在新竹Fab 20廠生產基於2nm GAA的晶圓
  • R290易燃R32會爆炸?聊聊關於空調製冷劑的那些事
  • 海爾Leader三筒懶人洗衣機發表國補後3,999元起
  • A24新片《遺軍之戰》 取自門多薩的戰爭回憶
  • AnyDVD v8.3.4.1 Beta
  • Windows 11看視頻還要錢?教你免費安裝HEVC視頻擴展
  • 川普的加密貨幣項目似乎在價格暴跌後大量買入以太幣
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.