OpenAI的A推理模型有時會用中文”思考” 但沒人知道為什麼
OpenAI 發布其首個”推理”人工智慧模型o1 後不久,人們開始注意到一個奇怪的現象。 這個模型有時會開始用中文、波斯語或其他語言進行”思考”–即使被問到的是英語問題。
如果要解決一個問題,例如”‘草莓’這個詞有幾個R? – o1 會開始”思考”,通過一系列推理步驟得出答案。如果問題是用英語寫的,那麼o1 的最終回答也將是英文。
Reddit 上的一位用戶說:”[O1] 中途隨機開始用中文思考。”
另一位用戶在X 上的帖子中問道:”為什麼[o1] 突然開始用中文思考?對話的任何部分(5 條以上的信息)都沒有使用中文。”
OpenAI 還沒有對o1 的奇怪行為做出解釋,甚至也沒有承認。 那麼到底是怎麼回事呢?人工智慧專家也不清楚。 但他們有一些理論。
包括Hugging Face 執行長克萊門特-德朗格(Clément Delangue)在內的一些人在X 上暗示,像o1 這樣的推理模型是在包含大量漢字的資料集上訓練出來的。 Google DeepMind 的研究員Ted Xiao 聲稱,包括OpenAI 在內的公司都使用第三方中文資料標註服務,o1 轉用中文是”中文語言對推理的影響”的一個例子。
“[像] OpenAI 和Anthropic 這樣的實驗室利用[第三方]數據標籤服務來獲取科學、數學和編碼方面的博士級推理數據,」肖在X 上的一篇帖子中寫道。 “由於專家勞動力的可用性和成本原因,這些數據提供者很多都在中國。”
標籤也稱為標記或註釋,有助於模型在訓練過程中理解和解釋資料。 例如,用於訓練圖像辨識模型的標籤可以是物體周圍的標記,也可以是圖像中描述的每個人、地點或物體的說明。
研究表明,有偏差的標籤會產生偏差的模型。 例如,平均註釋者更有可能將非裔美國人白話英語(AAVE)(一些美國黑人使用的非正式語法)中的短語標註為有毒,從而導致根據標籤訓練的人工智慧毒性檢測器將非裔美國人白話英語視為毒性過高。
不過,其他專家並不相信o1 中文資料標籤的假設。 他們指出,o1 同樣有可能在找出解決方案的過程中切換到印地語、泰語或中文以外的語言。
這些專家表示,o1 和其他推理模型可能只是使用他們認為最有效的語言來實現目標(或幻覺)。
阿爾伯塔大學的人工智慧研究員兼助理教授馬修-古茲迪爾(Matthew Guzdial)認為:「模型不知道語言是什麼,也不知道語言是不同的。對它來說,一切都只是文字。 “
事實上,模型並不會直接處理文字。 它們使用 標記來代替。 標記可以是單字,如”fantastic”。 也可以是音節,如”fan”、”tas”和”tic”。 它們甚至可以是單字中的單個字符,如”f”、”a”、”n”、”t”、”a”、”s”、”t”、”i”、”c”。
與標註一樣,標記也會帶來偏差。 例如,儘管並非所有語言都使用空格來分隔單詞,但許多單字到標記的翻譯器會認為句子中的空格表示一個新單字。
人工智慧新創公司Hugging Face的軟體工程師王鐵真同意古茲迪爾的觀點,即推理模型的語言不一致性可能是由模型在訓練過程中產生的聯想造成的。
“例如,我更喜歡用中文做數學題,因為每個數字都只有一個音節,這樣計算起來既簡潔又高效。 但當涉及到無意識偏見等話題時,我會自動切換到英語,主要是因為這是我最初學習和吸收這些觀點的地方。
王的理論似是而非。 畢竟,模型是一種機率機器。 透過對許多例子的訓練,它們可以學習模式來進行預測,例如電子郵件中”給誰”通常會出現在”可能涉及”之前。
但非營利組織艾倫人工智慧研究所(Allen Institute for AI)的研究科學家盧卡-索爾達尼(Luca Soldaini)提醒說,我們還不能確定。 “他表示,”由於這些模型的不透明性,這種對已部署的人工智慧系統的觀察是不可能得到支援的。 “這就是為什麼人工智慧系統建構過程中的透明度至關重要的眾多案例之一。”
由於OpenAI 沒有給出答案,我們只能思考為什麼o1 會用法語思考歌曲,而用國語思考合成生物學。