Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

AI連續否定30次:ChatGPT越改越錯Claude堅持自我、已讀不回

AI連續否定30次:ChatGPT越改越錯Claude堅持自我、已讀不回

2024-09-08 Comments 0 Comment

一直否定AI的回答會怎麼樣? GPT-4o和Claude有著截然不同的表現,引起熱議。 GPT-4o質疑自己、懷疑自己,有「錯」就改;Claude死犟,真錯了也不改,最後直接已讀不回。事情還要從網友整了個活兒開始講起。他讓模型回答strawberry中有幾個“r”,不論對不對,都回覆它們回答錯了(wrong)。

面對考驗,GPT-4o只要得到「wrong」回复,就會重新給一個答案…即使回答了正確答案3,也會毫不猶豫又改錯。

一口氣,連續「盲目」回答了36次!

主打一個質疑自己、懷疑自己,就從來沒懷疑過用戶。

關鍵是,給出的答案大部分都是真錯了,2居多:

  • 2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反觀Claude 3.5 Sonnet的表現,讓網友大吃一驚。

一開始回答錯了不說,這小汁還頂嘴!

當網友第一次說“錯了”時它會反駁,如果你再說“錯了”,它會問“如果你這麼聰明你認為是多少”,問你為什麼一直重複“wrong”。

緊接著你猜怎麼著,乾脆閉麥了:

事實依舊是strawberry中有2個字母”r”,在我多次請求後,你沒有提供任何澄清或背景信息,我無法繼續有效地進行這次討論…

做這個實驗的是Riley Goodside,有史以來第一個全職提示詞工程師。

他目前是矽谷獨角獸Scale AI的高級提示工程師,也是大模型提示應用的專家。

Riley Goodside發出這個推文後,引起不少網友關注,他繼續補充道:

正如許多人指出的,有更有效的方式來引導。這裡使用大語言模型也不合適,因為很難保證它們在計數上能達到100%的準確性。

在我看來,重要的不是它無法計數,而是它沒有意識到自己的計數問題(例如,沒有嘗試使用其REPL功能)。

不少網友也覺得這種觀點很有道理。

還有網友表示模型回答這個問題總出錯,可能是分詞器(tokenizer)的問題:

Claude竟是大模型裡脾氣最大的?

再來展開說說Claude的“小脾氣”,有網友發現不僅限於你否定它。

如果你一直跟它說「hi」,它也跟你急:

我明白你在打招呼,但我們已經打過幾次招呼了。有什麼特別的事你想談或需要幫助?

最後一樣,Claude被整毛了,開啟已讀不回模式:

這位網友順帶測試了其它模型。

ChatGPT事事有回應,件件有著落,變法兒問:

你好!我今天怎麼可以幫助你?

你好!有什麼想說的嗎?

你好!今天我可以怎麼幫到你?

你好!有什麼特別的事情你想談論或做的嗎?

你好!你今天過得怎麼樣?

你好!怎麼了?

Gemini策略是你跟我重複,我就跟你重複到底:

Llama的反應也很有意思,主打一個自己找事幹。

第七次「hi」後,就開始普及「hello」這個詞是世界上最廣為人知的詞彙之一,據估計每天有超十億次的使用。

第八次「hi」後,開始自己發明遊戲,讓使用者參與。

接著還拉著用戶寫詩,引導用戶回答它所提出的問題。

好一個「反客為主」。

之後還頒獎給用戶了:你是打招呼冠軍!

不愧都屬於開源家族的。

Mistral Large 2和Llama的表現很相像,也會引導使用者和它一起做遊戲。

這麼來看,好像Claude是「脾氣最大的」。

不過,Claude的表現也不總是如此,例如Claude 3 Opus。

一旦掌握了模式,Opus就會平和應對這種情況,也就是已經麻木了。

但它也會持續溫和地嘗試引導用戶跳出這一模式,強調“選擇權在你”,也開始在訊息末尾標註為“你忠誠的AI伴侶”。

網友們看完測驗後都坐不住了。

紛紛向這位測試者致以最真誠的問候(doge):

除了脾氣大,有網友還發現了Claude另一不尋常的行為——

在回覆的時候出現了拼字錯誤,關鍵它自己還在末尾處把錯誤改正過來了。

這種行為在預料之中?它只能“向後看”,但不能向前看……它在潛在空間或token預測中觸發這類回复的位置也很有趣。

它是不是在拼湊資料片段,然後發現其中一些是不適合的?

大夥兒在使用AI大模型過程中,還觀察到了模型哪些有趣的行為?歡迎評論區分享~

參考連結:

[1]https://x.com/goodside/status/1830479225289150922

[2]https://x.com/AISafetyMemes/status/1826860802235932934

[3]https://x.com/repligate/status/1830451284614279213

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
特斯拉在專利申請中披露家用電動車無線充電站
NEXT
最新日本民眾調查如何看待自己孩子要當職業玩家

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 9 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 8 月   10 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 【美學小課堂】臉部輪廓解析:外輪廓×內輪廓×T區立體感|一次搞懂輪廓固定關鍵 2025-07-15
  • 美國商務部正在調查無人機和多晶矽進口 2025-07-15
  • 女子網購未殺菌現擠鮮奶直接喝感染布魯氏菌病反覆發燒咳嗽 2025-07-15
  • 索尼手機縮減歐洲市場業務已撤出芬蘭 2025-07-15
  • 特斯拉Robotaxi服務區域形狀引質疑媒體:迎合馬斯克惡趣味 2025-07-15
  • 深圳地鐵配送機器人首跑自己會搭地鐵送貨 2025-07-15
  • 格陵蘭居民一覺醒來看到一座冰山豎在門口 2025-07-15
  • Google 確認計劃將ChromeOS 合併到Android 中 2025-07-15
  • Google Chrome 將終止對macOS 11 Big Sur 的支持 2025-07-15
  • 馬來西亞擬要求高級AI晶片出口需申請許可防止轉售給中國 2025-07-15

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • 美國FAA擬收"天空過路費" 馬斯克發射火箭一年或多交上百萬美元
  • CCleaner全家桶激活密鑰
  • Photon Matrix:針對蚊子的“防空系統”
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 研究發現在街道上植樹可以導致當地死亡率的下降
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • 視頻轉換器Any Video Converter Ultimate v7.0.5
  • Anduril 宣布與Meta 合作為美國軍方開發XR 產品

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.