Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

當要求GPT-4進行自我檢討時其準確性提高了30%

當要求GPT-4進行自我檢討時其準確性提高了30%

2023-04-04 Comments 0 Comment

研究人員已經讓GPT-4對自己的工作進行了檢討,進而使其性能提高了30%。研究人員Noah Shinn和Ashwin Gopinath寫道:”人類不是每天都在開發新技術,利用曾經被認為是人類智能所特有的決策過程來達到最先進的標準。但是,這正是我們所做的。”

j_3lRLZ9.jpg

“反思”技術採用了GPT-4已經令人印象深刻的執行各種測試的能力,並引入了”一個框架,允許人工智能代理模仿人類一樣的自我反思並評估其性能”。有效地,它引入了額外的步驟,讓GPT-4設計測試來批判自己的答案,尋找錯誤和誤區,然後根據發現的問題重寫其解決方案。

bhoWQAjv.jpg

在HumanEval編碼測試中,GPT-4的準確率從67%提高到88%,這是一個令人印象深刻的飛躍,使用的是自我反省循環。

該團隊在一些不同的性能測試中使用其技術。在HumanEval測試中,由模型從未見過的164個Python編程問題組成,GPT-4的得分創下了67%的記錄,但使用Reflexion技術,其得分躍升至非常令人印象深刻的88%。

在Alfworld測試中,該測試挑戰人工智能通過在各種互動環境中執行幾種不同的允許行動來做出決定和解決多步驟任務的能力,Reflexion技術將GPT-4的表現從73%左右提升到接近完美的97%,在134項任務中只有4項失敗。

在另一項名為HotPotQA的測試中,語言模型被賦予了對維基百科的訪問權,然後在可能的13000個問題/答案對中給出100個,可以”挑戰代理人對內容的解析和對幾個支持文件的推理”。在這項測試中,GPT-4的準確率只有34%,但帶有Reflexion的GPT-4設法做得更好,達到54%。

越來越多的時候,解決人工智能問題的方法似乎是更多的人工智能本身。在某些方面,這感覺有點像生成式對抗網絡,其中兩個人工智能互相磨練技能,例如,一個試圖生成無法與”真實”圖像區分的圖像,而另一個試圖區分假的和真的。但在這種情況下,GPT既是作者又是編輯,努力改善自己的輸出。

這篇論文可以在Arxiv上找到。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
一汽豐田官微刪除張繼科宣傳物料曾任bZ電動車自由大使
NEXT
以前無法檢測到的:深海甲烷的釋放比預期的更頻繁

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 4 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 微軟裁員風暴:軟體工程崗位成重災區AI搶走程式設計師飯碗? 2025-05-15
  • 星巴克據悉已啟動出售龐大中國業務部分股份的進程 2025-05-15
  • 資料外洩後Valve向Steam用戶保證其係統沒有被入侵 2025-05-15
  • 小米盒子5系列今日開賣:299元起支援4K 2025-05-15
  • 假期3天不調休端午假期火車票即將開售 2025-05-15
  • 網友在馬耳他偶遇劉強東夫婦打扮顯眼被認出 2025-05-15
  • 智慧仿生魚已投入長江保護:模仿魚類遊動進行生態資料採集 2025-05-15
  • 華為折疊PC將在5月19日正式發布 2025-05-15
  • 小鵬全新純電轎跑官宣:還叫P7 2025-05-15
  • DeepMind放出新AI大招:竟能自我糾錯但有致命弱點 2025-05-15

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 傳三星2nm良品率逐漸提高英偉達及高通都有下單意向
  • 宇宙壽命大縮水科學家將毀滅倒數提前萬億倍
  • 新研究發現輔助駕駛技術更容易導致駕駛分心
  • 傳NVIDIA全球總部將設在台灣黃仁勳將於下周宣布選址
  • 富士闢謠拍立得相紙停產:仍在生產停產說法並不屬實
  • NVIDIA對川普的迎合促成了AI技術擴散限制的逆轉以及對華為的進一步壓制
  • 76%美國汽車高層認為中國電動車登陸美國是遲早的事
  • 滴滴寵物出遊:已有近200萬隻寵物完成檔案註冊正嘗試接入順風車運力
  • 航太六院140噸級重複使用液態氧甲烷引擎首次整機試驗成功

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.