Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

最新GPT-4在律考中擊敗90%人類,它到底強在哪?

最新GPT-4在律考中擊敗90%人類,它到底強在哪?

2023-03-16 Comments 0 Comment

“碼農真的快失業了,編程不存在了。”在今早GPT-4發布之後,朋友圈刷屏,很多人表達該技術對目前人類生產生活的影響。GPT-4有多強,GRE考試接近滿分,律考比肩頂級律師,隨手畫個草圖就能做出同款網頁。當國內還在熱議人工智能對話大模型產品ChatGPT時,背後核心預訓練模型技術GPT卻突然重磅升級。

北京時間3月15日凌晨,創造出ChatGPT的美國AI 公司OpenAI 正式對外發布GPT-4。

據悉,GPT-4是新一代多模態大模型,支持圖像和文本輸入以及正確的文本輸出,擁有強大的識圖能力,文字輸入限制提升至2.5萬字,支持多個語言,回答準確性顯著提高,從而讓新的ChatGPT更聰明。此外,GPT-4還開放了角色扮演和性格定制能力。另外,GPT-4版本還會隨著時間進行自動更新。

OpenAI發布的GPT-4在各種專業學術基准上有著人類水平表現。例如在模擬律師考試中,GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背後的GPT-3.5得分約為倒數10%。

“GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人。” OpenAI工程師在開發者Demo視頻中表示,GPT-4 是OpenAI努力擴展深度學習的最新里程碑。OpenAI稱,GPT-4雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基准上表現出人類水平的表現。

微軟在GPT-4發布後第一時間表示,新的必應(Bing)已經基於GPT-4 技術運行,這是為搜索產品量身定制的模型產品。“如果你在過去五週內的任何時候使用過新的Bing預覽版,你就已經提前了解過這個強大模型的早期版本。隨著OpenAl對GPT-4及以後的版本進行更新,Bing 從這些改進中受益匪淺。”

即日起,ChatGPT Plus付費訂閱用戶現可直接使用GPT-4版本的ChatGPT,未來則將對免費用戶開放一定數量的GPT-4體驗。同時,GPT-4 API 需要申請候選名單,今天將開始邀請一些開發人員,並不斷擴大邀請規模,每1000字符的價格為0.03美元;圖像輸入則處在研究預覽階段,僅對少部分用戶開放。

不過,GPT-4仍存在改進空間。雖然GPT-4這波能力大升級,但之前ChatGPT會出現幻覺、胡說八道的毛病還是沒能完全改掉。

誰能革得了ChatGPT 的命?現在看來還是OpenAI 自己。

花了6個月打造,

GPT-4到底強在哪裡?

在了解GPT-4之前,我們要知道,GPT到底是什麼。

隨著1956年“達特茅斯會議”上創造“人工智能”這個術語,全球迎來了AI 技術發展階段。在2016年GoogleDeepMind的“阿爾法狗”(AlphaGo)擊敗了韓國圍棋冠軍李世乭,以及機器學習的誕生,AI 算法、算力、數據“三駕馬車”獲得了突破性技術進展。

但問題在於,機器學習利用循環神經網絡(RNN) ——序列數據或時序數據的人工神經網絡來處理文字,使得文字按順序一個個處理,沒辦法同時進行大量學習。

因此2017年,Google團隊發布論文“Attention Is All You Need”,提出了一個新的學習框架Transformer,以解決此問題。它拋棄了傳統的CNN(卷積神經網絡)和RNN,使整個網絡結構完全由Attention機制組成,從而讓機器同時學習大量的文字,訓練速度效率大大提升。

簡單來說,只需要LLM(大型語言模型)、大型參數量和算力算法訓練,以Attention機制就可實現快速的機器學習能力。因此,無論是ChatGPT的T,還是Google預訓練語言模型BERT的T,均是Transformer的意思。

基於Transformer框架,OpenAI進行了新的研究學習GPT,全稱為Generative Pre-trained Transformer(生成式預訓練框架),其利用無監督學習技術,通過大量數據來形成快速反饋。2018年6月,OpenAI發布第一代GPT,2019年11月發布GPT-2,2021年發布了1750億參數量的GPT-3,不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力等,而ChatGPT是微調之後的GPT-3.5消費級應用。

今天發布的GPT-4,是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回复。OpenAI表示,團隊花了6個月的時間使用對抗性測試程序和ChatGPT的經驗教訓,對GPT-4進行迭代調整,從而在真實性、可控性等方面取得了有史以來最好的結果。

“GPT-3.5 和GPT-4 之間的區別可能很微妙。當任務的複雜性達到足夠的閾值時,差異就會出現——GPT-4 比GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。”OpenAI 表示,在過去的兩年裡,團隊重建了整個深度學習堆棧,並與微軟Azure一起,為GPT工作負載從頭開始共同設計了一台超級計算機。經過訓練和修復更新之後,GPT-4前所未有地穩定,成為OpenAI 能夠提前準確預測其訓練性能的第一個大型模型。

那麼,GPT-4技術到底怎麼樣?為了了解這模型差異,根據官方實驗表明,GPT-4在各種專業測試和學術基准上的表現與人類水平相當。

首先,在美國BAR律師執照統考模擬中, GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背後的GPT-3.5得分約為倒數10%;生物奧林匹克競賽,GPT-3.5能達到後31%水平分位,GPT-4可達到前1%水平分位;研究生入學考試(GRE) 、SAT數學考試成績中,也有大幅提升,擊敗了80%以上的人類答題水平,而醫學知識自測考試準確率達75%。

第二個測試是與其他英文機器學習模型的技術能力。研究團隊使用微軟Azure Translate,將MMLU 基準——一套涵蓋57個主題、14000個多項選擇題翻譯成多種語言。在測試的英語、拉脫維亞語、威爾士語和斯瓦希里語等26種語言中,有24種語言下,GPT-4優於GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能。

而在TruthfulQA等外部基準測試方面,GPT-4也取得了進展。OpenAI測試了GPT-4模型將事實與錯誤陳述的對抗性選擇區分開的能力。實驗結果顯示,GPT-4基本模型在此任務上僅比GPT-3.5略好。但在經過RLHF訓練之後,二者的差距就很大了,例如GPT-4在測試中並不是所有時候它都能做出正確的選擇。

此外,GPT-4還支持做編程、玩梗圖、回答關鍵問題、理解圖片、看懂法語題目並解答等其他更多擴展技術能力,研究人員發現,GPT-4能隨著時間不斷處理令人興奮地新任務——現在的矛盾是AI 的能力和人類想像力之間的矛盾。不過OpenAI表示,圖像輸入是研究預覽,目前不公開。

對於一個長相奇怪的充電器的圖片問為什麼這很可笑?GPT-4 回答:VGA 線充iPhone。

GPT-4回答數學問題

總的來說,GPT-4 相對於以前的模型(經過多次迭代和改進)已經顯著減輕了判斷失誤問題。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。

很顯然,雖然GPT-4 對於許多現實場景的處理比人類差,但在各種專業和學術基准上已表現出和人類相當的水平。

不過,GPT-4模型也有很多不足,有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不准確的信息,以及對實時事件的不了解等。

1、該模型在其輸出中可能會有各種偏見,但OpenAI在這些方面已經取得了進展,目標是使建立的人工智能係統具有合理的默認行為,以反映廣泛的用戶價值觀。2、GPT-4 通常缺乏對其絕大部分數據截止後(2021 年9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這麼多領域的能力不相符,或者過於輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。3、GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會再檢查一遍(double-check)。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過OpenAI目前訓練後的過程,校準減少了。

OpenAI表示,研究團隊一直在對GPT-4進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。數據顯示,與GPT-3.5相比,模型對不允許內容的請求的響應傾向降低了82%,而GPT-4對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了29%。

另外,OpenAI團隊還聘請了50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試,從而為改進GPT模型提供了依據。

“隨著我們繼續專注於可靠的擴展,我們的目標是完善我們的方法,以幫助我們越來越多地提前預測和準備未來的能力——我們認為這對安全至關重要。”OpenAI 表示。

目前GPT-4版本默認速率限制為每分鐘40k個Token和每分鐘200個請求,而GPT-4的上下文長度為8192個Token,最多提供32768個Token上下文(約50 頁文本)版本的有限訪問,但版本也會隨著時間自動更新。

不過,目前OpenAI公開的技術報告中,不包含任何關於模型架構、硬件、算力等方面的更多信息,也不包括期待已久的AI 視頻功能,也並沒有開放GPT-4的任何核心技術論文信息。

但OpenAI正在開源其軟件框架OpenAI Evals,用於創建和運行基準測試以評估GPT-4等模型,同時逐個樣本地檢查它們的性能。

復旦大學計算機學院教授、博士生導師黃萱菁此前表示,OpenAI迄今為止沒有開放過它的模型,只開放過API接口,你可以調用它,但拿不到GPT-3.5內部細節,而且今年連論文都沒有,需要大家去猜測。

全球進入AI 大模型軍備競賽

與GPT差距拉大

實際上,隨著基於GPT技術的ChatGPT風靡全球,全球已經進入了AI 大模型軍備競賽。

首先是影響到搜索引擎巨頭地位的Google。手握L AMD A、PaLM, Imagen 等AI 技術的Google,不會讓微軟這麼輕易就搶占了AI 應用的先機。

就在GPT-4發布前幾個小時,Google為了迎戰微軟,宣布將一系列即將推出的生成式人工智能(AIGC)功能與模型應用到自家產品中。包括Google Docs(文檔)、Gmail、Sheets(表格)和Slides(幻燈片)等。但不同於微軟和OpenAI的“發布即可用”,Google只會先將Docs和Gmail中的AI工具在月底提供給一些“值得信賴的開發人員”,具體開放時間沒有公佈。

更早之前,Google發布了ChatGPT最大競品、基於LaMDA AI 架構的Bard聊天機器人,支持多角度回答問題,以及強大的上下文理解能力,未來Bard 還會被集合在Google 搜索之中,為你更快速地提供答案。不過Bard在Demo演示中頻繁“翻車”,市場並不看好。

3月15日凌晨,Google宣布開放自家的大語言模型PaLM API,而且還發布了一款幫助開發者快速構建AI 程序的工具MakerSuite。Google表示,此舉是為了幫助開發者們快速構建生成式AI 應用。

相對於Google,微軟做好了充足的準備。

今年2月,微軟宣布數十億美元投資OpenAI公司,後者估值高達290億美元,成為AIGC 領域最高估值的獨角獸公司。如今,微軟已經在旗下所有產品中全線整合ChatGPT,包括且不限於Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure雲服務、Teams聊天程序等預計本週四(16日),微軟將宣布GPT-4與Azure雲服務的結合。

目前在國內,百度、商湯、曠視科技等多家AI 公司和科研機構都在做關於大模型的技術產品和應用。

就在3月14日晚,港股AI 龍頭企業商湯科技發布了多模態通用大模型“書生2.5”,擁有30億參數,支持問答、識圖、以文生圖等,在自動駕駛和居家機器人等通用場景下,“書生2.5”可輔助處理各種複雜任務。據悉,“書生”由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學於2021年11月首次共同發布,並持續聯合研發。

儘管中國在AI 領域進行了很多研究成果和佈局,但目前要達到像OpenAI的效果可能還需時日。科學技術部部長王志剛3月5日表示,ChatGPT證明了AI 是大方向,而OpenAI 在AI 對話實時效果方面有明顯優勢。

“比如發動機,大家都能做出發動機,但質量是有不同的。踢足球都是盤帶、射門,但是要做到梅西那麼好也不容易。”王志剛表示。

那麼,國內AI 技術行業如何看待中國企業做大模型的呢?

創新工場董事長兼CEO李開復博士在3月14日表示,ChatGPT快速普及將進一步引爆AI 2.0 商業化。AI 2.0 是絕對不能錯過的一次革命。

曠視科技聯合創始人、CEO印奇3月10日表示,中國攻堅AI 大模型,要先把GPT-3.5復現出來,但過程沒有想像的那麼容易。

國內一方面要用最艱苦樸素、奮鬥的狀態來攻堅核心AI 技術,另外中國AI 公司想活得長,必須要把大模型商業化。“我們要有極強的危機感。”

瀾舟科技創始人兼CEO周明表示,對於國內而言,中國做大模型還是更多的要去了解國外的發展趨勢,不能固步自封,還是需要學習;但同時中國AI 技術在過去20多年取得長足的進步,無論人才還是技術,中國有很好的歷史性機遇,更多是樂觀,而非悲觀。

“中國在To B(企業端)落地方面應該走在ChatGPT前面。如何把中國特色發揮到極致,是大家都要彼此思考的問題。”周明創立的語音大模型公司瀾舟科技在3月14日宣布完成Pre-A+輪融資,並公佈了該公司研發的“孟子MChat可控大模型”,此前周明在微軟工作超過20年。

就目前來看,GPT-4是OpenAI在擴展深度學習道路上的最新里程碑。但正如OpenAI所言,前方還有很多工作要做,需要通過用戶和開發者的不斷測試,以及社區在模型之上構建、探索和貢獻,從而持續將模型變得越來越強。

無論中國公司能夠做到哪種地步,唯一確定的是,這一次,我們人類離通用人工智能(AGI)更近了一步。

來源:鈦媒體

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可分享至 Skype(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
充電慢、續航差、反饋無門bZ4X首批車主公開致信廣汽豐田董事長
NEXT
中國首條量子芯片生產線誕生“量子芯片冰箱”研製成功

發表迴響 取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
ESET NOD32
WINDOWS 10 &11 INSIDER PREVIEW
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
金融資訊
WhatsApp Stickers教學
WordPress資訊
WeChat資訊
PHP資訊
Plesk資訊
TensorFlow
教學資源
開源程序
網頁工具
SEO工具
醫療健康
旅遊及消閒
其他資訊
Content from
Content to
2023 年 3 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 2 月    

分類

  • 網站公告
  • 限時免費
  • ESET NOD32
  • WINDOWS 10 &11 INSIDER PREVIEW
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WhatsApp Stickers教學
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • Plesk資訊
  • TensorFlow
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 旅遊及消閒
  • 其他資訊

彙整

近期文章

  • 多年前買的熊貓金幣漲了800元有人8斤黃金變現174萬 2023-03-23
  • Windows 10/11截屏工具存可怕漏洞裁剪內容可被還原 2023-03-23
  • 泰國一冶煉廠遺失含放射性元素銫137的部件 2023-03-23
  • 3D打印食品的配方:可食用材料的增材製造 2023-03-23
  • 科學家發現失去關鍵類型的胰腺細胞可能導致糖尿病的發生 2023-03-23
  • 操控”量子光”的空前突破讓光子與人造原子相互作用 2023-03-23
  • 比RTX 4080小一半NVIDIA發布RTX 4000 SFF半高卡 2023-03-23
  • 貝多芬遺留的毛髮揭開他的基因謎題 2023-03-23
  • 在銀河系尋找金星區行星的行動已經開始 2023-03-23
  • iOS 16.4 Beta洩露了新的AirPods、充電盒和Beats 2023-03-23

熱門文章與頁面︰

  • DP vs HDMI 誰才是遊戲玩家最佳選擇?
  • NVIDIA H100 Hopper加速計算卡上市:配備80GB顯存價格超24萬元
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • ESET NOD32 LICENSE KEY (UPDATED 2023-01-17)
  • 下載WINDOWS10 登入畫面的圖片 (WINDOWS焦點)
  • 百度雲盤、藍奏雲、微雲提取碼秘鑰查詢工具
  • 新Edge瀏覽器如何強制所有頁面啟用Dark模式
  • Autodesk AutoCAD 2021 正式版註冊版-簡體/繁體中文/英文版
  • Office 2013-2021 C2R Install v7.3.1 正式版-Office 2013/2016/2019/2021自定義組件安裝工具

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.