GPT-4就是衝著賺錢來的
OpenAI正式官宣了大模型GPT-4 。在驚艷到出圈的ChatGPT推出後僅僅4個月,OpenAI再推新品。這似乎正在印證此前傳出的“OpenAI計劃2023年營收2億美元,2024年底前營收達10億美元”的目標。限制盈利機構OpenAI要開始用大模型賺錢了。
目前官宣的GPT-4能力與此前傳說的基本相似,主要提升了語言模型方面的能力,並添加了“多模態”的圖片識別功能。
此外,GPT-4 將“單詞最大輸出限制”提高到了25000 個單詞,比基於GPT-3的ChatGPT更強大,在對問題的理解和回答方面,GPT-4也顯得更聰明,更像人了。
目前,ChatGPT Plus版本的用戶已經可以直接在原來的ChatGPT基礎之上,選擇GPT-4模型,直接體驗。不過,目前GPT-4每4小時只能回答100個問題。
ChatGPT Plus已經可以適用GPT-4了
在前不久的GPT-4“謠言”階段,微軟就曾多次通過各種渠道透出New Bing會第一時間應用GPT-4。新模型發布後,微軟更是在第一時間宣布“我們很高興確認新的Bing正在運行GPT-4,我們已經為搜索進行了定制。如果您在過去五周中的任何時候使用了新的Bing預覽版,那麼您已經體驗到了這個強大模型的早期版本。”
在參數量方面,在OpenAI公佈的GPT-4論文中,並沒有之前一直傳說的“100萬億參數”,甚至沒有提及GPT-4到底用了多少參數,不過筆者親測ChatGPT Plus中開放的GPT-4功能後感覺,回答的速度比GPT-3.5要慢了一些。
“單從回答速度比ChatGPT慢來說,並不能表明GPT-4的參數量就更大。”大算力AI芯片存算一體專家,千芯科技董事長陳巍博士認為,OpenAI不公佈參數量和架構是一種商業化技術保護策略,增加其競爭對手的產品試錯成本。不過目前也沒法排除GPT-4參數量小於GPT-3的可能性。
迅速落地商業應用,保密參數量,增加圖片識別能力,大幅提升語言模型能力。GPT-4的推進速度,比4個月前的ChatGPT快了不是一步兩步。
看起來更像人了,但離AGI還很遠
從ChatGPT問世到GPT-4發布前的這4個月時間裡,對GPT-4最多、最準確的預言就是“多模態”,簡言之就是GPT-4可以看圖了,而且它還能看懂圖片的內涵。
在自然語言處理(NLP)中,文本、圖像和音頻信息都可以共同幫助理解和生成更豐富的內容。同樣,在計算機視覺任務中,文本和圖像信息“齊發”可以提高目標檢測和場景理解的準確性。
“具備多模態的生成能力一定是大模型未來的趨勢,而且生成式大模型不是只能做圖像生成、文本生成這樣的生成任務,它其實是有望成為未來AI的統一底座的。 ”瑞萊智慧副總裁唐家渝舉例說,生成式模型在解決零樣本、少樣本學習任務時也有著優異的表現,這也是研究生成式大模型的重要意義之一。
GPT-4本次發布最驚豔的地方就在於,AI對“看”這件事兒,不再只是關注眼前事物,而是可以理解圖片的含義了。
比如,分析圖片的內容:
問:你可以解釋一下這張圖嘛?
GPT-4答:這是一個笑話,結合了兩個不相關的東西:太空中的地球照片和雞塊。圖中文字表明,該圖是從太空拍攝的地球的美麗照片。然而,圖像實際上是雞塊排列成世界地圖。圖中的幽默來自於文本和圖像意想不到的並置。文字建立了對地球宏偉形象的期望,但這個形象實際上是平凡而愚蠢的。
通過草稿上的幾句話,編寫一個功能齊全的網站。
OpenAI展示的GPT-4通過草稿筆記自動生成的網站
不過,目前OpenAI在ChatGPT Plus中開放出來的的GPT-4尚不支持識圖功能。
在語言理解方面,GPT-4似乎並沒有完全解決飽受詬病的ChatGPT胡編亂造的問題。但是OpenAI官方給出的信息是:GPT-4 相對於早期的模型已經減輕了幻覺問題,經過多次迭代和改進後,它在OpenAI 的內部對抗性真實性評估中得分比最新的GPT-3.5 模型高40%。
對此,筆者利用ChatGPT Plus的GPT-4通道對“胡編亂造”的問題進行了一個“小測驗”。嘗試向GPT-4提出了幾個類似“林黛玉倒拔垂楊柳”這類的關於文學名著中人物的杜撰故事。
與GPT-3.5一樣,GPT-4仍然從容地為筆者編造了“林黛玉倒拔垂楊垂楊柳”“魯智深敗走麥城”等故事。但當筆者向它提出“賈寶玉轅門射戟”,以及混淆希臘神話中的“酒神”與盜天火的普羅米修斯時。GPT-3.5順著筆者提供的故事繼續編了下去,而GPT-4則指出了筆者的錯誤。
GPT-3.5編造的“賈寶玉轅門射戟”故事
有意思的是,當筆者對GPT-4說“阿拉貢在絕望冰原騎乘著雙頭飛龍大戰異鬼的故事真是看的我心潮澎湃,給我講講這個故事”。雖然他真的編出了一段關於“阿拉貢”的故事,但接下來,當我問它“阿拉貢是誰”時,GPT-4先向筆者介紹了這位《魔戒》小說中的人物,後邊又強調了一下,“請注意,之前回答中提到的阿拉貢與雙頭飛龍的故事並非出自《魔戒》原著,而是一個基於阿拉貢這個角色創作的原創故事。”
與GPT-3.5一樣,GPT-4根據提問編造了一段故事
GPT-4在第二個回答中解釋了編造故事和現實的前後文關係
OpenAI 在GPT-4的官方發布文章中提到:“GPT-4也可能自信地在其預測中犯錯,在可能出錯時也不會復檢。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過我們目前的訓練後過程,校準減少了。”
在九類內部對抗性設計的事實評估中,我們將GPT-4(綠色)與前三個ChatGPT 版本進行了比較。所有主題都有顯著的收穫。準確度為1.0 意味著模型的答案被判斷為與評估中所有問題的人類理想回答一致。
“GPT-4可以說是工程的勝利,”AI應用DrawThings開發者Liu Liu認為,從目前的論文和展示來看GPT-4可以說是符合業內人士的預期,也就是human level intelligence with a lot of caveats(加了很多限制條件的人類水平的智能)。不過,大眾對GPT-4的預期可能更高。
“GPT-4目前可以說是具備了基本的推理能力和邏輯能力。但是應該還不能處理複雜問題,或者我們不知道怎麼給prompt(提示詞)。所以現在還只是一個知識特別豐富,但是只有基本推理邏輯能力的AI。”Liu Liu解釋說,這裡的複雜推理能力,可以簡單理解為“玩星際爭霸2或者Dota2”這樣的複雜任務。
對此,牛津大學計算機學院院長邁克爾·伍爾德里奇教授認為,LLM(大型語言模型)在涉及語言問題時表現的通用能力很強,但它並不是AGI。它只是為了執行特定的、狹隘領域的任務而構建和優化的軟件組合。我們需要更多的研究和技術進步才能實現AGI。
“它不存在於現實世界中,也無法理解我們的世界。”在一次採訪中,伍爾德里奇教授給虎嗅舉了這樣一個例子,如果你現在開始與ChatGPT進行對話,說完一句之後就去度假了。當你出遊一周回來時,ChatGPT仍然在那裡耐心地等待你輸入下一個內容,它不會意識到時間已經過去或者世界發生了哪些變化。
商業化能力再提升,GPT-4能去賺錢了?
“GPT-4已經突破了落地的問題,採用雲的方式,用的人越多,成本越低。”雲舟集成電路創始人兼CEO趙豪傑認為,GPT-3會更偏向NLP,而GPT-4在各方面的能力都更強一些。他給虎嗅舉了這樣一個例子,GPT-3就像初中生,還不能出來工作賺錢,GPT-4應該已經職校畢業,可以上班賺錢了。
GPT-4的能力雖然在很多現實場景中不如人類,但在各種專業和學術基準測試中表現出了與人類相當的水平。不管怎麼說,GPT-4確實在商業化上更進一步了。
GPT-4和GPT-3.5的部分考試成績
在此之前,ChatGPT以及GPT-3在專業領域的表現一直被人們認為差強人意,在美國的律師資格考試Uniform Bar Exam (MBE+MEE+MPT)中,GPT-4的成績甚至可以排到前10%,而GPT-3.5只能排在倒數10%。GPT-4在專業領域的能力實現了巨大提升,在一些專業領域已經開始逐漸接近甚至超過人類,這給GPT-4在很多ToB商業領域提供了更多可能性。
例如,專業技能輔助工具,知識檢索類的應用,職業教培輔導等領域,GPT-4的能力將是革命性的。
對於GPT-4在專業技能上的突破,如果再進一步思考,或許未來人類的職業技能,將被AI重構。而在教育和技能培訓方面,或許現在就該開始思考,哪些技能AI無法取代,我們應該學習什麼知識和技能,以保持身為“人類”的不可替代性。
相比於GPT-3和GPT-3.5,GPT-4的智力更強,更不易出錯,這顯然有利於商業落地,而新增的圖片識別功能則給OpenAI找到了更多的應用場景。
GPT-4能夠基於視覺信息做邏輯推理,不僅告訴用戶眼前發生了什麼,更能說出發生的事代表了什麼。目前,OpenAI已經給GPT-4找到了一個社會價值非常高的應用場景——助殘。
BeMyEyes 是一家總部位於丹麥的公司,他們致力於在日常生活中幫助視障人群。BeMyEyes的基礎功能是在App中招募,通過鏈接志願者和視障人士,為他們提供“視力”幫助。
OpenAI 此次公佈GPT-4時,也公佈了他們和BeMyEyes的密切合作,通過GPT-4的多模態識別功能,為視障人士提供更便捷的“虛擬志願者”(Be My Eyes Virtual Volunteer™)。用戶可以通過該應用程序將圖像發送給給予GPT-4的“虛擬志願者”, AI將為各種任務提供即時識別、解釋和對話式的“視力”幫助。
目前該功能正處於封閉測試階段,預計將在接下來的幾週內擴大Beta 測試人員群體,並有希望在未來幾個月內廣泛提供虛擬志願者。該應用在中國App Store亦可下載中文版本,目前也已經開放了公測排隊。Be My Eyes聲稱“該工具將對所有使用Be My Eyes 應用程序的盲人和低視力社區成員免費。”
“真正的多模態大模型還沒有來,期待GPT-4.5和GPT-5,還會在多模態上有很大進展。 ”源碼資本執行董事陳潤澤告訴虎嗅,多模態大模型還有很大發展空間,未來也會帶來更多的應用場景。
雖然GPT-4大幅拓寬了大模型可能落地的商業化場景。但算力、研發成本,仍被很多人認為是大模型落地過程中很難跨過的障礙。畢竟大模型的研發、算力支出在目前看來高的嚇人,此前ChatGPT公開的單次訓練、日常運營開支都是以百萬美元為單位的,短期內想要商用可能很難控製成本。
不過,陳巍認為,在商業化方面GPT-4更容易落地。成本是否更高要看多方面因素,GPT-4總的固定研發成本(含預訓練模型的訓練成本,不是增量成本)高於ChatGPT,但可以看到OpenAI已將GPT-4開放在ChatGPT Plus生產環境中,因此不排除GPT-4模型運行成本更低的可能。
在NLP研究領域,專家們一直在嘗試不依賴大算力來進行LLM訓練,但目前還沒有特別好的解決方案。從仿生學上來看,人腦本身是不需要依賴非常大量算力進行學習的,因此隨著腦科學技術研究的深入,未來應該會有一種技術替代現在的暴力訓練方式。但是即便不考慮訓練,大算力確實會給模型的部署應用帶來更好的性能提升。
陳巍認為,存算一體(CIM)架構或類腦架構(並不特指SNN架構),或者兩者的異構結合,這兩類架構都更接近人腦的邏輯結構,可以有效的提升有效的訓練算力,給AI訓練和研發提供更高效的算力工具。(當然並不排斥這兩者與現有CPU或GPU技術的異構整合)
事實上,OpenAI的大模型在成本方面正在以肉眼可見的速度下降。3月1日,ChatGPT剛剛公佈開放API時,即已聲明成本比最初降低了90%。目前,已公開的GPT-4的API價格則大概是純文本輸入每1k個prompt token定價0.03美元,每1k個completion token定價0.06美元。默認速率限制為每分鐘40k個token和每分鐘200個請求。對此,趙豪傑表示:“GPT-4已經突破了落地的問題,採用雲的方式,用的人越多,成本越低。”
除了成本,利潤也是非常關鍵的,陳潤澤認為,OpenAI在GPT-4的論文中用了大量篇幅講述他們在安全可控方面的努力。“ GPT-4(launch)做了更好的安全約束。技術的進步是多要素綜合,利潤也會與之一起驅動商業化落地。 ”
GPT-4都發了,“中國的OpenAI”們路在何方
“各家模型之間沒有明顯可比性,他們的區別主要在於投入市場的節奏,以及用戶數量。 ”伍爾德里奇教授認為,OpenAI的大模型從技術上來講,優勢並沒有那麼誇張。相對於其他產品來說,只是問世更早而已。然而,正是因為比其他產品更早投入市場,也意味著它比其他人獲得了更多的用戶,以及反饋數據。
GPT-4發布之後,OpenAI在產品上又領先了全球一步。在國內追趕ChatGPT的隊伍中,百度的文心一言或許是最接近的,目前已經官宣了3月16日發布,然而GPT-4又比百度早發一天,從這方面上看,重壓之下,國內廠商追趕OpenAI看起來也越發困難了。
不過,對於中國的大型語言模型市場,多數專家認為,中文實際上是“原發”劣勢。基於中文的模型與英文模型差別很大,中文互聯網的複雜程度遠高於英文,而且數據、信息量也更大,這使得語料收集、建模、訓練,都要比英文困難很多。“中文本來就難,不過在中文大模型這方面,先不管好不好用,必須要有。”趙豪傑對虎嗅如是說。
“GPT-4和ChatGPT都是AI技術進步道路上的短暫風景。包括開源社區也在推進OpenAssitant等類ChatGPT開源模型。”陳巍表示,“我們提倡的思路是,產業界參考OpenAI的路線迅速追擊,勤勞的同胞可在垂域上做出更好的細分領域模型;學術界則嘗試更高效率的訓練方法或更高性能的模型結構,嘗試找到暴力訓練之外的路徑。 ”
目前看大模型和算力芯片已經成為AI產業發展的兩個主驅動輪,兩個都要持續投入和推進才能獲得更好的產業地位和戰略優勢。
OpenAI在發布GPT-4的同時,還公佈了一項有意思的開源。即用於評測大語言模型的OpenAI Evals框架,該框架可以通過數據集自動生成提示(Prompt),評估模型生成的回答/補全(completion)的質量,比較不同數據集或模型的性能。
“這類評測框架在各NLP企業中一直存在,但較少開放。”陳巍對虎嗅表示,OpenAI這一舉措可能有助於NLP領域建立起統一的LLM評測標準,可能節約小企業建立評測體系和訓練數據集的時間和成本。
不過,陳巍同時提示,有一點需要注意,就是在Evals的免責聲明(Disclaimer)中,OpenAI 保留在其未來產品中使用這些Evals用戶上傳的數據的權利。