12天人工智慧馬拉松式直播結束一口氣看完OpenAI所有重點
Open AI為期12天的直播,結束了。科技圈部落客和KOL們終於可以鬆一口氣,對Sam團隊而言,這場馬拉松式的直播無疑是個巨大挑戰,估計他們累得夠嗆。OpenAI為長達12天的活動取名為「Shipmas」。
Shipmas,是「ship」和「Christmas」的組合。簡單講,在特殊時期,推出許多產品更新,既帶給使用者驚喜,也像在慶祝節日一樣。
剛開始發佈時,我還跟朋友說,國內大模型公司在搞發表會,應該跟Open Ai取經。
冬天那麼冷,去現場聽演講,結果講的內容也不多,大家在台下,有的玩手機,有的只是來打個卡,說實話,花那麼多錢,最後只換來幾篇報道和幾條朋友圈,對客戶和宣傳效果都很有限。
OpenAI的做法有些不同。
他們只要一個小黑屋、一張桌子、兩台電腦和四個人,就能搞定一切。雖然更新速度有點像擠牙膏,但是這樣能讓關注他們產品的客戶、用戶清楚知道他們在做什麼。
有人覺得這種漸進式的發布會缺乏吸引力,但實際上,它在傳播訊息同時,讓關注的人有機會更深入地了解背後的模型和技術理念。
比如說:
關於技術微調的細節。如果在大型發表會上簡單提及,可能幾句話就帶過了,大家的印像也不會很深。
但如果單獨用一天時間深入講解,就能展示更多的例子和演示,讓技術人員和使用者更直觀地理解這些技術細節,從而達到更實際和深刻的認識。
所以,這種辦法很適合經濟實用型的公司嘗試。發表會已經進行到第四天了,我連續熬了三個大夜。如果你錯過了前幾天的內容,我來幫你補上。
活動第一天,OpenAI推出o1完整版及o1 pro模式。
什麼是o1模型完整版呢?
這個版本在先前的o1預覽版上做了全面提升。現在它不僅能處理文本,還能處理截圖、照片、網頁、上傳的文件等等,功能更強大了。
而且,它也採用了新的推理方式。就像人類的思考方式一樣,o1模型完整版會一步步推理,這樣在回答專業問題時就更準確了。
跟預覽版比,這個版本的o1模型思考問題更簡潔,速度提高了50%,而且在回答難題時,出錯的可能性也降低了34%。
作為個人部落客,這些數據我肯定沒辦法測試,但我可以跟你講講官方給的例子。
在發表會上,o1模型的負責人畫了一個草圖。這個草圖是關於一個系統,用來收集太陽能,供應給太空資料中心。
因為太空裡不能用水冷卻系統,所以得靠一個巨大的散熱片來散熱;研究員問o1模型,如果要給資料中心提供1吉瓦的電力,需要多大地方的散熱片才能確保GPU正常運作?
o1模型準確地識別了草圖,經過分析和計算,得出結論:需要242萬平方米的散熱片來滿足散熱需求。
不說別的,至少從演示上看,的確很強大。
不過,強大歸強大,之前大家說的那個「有點貴」的版本,第一天就出現了,他們推出的ChatGPT Pro。
這個服務,每個月要200美金,可以隨便用他們最先進的模型和工具,包括OpenAI的o1、o1-mini、GPT-4o和Advanced Voice,主要給需要解決特別複雜計算問題的人準備的。
我覺得,這種服務可能更適合那些需要搞高階資料分析、處理的科學研究人員、工程師還有其他的一些專業人士,能幫他們提高工作效率,也能讓他們跟上人工智慧的最新技術。
有專家測驗說o1 pro模式在處理那些複雜的資料科學、程式設計和案例分析問題時,確實能給出比以前的模型更準確的答案;在數學、科學和程式設計這些領域的機器學習測驗裡,o1 pro模式比o1和o1-preview模型表現更好。
但是,他們會花200美刀用這個嗎?我不知道。 當時, 還開玩笑在朋友圈說,有這麼多預算,不如用集合工具Monica,一個月不到20美金,能用十幾個模型,不是更划算嗎?
第二天open AI推出了什麼呢?
一句話總結即:推出強化微調能力(Reinforcement Fine-Tuning)。什麼是強化微調?簡單的說:給AI模型一個「專業培訓課程」。
透過強化微調,可以用很少的實際案例(例如:幾十個例子)來教導這個AI模型成為一個領域的專家。
直播裡,四個人在場,唯一的華裔女研究員Julie Wang介紹了這個能力。她說,這個能力能讓小體量的模型「從高中程度跳到專家級」。
實操環節,他們舉了兩個例子。
一個是和湯森路透合作的,為法律專業人士打造的AI模型。他們覺得,在許多行業裡,雖然專家有很深的專業知識和豐富的經驗,但在處理大量數據和複雜任務時,可能會因為時間和精力的限制。
例如:在法律領域,律師要處理好多法律條文和案例。
他們可以用專業知識分析,但如果用經過強化微調的AI模型,可以更快找到相關案例,進行初步的法律條文匹配,給律師提供決策參考,提高工作效率。
但這個例子是一個展示,似乎沒什麼說服力。另一個例子是,生物醫學任務的實驗。
柏克萊大學的罕見遺傳疾病研究員Justin Reese,把許多臨床病例資料透過API輸入到o1 mini模型裡。
這些數據包括病人的基本資訊、症狀描述。例如:51歲的女性,症狀有眼距過寬、瞼裂狹小、軟顎咽閉合不全、副甲狀腺功能減退、全身發育遲緩和感覺神經性聽力障礙等等。
然後,用強化微調技術訓練o1 mini模型做醫療診斷任務。訓練時,模型要根據症狀描述找出可能的基因,並排序。
評分模型會對答案評分,分數從0到1。0表示模型輸出中沒有正確答案,1表示正確答案在輸出的第一個位置,透過效能監控,可以看到微調過程中模型指標的變化。
結果表明,經過強化微調的o1 mini模型在特定任務上的表現超過了更強大的o1模型,在top@1、top@5和top@max這些指標上,o1 mini模型都明顯超過了o1模型。
這個案例,在OpenAI的官網可以看到。不過,兩個能力都是“期貨”,明年才正式推出,主要針對企業或科研單位等潛在客戶。
千萬不要小看微調技術,說實話,現在大型語言模型(LLM)還做不到複雜的創意活動,例如:批判性思考和深度腦力激盪。
這既是壞事也是好事,因為這樣,我們就可以把模型用在那些瑣碎、重複、無聊而且不需要創造性的任務上,這樣做,它們就能慢慢提高自己的準確性。
這就是,第二天的內容,一個詞總結即:微調技術。
Open AI第三天推出了sora。鴿子一年多的期貨來了,不過,因為之前連續熬夜,我實在撐不住,12點半就睡了。隔天醒來想試試Sora,但登入時發現因為用戶太多,暫時用不了。
沒關係,我看了Sora的發表會。
OpenAI團隊在會上展示了這個工具的厲害之處,還教大家怎麼用;他們教我們怎么生成視頻,包括設置分鏡、輸入視頻指令、選風格、畫面比例、時長等等。透過演示,讓所有人對Sora有了更深的認識。
Sora的使用過程相當靈活,你可以用分鏡功能看不同角度的畫面,然後,輸入你想要影片怎麼做。 OpenAI說:指令越簡單,Sora自己發揮的越多;指令越詳細,它就越聽你的。
在直播中,Sora把兩個不連著的影片片段合成了一段有故事感的影片。雖然細節有點出入,但整體效果的確令人驚訝。
Sora還能讓你上傳圖片或視頻,然後產生後續視頻的文字描述。你可以隨便改指令,在時間軸上調整,決定視訊啥時候播。這個功能挺有創造力的。
還有一點,生成影片後,還能用remix工具改。
這個工具看起來很絲滑,它能對影片進行各種創意上的改編。怎麼改呢?可以調強度,從1級到8級,想要多大變化都行。
還有預設的選項,例如:溫和、適中或強烈。用這個工具,可以保留影片裡想要的部分,其他的,想怎麼變就怎麼變,例如:把猛獁象換成機器人,或是變人物表情等等。
我覺得,Sora不光是視頻工具,它把視頻生成和工作流程結合起來了,這對OpenAI挺重要;因為Sam Altman在直播裡說,他們想讓AI理解視頻,改變我們用電腦的方式。
想要做到這一點,在通往AGI的路上,得做很多優化,而把工作流程和影片生成結合起來,是個不錯的辦法。
不過,Sora看著不錯,但價格有點高。比如:
你要是選Plus會員,每個月得花20美元,能做最多50個視頻,視頻品質一般,最高只能到720p,而且每個視頻最長也就5秒。
如果你想要更好的,得選Pro會員,一個月得200美元,最高清晰度能到1080p,每個影片才能生成20秒,而且Sora尚未在歐盟、瑞士和英國上線。
這就是第三天關於Sora的內容,感嘆又期待,你會付費嗎?
今天,OpenAI直播到了第四天,由他們的首席產品長Kevin Weil來主持。重點是什麼呢?即:Canvas正式上線了。
之前,Canvas的一些功能已經在ChatGPT裡展示過,但那時它是單獨的一個模型。現在,它和其他模型融合在一起了。
那麼,Canvas這次和以前有什麼不同呢?有三個:
一,現在可以直接從首頁的輸入框跳到Canvas; 二,整合了一個Web Assembly的Python模擬器,可以直接運行Python程式碼,還能在線上修bug;三,Canvas功能整合進了GPTs。
為了讓大家更清楚地看到Canvas的新功能,OpenAI的工程師Lee和Alexey也做了現場示範。 Lee教我們怎麼用Canvas寫一個兒童聖誕故事。
在ChatGPT的輸入框裡,點一下新加的工具按鈕,就能切換到Canvas,你可以和ChatGPT一起編輯文檔,不管是改標題、加表情,還是調整文章的長度和閱讀難度,都變得很簡單。
這就像百度的自由畫布,使用者和ChatGPT可以一起創作,寫作和修改的過程都很自然。
發表會上,Alexey也展示了Canvas怎麼幫我們改文章。他把一篇關於「聖誕老人、暗能量和馴鹿推進力」的物理論文貼到ChatGPT裡,然後用Canvas打開。
ChatGPT不僅能給予專業的修改建議,還能在文章裡直接加評論,讓使用者可以很方便地查看和修改。使用者可以根據自己的思路來改文章,想複製最終版本也隨時可以。
Alexey也示範了怎麼用Canvas調試Python程式碼和產生圖表。Canvas裡內建了WebAssembly Python模擬器,可以快速載入幾乎所有Python函式庫,運行程式碼,還能即時回饋,這對提高程式效率真的很有幫助。
另外,Canvas的功能也整合進了GPTs裡。比如:
Lee就創作了一個叫「聖誕老公公小幫手」的GPT,用來幫聖誕老公公回覆孩子們的信。
只要在自訂GPT的說明裡加上「使用Canvas工具」的指令,再勾選Canvas功能,自訂GPT就能自動在Canvas裡產生信件草稿,聖誕老人可以根據實際情況修改草稿,用自己的風格和語氣回覆孩子們。
我之前一直在用Canvas,還想過,國內廠商啥時候也能引進Canvas這樣的功能。我覺得Canvas(畫布)是讓大家一起工作更聰明的關鍵步驟。
因為不管是自己用,還是大家一起用,總得有個地方能三個人一起做事情,以前可能用類似於在線文檔的工具,實現共同編輯的動作,以後,畫布可能是首選協同之一了。
這就是今天發表會的內容,關於Canvas。
好了,總結下四天的內容,分別是:推出o1完整版及o1 pro、推出強化微調能力、推出新產品sora、以及把Canvas進行全新升級。
第五天:
Sam說:嗨,歡來到我們「12 Days of OpenAI」系列的第五天。今天,我想介紹一些讓ChatGPT 更簡單易用的新功能。
蘋果的朋友們正努力將ChatGPT 整合到iPhone、iPad 的iOS 系統以及macOS 系統中;我們的目標是讓ChatGPT 在各種平台上都能輕鬆順暢地使用。
我們都很喜歡Apple 的設備,因此對這次整合非常自豪,所以,你可以在不登入的情況下使用ChatGPT了,但如果你有帳戶,體驗會更好。
接下來,正式開始了。工程團隊的Dave和它的夥伴,利用半小時時間,示範完一切功能。
簡單講,主要有五個核心內容:一,蘋果公司將ChatGPT整合到了iPhone、iPad的iOS系統以及macOS系統中,使得用戶可以在這些設備上更簡單易用地使用ChatGPT。
二,當Siri認為ChatGPT能更好地解決問題時,可以直接將請求交給ChatGPT。三,Apple Intelligence的寫作工具現在可以藉助ChatGPT從零開始為使用者起草文件。
四,在iPhone 16上,使用者可以透過相機控制功能調動視覺智能,使用ChatGPT來了解鏡頭裡看到的東西。
五,Siri可以直接針對預覽狀態的文件呼叫ChatGPT的能力進行問答,使用者可以選擇是否僅共用目前螢幕截圖或分享文件全部內容。
這就是第五天的內容,用一句話總結即:蘋果公司宣布將ChatGPT整合到iOS和macOS系統中,用戶可透過Siri直接存取ChatGPT,甚至無需帳戶即可使用。
第六天,說了什麼?
首先,發布了兩個新功能:進階視訊對話和螢幕分享。使用者現在可以和ChatGPT即時分享螢幕了。
其次,ChatGPT新增了一個聖誕老人語音模式。只要使用者開啟語音模式,然後說“hohoho”,就能啟動這個模式。
在案例展示環節,團隊給ChatGPT展示了水壺和滴漏器的實時視頻,在ChatGPT的指導下,他們一步步完成了咖啡製作;ChatGPT給出了幾個步驟提示,比如:
在滴漏器中放濾紙、把咖啡粉加到濾網裡、慢慢倒熱水,要轉圈倒」等等。
團隊也宣布,這些新功能將支援最新的行動應用程式、桌面應用程式、Web平台,還有Teams整合。他們計劃在明年年初,把這些功能開放給企業用戶和教育用戶。
所以,第六天重點是ChatGPT推出的進階視訊對話和螢幕分享功能,還有新增的聖誕老人語音模式,這些更新主要展示了ChatGPT的多模態互動能力。
不知道第七天的內容不算大招:推出了Projects。
什麼是Projects?
簡單來說,一個能把ChatGPT的所有功能整合在一起的工具,或者你也可以只用Projects,不用ChatGPT的其他功能。
這場發表會是由OpenAI的首席產品長Kevin Weil和他的兩位同事Drew Schuster和Thomas Dimson一起主持的。 Kevin Weil在直播裡說,現在可以把熟悉的ChatGPT功能都整合到專案裡,或者,只單獨使用專案功能。
Thomas Dimson補充說,Projects像是智慧型資料夾,這個功能是基於ChatGPT最近推出的對話搜尋功能開發,可以查看和搜尋先前的聊天內容,都是文字形式的。
用Projects的方法挺簡單,大概分三步:
一.在ChatGPT介面上點「建立專案」按鈕;二.把聊天記錄加到專案裡;三.試試搜尋功能。還有個Canvas自由畫布工具可以用,但這些步驟不是一定要全做,每一步都有很多可以發揮的地方。
Projects能用來幹啥?
Kevin Weil和他的團隊在直播中展示了幾個案例。
他們用Projects創建了一個Secret Santa項目,Schuster上傳了群組的聊天記錄和大家的需求,然後讓ChatGPT隨機分配任務,還讓ChatGPT幫忙寫了封郵件給群組。
還有個例子,Schuster上傳了一些關於家用電器的筆記,然後問ChatGPT:「冰箱的濾水器什麼時候需要更換?」如果你平時有記錄家裡的重要信息,這個功能就特別有用。
總的來說,Projects有三大功能:
一,幫我管理項目,把聊天記錄、文件這些都放在一起,方便整理;二,有搜尋功能,即使項目裡堆了很多東西,也能快速找到需要的內容。
三,融合Canvas自由畫布工具,這個功能能讓我更直觀地看到專案裡的內容,整理起來更清晰。這個功能是免費的,我覺得有點像在模仿Claude。
這就是第七天的內容,一句話總結即推出Projects。
第八天,OpenAI為我們帶來了幾個新消息;首先,他們宣布ChatGPT Search現在對所有登入的免費用戶開放了,不管是用網頁版,還是iOS、Android手機都能用。
產品負責人Kevin Wheel說,這個搜尋功能特別重要;用它能幫ChatGPT找到最新的信息,回答網路上的問題。他自己也每天都在用,很高興現在大家都能用。
第二,ChatGPT Search還能和高階語音模式一起用。這樣,用語音和ChatGPT聊天的時候,也能順便搜尋訊息,讓語音交流更厲害、更方便。
還有,ChatGPT Search現在和Apple Maps合作了。
如果你在iOS的ChatGPT應用程式裡找到一家餐廳,可以直接點一下,用Apple Maps導航過去。這說明ChatGPT Search和Apple Maps合作得很緊密。
另外,在手機應用程式裡,你可以用語音模式和ChatGPT聊天。它會把你的語音問題和網路上的資訊結合起來,給你答案。例如,你問聖誕市集的事,它就會告訴你什麼時候開門,哪天營業。
最後,ChatGPT Search還能加到瀏覽器裡,你可以把它設成預設的搜尋引擎,這樣上網搜東西就更快,還能得到智慧的搜尋建議。
總之,第八天的內容重點在於ChatGPT Search功能的擴展和增強。包含了全球用戶都能用、和Apple Maps的合作、手機應用程式裡的語音模式,還有瀏覽器的集成,這些更新讓ChatGPT的搜尋能力變得更強了。
第九天的活動被稱為「對開發者最有用的一天」。
這一天,他們推出了o1模型的正式版API;這個新版本的o1模型速度更快,成本更低,還增加了視覺識別和函數呼叫等新功能。這讓開發者在建立應用時更加輕鬆。
在現場示範中,Michelle Pogras和Brian John展示了o1模型的新功能。他們介紹了函數呼叫、結構化輸出、開發者訊息、推理參數和視覺輸入等功能。
他們特別示範如何使用o1模型的視覺輸入功能解析稅務表單,展示了模型如何識別表單中的錯誤,並輸出修正後的結果。
接下來,即時API也進行了全面升級。 OpenAI引入了WebRTC支持,這大大簡化了即時語音應用的開發流程。同時,相關服務的價格也大幅降低,其中GPT-4o的音訊處理費用降低了60%。
Olivier Godement介紹了WebRTC整合的新功能,展示了怎麼自動處理音訊串流、管理網路擁塞、即時雜訊抑制和音訊編碼,還支援了原生瀏覽器API。
最後,他們推出了「偏好微調」功能;這個技術讓開發者可以根據使用者的偏好,客製化AI模型的回答風格和內容。例如,金融科技公司用了這個功能後,AI助理的準確率提高了5個百分點以上。
Michelle Pogras提到,這項技術有成對比較學習機制、人類標註和A/B測試支持,還能產生合成數據。他們展示了這項技術在金融分析助理中的應用案例,說明了怎麼透過優化來提升查詢的準確率。
所以,這一天的重點有三:o1模型API的正式推出、即時API的升級和價格調整、以及偏好微調功能的推出。
第十天有什麼呢?
OpenAI在第10天的活動裡,搞了兩個新動作:
一,他們開了ChatGPT的熱線電話服務。就像打電話給朋友一樣,你可以直接撥1-800-CHAT-GPT(也就是1-800-242-8478)和ChatGPT聊天;這個服務每個月送你15分鐘免費通話,對那些想快點問個問題或試試新功能的人來說,挺方便的。
二,他們讓ChatGPT能整合到WhatsApp裡。這樣,你就能在WhatsApp上直接和ChatGPT聊天,不用換應用,也不用開電腦,聊天變得更簡單。
不過,這個功能有兩個限制:
目前只對美國用戶開放,因為號碼是美國的;第二,每個月免費通話時間只有15分鐘,如果你聊得更多,可能得想別的辦法。
還有,聊天的時候不支援上網搜訊息,只能根據它學過的東西回答。所以,如果你已經有ChatGPT Plus,可能還是用ChatGPT App裡的進階語音模式比較適合。今天這個功能,主要是給你多一個選擇。
我覺得,第十天的活動,沒那麼令人興奮。說穿了,就是你可以打電話給ChatGPT了。其實,國內的豆包、文小言、Kimi,早就能做到。
第十一天的內容,關於「桌面應用程式」。
產品負責人Kevin Wheel和團隊成員John Nastos、Justin Rushing介紹了一些新的桌面應用程式功能。這些功能是為了幫助大家在Mac和Windows電腦上運作得更快、更好。
那麼,桌面應用程式都有哪些好處呢?
讓ChatGPT變得更能幹,不只是回答問題,還能自動幫你完成任務;這個應用程式能看你的螢幕,幫你自動化工作流程,讓你工作更有效率。
Justin展示了怎麼用ChatGPT和Warp終端機一起玩。
例如:數數Git倉庫裡提交了多少次程式碼,還能產生圖表。 John則示範了在Xcode裡怎麼用ChatGPT幫忙編程,即時寫出程式碼,還能調試。
ChatGPT現在還能和Apple Notes、Notion、Quip這些應用程式互動,你可以直接在這些應用程式裡寫東西、編輯;新加的高階語音模式讓你能透過說話和ChatGPT交流,立刻得到回應,讓用起來更爽。
所有新功能在直播結束後就推出了,你只需要更新到最新版的ChatGPT Mac應用程式就能用;透過新功能,OpenAI希望大家能更好地掌握和自動化自己的工作流程,提高工作效率。
簡單來說,三點:
一是“增強的自動化能力”,桌面應用程式能看你的螢幕,自動化你的工作流程,提高工作效率。
二是「跨應用程式協作」,ChatGPT可以和Warp終端機、Xcode、Apple Notes、Notion、Quip等多種應用互動,不管你是程式設計、記筆記還是專案管理,都能即時幫忙。
第三是「語音互動功能」,新加的進階語音模式讓你能透過說話和ChatGPT交流,實現更自然、更便利的互動體驗,進一步提升你的工作和操作效率。
今天是最後一天,也是直播的第十二天,OpenAI重點介紹了o3和o3 mini的預告。為啥跳過了o2?為了避免版權問題,OpenAI直接用了o3這個名字。
如果要我用一句話形容o3,我會說——它強大得讓人震驚,可能會給程式設計師帶來衝擊。
為什麼這麼說呢?
我們先來看看OpenAI的研究員怎麼說。 o1是第一個大型推理模型,它只是用強化學習(RL)訓練的大型語言模型(LLM)。 o3則是在o1的基礎上,進一步擴展了RL的應用,結果非常令人印象深刻。
簡單來說,o1只是證明了LLM加上RL是可行的,但我們並沒有全力以赴;o3則是全力以赴,透過擴大規模,真正釋放了LLM加RL的潛力。
這也驗證了一點——對於程式設計、數學這類能夠明確定義任務獎勵和容易獲取過程資料的任務,透過強化學習,它們的潛力可以不斷被挖掘,直到達到世界頂級水平。
那麼,o3有哪些核心能力呢?官方展示了一些數據。
首先,o3模型在Codeforces編程比賽中獲得了2727分,這個分數讓它達到了國際特級大師的水平,大約在全球競爭性人類編碼者中排名前200。這個分數比o1模型的1891分高出了44%。
註:( Codeforces是一個線上程式設計比賽平台,讓全球的程式設計師在限定時間內解決演算法問題,以此測試並提升自己的程式設計技能)。
其次,在2024年美國數學邀請賽(AIME)中,o3模型的得分為96.7%,只錯了一題。這個得分大幅超過了o1模型的83.3%,相當於一名頂級數學家的水平。從競賽數學的角度來看,o3的準確率比o1正式版高15%,比o1預覽版高出近71%。
這些結果展示了o3模型在程式設計和數學領域的卓越性能,標誌著AI在這些領域的進步。
簡單來說,o3的三個亮點:
一是推理能力的大幅提升;二是在數學和邏輯測驗中的卓越表現;三是程式設計能力的突破。
所以,o3在實踐上證明了,對於編程這類能夠明確定義任務獎勵,和容易獲取過程數據的任務,透過對強化學習的擴展,它的潛力可以不斷被挖掘,直到成為世界上最頂級的程序員之一。
最讓人興奮的消息是,o3 mini預計明年一月底就會發售!只需要再等一個月! o3 mini上線後,很快就會開放API調用,並附帶o1的所有API功能。
好了,以上就是Open AI 12天發布活動的全部內容。你認為哪天的發布能載入AGI史冊呢?