OpenAI強敵出手:Inflection-2.5 訓練計算量僅40%、效能直逼GPT-4
又一家生成式AI獨角獸推出了性能匹敵GPT-4的大模型,而且訓練計算量只用了GPT-4的40%!這是美國AI獨角獸企業Inflection AI最新發表的Inflection-2.5大語言模型,兼具高智商與高情商,支援連網查詢內容,登入Pi聊天機器人的網頁、iOS、Android和桌面端app均可免費體驗。
讓Pi聊天機器人比較Inflection-2.5與GPT-4
試試直通車: https://pi.ai/talk
一個月之內,GPT-4連迎三個強勁的新競爭對手:Gemini 1.5 Pro、Claude 3 Opus,以及最新登場的Infection-2.5。這意味著GPT-4獨霸時代已經過去,大模型王者之戰還有很多可能。
在這場激烈的戰事中,Inflection AI既年輕又鋒芒畢露,成立剛滿兩年,由前DeepMind首席科學家Karén Simonyan、LinkedIn聯合創始人Reid Hoffman、DeepMind聯合創始人Mustafa Suleyman共同創辦,2023年6月獲得英偉達、微軟等參投的13億美元融資,估值達40億美元(折合約287億人民幣),是當前全球第四大生成式AI獨角獸。
它是OpenAI的大語言模型勁敵之一,以“為每個人創造一個個性化的AI”為使命,2023年5月推出了一款具有同理心、樂於助人和安全的個性化AI聊天助手Pi ,11月推出基礎模型Inflection-2。同時,Inflection AI正在建構由22,000萬塊H100 GPU組成的世界最大AI運算叢集。
現在,Inflection AI進一步給Pi加料——新升級的Inflection-2.5有“世界級的智商”、“獨特的善良”、“好奇的個性”,並具備4個主要亮點:
1.在關鍵基準測試中與GPT-4並駕齊驅,並且使用40%的計算量來訓練,與其他頂級基礎模型相比訓練效率優勢顯著。
2.在程式設計、數學等STEM(科學、技術、工程、數學)領域進步顯著。
3.「世界級」即時網路搜尋功能:確保用戶能獲得高品質、最新的新聞和訊息,增強用戶體驗和互動的即時性。
4.廣泛可用性+顯著滿意度:對所有Pi用戶開放,支援多平台訪問,對用戶情緒、參與度和留存率產生顯著影響,加速了有機用戶成長。
繼Anthropic後,又一家新創公司推出了性能強大、能與GPT-4一較高下的大語言模型,並在優化模型訓練方法上大秀肌肉。這展現了創業團隊在大模型競賽中的潛力與衝勁,隨著大模型表現不斷升級,如何用更少運算資源訓出更強模型,將是接下來產學界都重點探索的方向。
01 .
用40%的計算量,
訓練出接近GPT-4的性能
Inflection-1花了GPT-4訓練FLOPs的約4%,在不同的智商導向任務中,平均表現達到GPT-4水準的大約72%。Inflection-2.5用了GPT-4訓練FLOPs的40%,在不同的智商導向任務中,平均表現達到GPT-4的94%以上。
Inflection-2.5在MMLU基準測試上的成績相較Inflection-1進步明顯,略低於GPT-4。
MMLU基準測試衡量了從高中到專業難度的各種任務的表現。Inflection AI也根據GPQA鑽石基準進行評估,這是一個極難的專家級基準。
其測驗還包括兩種不同的STEM(科學、技術、工程、數學)考試的結果:匈牙利數學考試和物理GRE(物理研究生入學考試)的表現。
在BIG-Bench-Hard(大語言模型難以解決的BIG-Bench問題的子集)上,Inflection-2.5效能比Inflection-1提高10%以上,接近GPT-4。
在MT-Bench上評估模型後,Inflection AI意識到,在推理、數學、程式設計類別中,有很大一部分(接近25%)的範例具有不正確的參考解決方案或具有錯誤前提的問題。因此Inflection AI更正了這些範例,並發布了該版本的資料集。
在評估這兩個子集時,Inflection AI發現在正確修正的版本中,其模型更符合他們基於其他基準的期望。
與Inflection-1相比,Inflection-2.5在數學和程式設計效能方面有了顯著進步。下表是在MBPP+和HumanEval+兩個程式基準上的評測結果比較。
在HellaSwag和ARC-C常識和科學基準測試上進行評估,Inflection-2.5同樣表現強勁。
02 .
特別致謝微軟Azure和CoreWeave,
正建構世界最大AI集群
以上所有的評估都是用現在為Pi提供動力的模型Inflection-2.5完成的,但是Inflection AI注意到,受web檢索的影響(沒有使用web檢索的基準測試),少量提示詞的結構以及其他生產端差異,用戶體驗可能會略有不同。
這家獨角獸企業也特別致謝了為其提供算力資源的合作夥伴Azure和CoreWeave。
Azure是微軟雲端運算服務,CoreWeave則是去年以英偉達的支援坐擁數萬塊晶片狂攬算力大單的GPU雲端服務黑馬。
2023年初,CoreWeave找到Inflection並提供數千張H100 GPU。英偉達看中了這個組合的巨大潛力,先後向兩家公司投資數億美元,抬高了Coreweave的H100供貨優先級。
2023年6月,Inflection AI宣布與將與合作夥伴CoreWeave、英偉達一起,建構世界上最大的AI集群,包含22000個H100 GPU。
CoreWeave-Infection AI超算的資訊推測(圖片來源:The Next Platform)
就在宣布最大AI集群的一個月前,Inflection AI推出Pi聊天機器人,向OpenAI正式下戰書。
有別於ChatGPT等產品的“生產力工具”定位,Pi想做“個人AI”,成為用戶24小時在線的數位朋友,更注重為用戶帶來友好、豐富的社交互動體驗。Pi能記住與跨平台登入用戶的100次對話,支援網頁、APP、簡訊、社群平台等裝置互動。
相較於其他AI聊天機器人,Pi可能在文字生成、程式碼生成等能力上不算出眾,但在安全、同理心等特性上獨樹一格。
這也是為什麼這家創辦人剛創辦就從微軟等公司籌集2.25億美元,一年後又拿到微軟、英偉達、微軟聯合創始人比爾·蓋茨、Alphabet前CEO Eric Schmidt等的13億美元融資,快速成為全球最大的生成式AI獨角獸之一。
截至2023年年底,Inflection AI估值約40億美元,是全球第四大生成式AI獨角獸,僅次於OpenAI、Anthropic、Character.AI。
03 .
聯創團隊有錢有技術:
曾創辦DeepMind,曾投資OpenAI
2022年3月成立的年輕AI團隊,能贏得微軟和英偉達兩大巨頭的青睞,與其創始團隊密不可分。
Inflection AI聯合創始人Reid Hoffman被稱為“矽谷人脈王”,是矽谷最有名的天使投資人之一,他是全球最大專業社交網站LinkedIn的聯合創始人,以及風險投資機構Greylock Partners的合夥人,曾是OpenAI的創始投資者。
截至2023年5月,Reid Hoffman和Greylock Partners已投資至少37家AI公司。
左為Mustafa Suleyman,右為Reid Hoffman(圖片來源:福布斯、Business Insider)
另一位共同創辦人Mustafa Suleyman,2009年與幾位合夥人共同創立DeepMind,並將研究重點放到AI在醫療健康和氣候變遷中的應用,但連年虧損壓得Suleyman喘不過氣。2014年,Google拋出橄欖枝,6億美元將DeepMind收入麾下。
背靠金主的DeepMind終於可以沒有資金之憂地繼續從事前沿研究,然而5年後,Suleyman卻選擇離開DeepMind,加入Google並擔任AI產品管理和AI政策副總裁。背後原因,據說是由於一些同事曾抱怨他在工作上騷擾和霸凌同事。
Suleyman也曾坦言,身為DeepMind共同創辦人,他對員工的要求過於苛刻,有時他的管理風格並不具有建設性。2022年,他離開Google,創辦Inflection AI並擔任CEO,「希望與有遠見和無所畏懼的創始人在一起」。
第三位共同創辦人是前DeepMind首席科學家Karén Simonyan,現任Inflection AI首席科學家。他是同世代中成就突出的深度學習研究者之一,其出版物(包括5篇在學術頂級期刊Nature和Science上的論文)吸引了超過18萬次引用。
Karén Simonyan部分高引用量學術成果
Karén Simonyan在牛津大學完成了博士學位和博士後學位,期間設計了VGGNet影像處理框架並在贏得了知名的ImageNet挑戰賽。隨後他創辦Vision Factory AI公司,將VGGNet商業化。這家公司很快就被DeepMind收購,karsamyn的身份變成了DeepMind首席科學家。
在任職DeepMind首席科學家期間,karsamyn建立並領導了大規模深度學習團隊,開發了基於真實世界數據的大型AI模型。他在AlphaZero、AlphaFold、WaveNet、BigGAN和Flamingo等AI突破中均發揮了關鍵作用。
04 .
結語:團隊不到50人,
Pi每日聊天訊息數超40億
根據外媒Axios引述Suleyman的話,目前Inflection AI團隊擁有70名員工。
根據Inflection AI透露,其100萬日活躍用戶和600萬月活躍用戶與Pi聊天機器人往來了超過40億條訊息。與Pi的平均談話時間為33分鐘,每天有1/10的談話時間超過1小時。在任何一周與Pi交談的用戶中,約有60%的人會在接下來的一周返回,其月黏性高於主要競爭對手。
Inflection AI認為,新推出的Inflection-2.5保持了Pi的獨特、平易近人的個性和出色的安全標準,同時成為更有用的模型。這個「智商」更接近GPT-4的模型,將讓Pi在更具人性溫度的同時,成為能夠提供更好建議的個人AI朋友。