o1滿血版洩漏!奧數題圖片推理手拿把掐奧特曼上線劇透o2
o1滿血版洩漏了!沒想到,OpenAI還擱那兒「今年一定」呢,不少網友已經率先上手體驗到了(doge)。事情是醬嬸的:有網友發現,OpenAI已經在ChatGPT官網上部署了完整版o1,大傢伙兒還都能卡bug直接用!
最初發現此事的網友,測試確認洩漏模型具有奧特曼所說的圖像推理能力。
圖源:X@legit_rumors
而日誌也顯示該模型就是o1本模。
於是,趕在OpenAI出手修復之前,網友們抓緊大玩特玩了一波——
滿血o1到底有多牛
和已經發布的o1-preview、o1-mini最直觀的不同是,洩漏的o1支援上傳附件。
這也就意味著,終於能測出o1的多模態能力了。
網友們也不說廢話,直接上強度,普特南數學競賽的證明題截圖一貼,甩給滿血o1。
對正整數n,有fn(x)=cos(x)cos(2x)cos(3x)…cos(nx)。求最小的n,使得|fn ” (0)|>2023。
思考了18秒之後,o1給答案:18。
答案正確:
再來一道更複雜的,雖然在識圖上遇到了一點小問題,但還是穩穩做對了。
在如此驚艷表現之下,似乎正確辨識人類史上首張黑洞照片也不算是什麼了(doge)。
不過嘛,也不是沒有翻車案例。例如,讓大模型數數圖裡有多少個三角形。
ID為anagh的??網友,給洩漏模型和GPT-4o做了個同屏比較:
4o速度很快,給了錯誤答案19。
而滿血o1花了1分39秒,狂刷一堆token……給了不同的錯誤答案:29。
正確答案是24。
這個bug現在已經修復了。不過,有趣的是,這次模型洩露,持續了整整3個小時。
不小心還是故意的?
有網友犀利地點出,這事兒看起來不是“不小心”,而是“精心策劃”:
目的是讓人們對即將發布的模型有一個預期。
不少網友贊同這樣的觀點:
奧特曼的目的是測試和炒作。
而由於一切看起來已經部署就緒,甚至有人猜測,o1完整版的正式上線時間就在未來一週之內。
值得注意的是,就在這次洩漏事件之後,奧特曼馬上在X上開始了自己的表演:
好傢伙,都已經吹上o2的風了(還假裝上錯號…)。
至於為什麼是這個時間…
那不得趕在Anthropic發布Claude Haiku 3.5之前搞點事嘛(doge)。
參考連結:
[1]https://x.com/legit_rumors/status/1852625385801859321
[2]https://x.com/koltregaskes/status/1852657291469709626
[3]https://x.com/anaghnairr/status/1852668741751919016