Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

物理測試暴擊AI圈,DeepSeek R1穩超o1、Claude

物理測試暴擊AI圈,DeepSeek R1穩超o1、Claude

2025-01-26 Comments 0 Comment

我們都沒預料到,AI 領域的2025 年是這樣開始的。 DeepSeek R1 真是太厲害了!最近,「神秘的東方力量」DeepSeek 正在「硬控」矽谷。我請R1 詳細解釋勾股定理。這一切都是AI 在不到30 秒時間裡一次性完成的,沒出任何錯。簡單來說,its over.

在國內外AI 圈,普通網友發現了神奇的強大新AI(還開源),學界專家紛紛喊出“要奮起直追”,還有小道消息稱海外的AI 公司已經如臨大敵。

就說這個本週剛發布的DeepSeek R1,它沒有任何監督訓練的純強化學習路線令人震撼,從去年12 月Deepseek-v3 基座發展到如今堪比OpenAI o1 的思維鏈能力,似乎是很快達成的事。

但在AI 社群熱火朝天的讀技術報告、對比實測之餘,人們還是對R1 有所懷疑:它除了能跑贏一堆Benchmark 以外,真的能領先嗎?

能自建模擬“物理規律”

你不相信?來讓大模型玩彈珠台?

最近幾天,AI 社群的一些人開始沉迷一項測試—— 測試不同的AI 大模型(尤其是所謂的推理模型)來處理一類問題:「編寫一個Python 腳本,讓一個黃色球在某個形狀內彈跳。

有些模型在這項「旋轉球形」基準測試中的表現優於其他模型。據CoreView CTO Ivan Fioravanti 稱,國內人工智慧實驗室DeepSeek 的開源大模型R1 完胜OpenAI 的o1 pro 模式,後者作為OpenAI ChatGPT Pro 計劃的一部分,每月收費200 美元。

左邊是OpenAI o1,右邊是DeepSeek R1。如上所述,這裡的Prompt 是:“write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball squares squathon. 」

根據另一位網友在X 上的說法,Anthropic 的Claude 3.5 Sonnet 和Google的Gemini 1.5 Pro 模型對物理原理判斷錯誤,導致球偏離了形狀。也有用戶報告稱,Google最新的Gemini 2.0 Flash Thinking Experimental,以及相對較舊的OpenAI GPT-4o 都一次性通過了評估。

但這裡面也是能分出高下的:

在這個推文底下的網友表示:o1 的能力原本很好,在OpenAI 優化速度過後就變弱了,即使是每月200 美元的會員版也一樣。

模擬彈跳球是一個經典的程式設計挑戰。精確的模擬結合了碰撞偵測演算法,其演算法需要去識別兩個物體(例如一個球和一個形狀的側面)何時發生碰撞。編寫不當的演算法會影響模擬的效能或導致明顯的物理錯誤。

AI 新創公司Nous Research 的研究員N8 Programs 表示,他花了大約兩個小時從頭開始編寫一個旋轉七邊形中的彈跳球。 “必須跟踪多個坐標系,了解每個系統中的碰撞是如何進行的,並從頭設計代碼以使其具有魯棒性。”

雖然彈跳球和旋轉形狀是對程式設計技能的合理測試,但對於大模型來說還是個新項目,即使是提示中的細微變化也可能產生不同的結果。所以如果想讓它最終成為AI 大模型基準測試的一部分的話,還需要改進。

無論如何,經過這一波實測之後,我們對大模型之間的能力不同有了觀感。

DeepSeek 是新的“矽穀神話”

DeepSeek 正讓大洋彼岸陷入「恐慌」。

Meta 員工發文表示“Meta 工程師們正在瘋狂地分析DeepSeek,試圖從中複製任何可能的東西。”

而AI 科技新創公司Scale AI 創辦人Alexandr Wang 也公開表示,中國人工智慧公司DeepSeek 的AI 大模型效能大致與美國最好的模式相當。

他還認為,過去十年來,美國可能一直在人工智慧競賽中領先中國,但DeepSeek 的AI 大模型發布可能會「改變一切」。

X 部落客@8teAPi 則認為,DeepSeek 並不是一個“副業項目”,而是像洛克希德・馬丁以前的“臭鼬工廠”。

所謂“臭鼬工廠”,就是當初洛克希德・馬丁公司(Lockheed Martin)為了研發諸多先進飛行器專門成立的一個高度機密、相對獨立的小團隊,從事尖端或非常規的技術研究與開發。從U-2 偵察機、SR-71 黑鳥,到F-22 猛禽、F-35 閃電II 戰鬥機都是從這裡走出來的。

後來,這個詞逐漸演變成一個通用術語,用來形容在大公司或組織內部設立的「小而精」、相對獨立且自由度更高的創新團隊。

他給的理由有二:

一方面是DeepSeek 擁有大量的GPU,據稱有超過一萬塊,而Scale AI 的CEO Alexandr Wang 甚至表示可能達到5 萬塊。

另一方面,DeepSeek 只從中國排名前三的大學招募人才,這意味著DeepSeek 與阿里巴巴和騰訊具有同等的競爭力。

僅憑這兩個事實,就可以看出,顯然DeepSeek 在商業上取得了成功,並且已經足夠知名,能夠獲得這些資源。

至於DeepSeek 的開發成本,該部落客表示,中國科技公司可以獲得各種各樣的補貼,例如低用電成本和用地。

因此,DeepSeek 非常有可能大部分成本都被「安置」在核心業務之外的某個帳目上,或以某種資料中心建設補貼的形式存在。甚至除了創辦人之外,沒人完全清楚所有財務安排。有些協議可能只是“口頭協定”,只靠聲譽就能敲定。

不管怎樣,有幾點是明確的:

這個模型非常出色,與OpenAI 兩個月前發布的版本相當,當然也有可能不如OpenAI 和Anthropic 尚未發布的新模型。

從目前來看,研究方向仍主要由美國公司主導,DeepSeek 模型屬於對o1 版本的“快速跟進”,但DeepSeek 的研發進度非常迅猛,比預期更快地迎頭趕上,他們並沒有抄襲或作弊,最多只是逆向工程。

DeepSeek 主要是在培養自己的人才,而不是依賴美國培養的博士,這大大擴展了人才庫。

與美國公司相比,DeepSeek 在智慧財產權許可、隱私、安全、政治等方面受到的約束較少,圍繞著錯誤地使用那些不想被訓練的資料的擔憂也較少。訴訟更少,律師更少,也更少顧慮。

毫無疑問,越來越多的人認為2025 年將會是決定性的一年。同時各家公司都在摩拳擦掌,例如Meta 就正在建立一個2GW+ 的資料中心,預計在2025 年投資60-650 億美元,年底擁有超過130 萬塊GPU。

Meta 甚至用一張圖表展示了2 千兆瓦資料中心與紐約曼哈頓的比較。

但現在DeepSeek 用更低的成本,更少的GPU 做到了更好,怎能不讓人焦慮?

Yann LeCun:要感謝開源

Hyperbolic 的CTO、共同創辦人Yuchen Jin 發文表示,在短短4 天時間裡,DeepSeek-R1 向我們證明了4 個事實:

開源AI 僅落後於閉源AI 不到6 個月

中國正在主導開源AI 競賽

我們正進入大語言模型強化學習的黃金時代

蒸餾模型非常強大,我們將在手機上運行高智慧AI

由DeepSeek 引發的連鎖反應仍在繼續,例如OpenAI o3-mini 免費可用、社群中希望能減少關於AGI/ASI 的模糊討論以及傳聞Meta 陷入恐慌等。

他認為,現在很難預測最終誰會獲勝,但不要忘記後發優勢的力量,畢竟我們都知道是Google 發明了Transformer,而OpenAI 解鎖了其真正潛力。

此外,圖靈獎得主、Meta 首席人工智慧科學家Yann LeCun 也表達了自己的看法。

“對於那些看到DeepSeek 的性能就認為‘中國正在超越美國的AI’的人,你理解錯了。正確的理解是:開源模型正在超越專有模型。”

LeCun 表示,DeepSeek 之所以這次一鳴驚人,是因為他們從開放研究和開源(如Meta 的PyTorch 和Llama)中獲益。 DeepSeek 提出了新想法,並在他人工作的基礎上建構。因為他們的工作是公開發布和開源的,每個人都可以從中受益,這就是開放研究和開源的力量。

網友們的反思仍在繼續,在對於新科技發展興奮的同時,也能感受到一點點憂慮的氣氛,畢竟DeepSeek 們的出現,可能會帶來真金白銀的影響。

參考內容:

👀 DeepSeek R1 (right) crushed o1-pro (left) 👀

Prompt: "write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square" pic.twitter.com/3Sad9efpeZ

— Ivan Fioravanti ᯅ (@ivanfioravanti) January 22, 2025

Tested 9 AI models on a physics simulation task: rotating triangle + bouncing ball. Results:

🥇 Deepseek-R1
🥈 Sonar Huge
🥉 GPT-4o

Worst? OpenAI o1: Completely misunderstood the task 😂

Video below ↓ First row = Reasoning models, rest = Base models. pic.twitter.com/EOYrHvNazr

— Aadhithya D (@Aadhithya_D2003) January 22, 2025

Deepseek is not a “side project”.

At the same time employees are not lying when they say it is.

The story they are telling is myth making in the same vein in the Silicon Valley “we want to make the world a better place” but at the same time make billions of dollars.

The team… pic.twitter.com/E4meJPjgf8

— Prakash (Ate-a-Pi) (@8teAPi) January 24, 2025

DeepSeek showed us in just 4 days:
– Open-source AI is only <6 months behind closed AI
– China is leading the open-source AI race (was not on my bingo card)
– we are entering the LLM RL golden era
– distilled models are powerful, we'll have highly intelligent AI running locally…

— Yuchen Jin (@Yuchenj_UW) January 24, 2025

To people who think
"China is surpassing the US in AI"
the correct thought is
"Open source models are surpassing closed ones"
See ⬇️⬇️⬇️

— Yann LeCun (@ylecun) January 25, 2025
Tech leaders respond to the rapid rise of DeepSeek

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
奧迪進軍純電硬派越野:全新Q6 e-tron越野車官圖發布
NEXT
即將推出的《戰地》新作將努力避免災難性的先發

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 1 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 12 月   2 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 喬治亞州資料中心熱潮引發水資源擔憂和居民強烈反對 2025-07-13
  • MIT新型植入物可自動治療第1型糖尿病患者的危險性低血糖 2025-07-13
  • 趙雅芝談不扮白素貞造型原因:我這個年紀扮不回當年的白娘子了希望留一個完美形象 2025-07-13
  • 中國聯通eSIM手機業務開通頁面上線華為、蘋果無SIM卡時代要來了 2025-07-13
  • 中國超導高速磁浮列車亮相:時速超150km後開始貼地飛行上海到北京僅需2.5小時 2025-07-13
  • 男子自己動手把燃油車改成新能源:熄火能吹空調還能外放電 2025-07-13
  • 美國商業衛星偷拍中國實踐26號衛星驚人解析度1.9厘米 2025-07-13
  • 女大學生出軌外國電力競選手Zeus被開除律師分析三大爭議點 2025-07-13
  • 天舟九號完成全區合演發射準備就緒 2025-07-13
  • 首艘海洋級智慧科考船「同濟號」交付 2025-07-13

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • Switch 2還有隱藏HDR設定? 這樣調整會讓畫質更好
  • 造成惡劣影響出軌外國電力競選手Zeus女生擬遭學校開除
  • 科學家發出警告:人類造成的全球暖化速度創歷史新高
  • Photon Matrix:針對蚊子的“防空系統”
  • 您可以在Windows 11 24H2 中找回WordPad
  • 世界上有多少個國家
  • 女大學生出軌外國電力競選手Zeus被開除律師分析三大爭議點
  • CCleaner全家桶激活密鑰
  • 巴西檢方起訴比亞迪侵犯勞工權利涉嫌人口販運

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.