OpenAI o3只靠幾行程式碼精準破解照片位置人類在AI面前已裸奔
o3看照片識位置的功能,簡直令人毛骨悚然! Django Web大神Simon Wilson發現,o3憑藉Python代碼,就能破解自己照片的地理位置。這實在太反烏托邦了,人類的地理訊息,對於AI已經完全透明了? OpenAI的o3發布以來,這個功能讓不少網友覺得毛骨悚然——它能準確破解你的地理位置!
就在剛剛,Lanyrd聯創、Django Web框架締造者Simon Wilson專門發了一篇博客,詳盡推敲了o3究竟是如何猜測照片拍攝地點的。

他將整個過程評價為:既超現實,又反烏托邦,彷彿幾十年前的科幻小說突然變成現實!
已經有越來越多網友發現,o3識圖定位的功能,堪稱瘋狂。

隨便拍張照片,o3就告訴你這是哪裡
首先,我們可以試著隨手拍一張照片,最好是沒有明顯的地標。
然後把照片傳給o3或o4-mini,問它:“猜猜這張照片是在哪裡拍的?”
注意,一定要關閉ChatGPT的記憶功能,否則它就會使用先前對話的上下文作弊。
實驗開始!
Wilson給了o3一張照片,是他在加州El Granada家裡附近一個露天酒吧拍的。
他覺得這張照片很有挑戰性,沒什麼明顯的特徵。只有一小段路、兩棟普通的房子,還有遠處的、只能看到一點輪廓的小山。

要是讓人來透過這張照片確定拍攝地點的話,確實是很有挑戰,相信絕大多數人甚至都會直接放棄。
因為實在是沒什麼明顯的標記物。
但是o3沒管那麼多,拿著圖片就開找了起來。
Wilson分享了o3思考的整個過程,總共花了6分48秒。
它從一個有點奇怪的錯誤開始了調查,先是假裝根本看不到這張照片。

然後突然恢復視力。

分析了照片後,o3打起了照片中車牌的點子。不過這個車牌很模糊,肉眼很難分辨。
o3也在思考中分析需要放大處理。

為了確定車牌在照片中的位置,o3開始變身程式設計師寫了代碼。

找到車牌位置並且放大後,o3開始了更細節的分析。比如,他開始觀察車牌的樣式。

對於自己關注的細節,o3會進行誇張的放大。

在這個過程中,不斷產生程式碼配合其分析。

o3會把它「看到」的細節與浮現在自己「腦海中」的印像做對比。

在這樣仔細思考了6分多鐘後,終於給了它的最終答案。

結果怎麼樣呢,加州中央海岸完全正確。
不過距離o3的第一個猜測Cambria大約有200英里的偏差,但是它的下一個猜測El Granada準確無誤。
Claude推理粗糙,Gemini直接作弊
Simon Wilson也說,o3不是唯一能做這個的模型,他也在Claude 3.5和3.7 Sonnet上也做過類似的事情。
只不過它們沒有o3那種誇張的「放大」能力。
不斷地對圖片放大到底有多大用?
Wilson猜測模型的視覺輸入解析度可能比較低,所以對影像做一些裁切確實會有幫助。
但o3對一張照片進行25次的裁切操作,確實像是有點炫技的感覺。
Simon Wilson也貼出了Claude 3.7 Sonnet的「擴展思考」結果,它給出的答案是「加州沿海的一個中小型城鎮」。
跟o3比起來,Claude的這個思考過程顯得「粗糙不堪」。

而Gemini直接開始了作弊:「鑑於目前的定位是加州埃爾格蘭納達…」。
所以Simon Wilson不得不透過API試了Gemini 2.5 Pro,結果它自信滿滿地猜錯了,認為是「加州卡尤科斯The Hidden Kitchen餐廳的露台」。

o3的不同之處在於工具使用(圖片處理、python等)被整合進了「思考」階段。
這非常驚艷。
不過Wilson也承認,這也挺令人不安的。
技術現在已經能透過照片辨識地點了。人們必須明白哪怕是平淡無奇的照片,都可能被用來辨識出你的位置。
等等,o3也作弊了?
對於這個過程,有人提出了質疑:o3是不是本來就可以存取一個大致的位置模型,能知道使用者在哪裡?
Simon檢查後發現,它居然真的知道自己的地理位置。
如果去問o3:你知道我在哪裡嗎?請盡可能提供技術細節。
它給出的答案,具體到在加州的半月灣,甚至包括時區、經緯度、地理標識符、海拔、氣候分類等等。
Simon猜測,或許這是它增強搜尋功能的一部分。

不過隨後的嘗試,讓Simon對o3更有信心了──即使沒有這個位置模型,o3依然可以準確猜出地理位置。
例如,他給了o3一些距離自己實際位置有數千英里的照片,並且透過截圖去除了EXIF資訊。
下面這張照片,是在馬達加斯加的鄉村拍的。

但o3依然給了準確的判斷。

這張照片,是在布宜諾斯艾利斯城市區拍的。

模型也認出了它的地理位置。

所以,o3在這方面,的確有某些過人之處,似乎不是靠作弊。
CSI走進現實
Simon Willison表示,看著模型在處理照片的思考過程,彷彿在看一集《犯罪現場調查》。
它會不斷平移、縮放,討論各種可能的位置。
但是,這也讓人感到深深的反烏托邦氣息。
現在的AI,完全可以透過照片輕易辨識出你的具體位置了。
所以,你很有必要警惕起來,隨時注意自己的人身安全!

搜餐館、搜位置,o3無所不能
其實早在o3和o4-mini剛發佈時,就有無數網友發現,這兩個模型也太神了。
僅憑一張無EXIF資訊的菜單或風景照,它就能精準推理、反向定位拍攝地點,直接引爆了全網AI玩「照片尋址(GeoGuessr)」的新熱潮。
開始,人們以為它們只是很擅長圖像匹配而已,但完全不止於此——它們會展開推理,在網上進行瘋狂的搜索,直到找出正確答案為止!
可以說,只要你的照片向AI暴露,你的資訊就不再是隱私了。

知名投資人Deedy就發現,只給一張沒有標題及EXIF數據的菜單圖片,o3就能夠上網搜尋、配對菜單項,找到這家中餐廳的位置。


o4-mini也是如此。


而o3精準定位照片地理資訊的本領,簡直是令人毛骨悚然。
例如給下圖左邊這張從室內窗戶向外拍攝的海岸景色。
根據就照片裡透露的訊息,只能看到長長的沙灘、蜿蜒通往海灘的階梯步道、遠處的海岬以及近處的一些植被。窗邊還有一個插著花的花瓶。
所有資訊就這麼多了。

但o3居然猜出了照片拍攝地:很可能在加州橘郡達納角(Dana Point) 的麗思卡爾頓拉古納尼格爾酒店(Ritz-Carlton Laguna Niguel) 內,可能是在RAYA或180blũ餐廳附近。
可怕的是,它居然猜對了!
它是怎麼判斷的?是透過以下匹配的特徵。
西北-東南走向、長而平緩彎曲的鹽溪海灘(Salt Creek Beach)。
從飯店通往公共海灘的米色、之字形的露台式步道和樓梯。
海灘內陸的草地,即帝王海灘高爾夫球場(Monarch Beach Golf Links)。
遠處的岩石海岬(達納角海岬)。
甚至,o3也給了飯店的地址(One Ritz-Carlton Drive, Dana Point, CA 92629)和大致的經緯度座標(北緯33.482°,西經117.721°)。
網友用Google地圖確認了一下,答案完全正確。
大膽暢想一下,如果o3的影像辨識能力再疊加一個無敵的全球資料庫,這個AI豈不是能認出地球上的任何地方?
接下來,網友紛紛上傳自己的照片,讓o3猜位置。
例如下面根據下面這張,o3猜出是在亞利桑那州佩森市(Payson, Arizona)北部的Water Wheel Falls / Ellison Creek Cascades。

它是怎麼猜出來的呢?推理邏輯和關鍵線索如下。
視覺線索: 淺層滑梯式瀑布,落差約15英尺,落入深色水潭-匹配點: Water Wheel Falls有類似的傾斜花崗岩水道流入翠綠水池。
視覺線索: 粉褐色花崗岩壁,帶有垂直裂縫-匹配點: 這是該峽谷標誌性的莫戈隆邊緣(Mogollon Rim)花崗岩。
視覺線索: 瀑布底部橫臥著一根巨大的漂白原木-匹配點: Water Wheel Falls有一根標誌性的「階梯狀」原木,已在那裡停留多年(引用了The Outbound的資訊)。
視覺線索: 瀑布上方有稀疏的河岸灌木和亞利桑那松林-匹配點: 這是埃里森溪(Ellison Creek)走廊的典型植被。
現在,網友們給o3的考驗還在升級中。
英偉達研究員Zhaocheng Zhu給了o3一組他用長焦鏡頭拍攝的照片,沒有EXIF數據,關閉o3的記憶功能。

因為網路上大多數照片都是用廣角鏡頭拍的,所以這張照片對o3來說應該非常棘手。
Zhu本人表示,如果不是透過鏡頭看到這個角度,自己也認不出來這個地方是哪裡。
結果,o3猜對了。

對於這張,它不僅準確地找到了拍攝地點,還認出了圖中的山峰是聖羅莎山脈。

繼續增加難度後,o2猜測了三個地點,其中一個是正確答案-查爾瓦高地。

終於,在猜測這張照片的時候,o3翻車了。這是一張加拿大山脈的鳥瞰圖,o3卻認作是瑞士的阿爾卑斯山。
這大概是因為,空拍照片在訓練集中所佔的比例很低。

而且,o3可不止強在猜測國外的地理位置,有國內開發者給了它自己上班路上隨手拍的一張圖,它居然也一步步準確分析出了位置資訊-山東青島市北區重慶南路47號。





左右滑動查看
有人質疑,是否是照片裡已經帶定位了?
Nanyi表示,iPhone拍照說明裡只有拍攝參數,沒有位置參數。
應該是o3從魯U推理出了青島,從小海豚裡搜出了旁邊的店,然後又從百度地圖和青島本地寶裡搜出資訊、查看附近的郵局,最終確認的。

圖片資訊中並沒有位置資訊
注意,這只是2025年的o3模型而已,未來的模型還會做出什麼呢?