祖克柏與黃仁勳共同展示Meta最新版的視覺AI模型Segment Anything 2
Meta 公司去年推出的機器學習模型Segment Anything 一炮打響,該模型可以快速、可靠地識別並勾勒出圖像中的任何事物。該公司執行長馬克-祖克柏(Mark Zuckerberg)週一在SIGGRAPH 大會上首次公佈了新版,將該模型應用到了視訊領域。
分割是一個專業術語,是指視覺模型觀察圖片並找出其中的部分:希望是”這是一隻狗,狗後面是一棵樹”,而不是”這是一棵從狗身上長出來的樹”。這個過程已經持續了幾十年,但最近變得更好更快了,其中”Segment Anything”是一大進步。
Segment Anything 2(SA2)是一個後續模型,因為它不僅適用於靜態影像,也適用於影片。 「科學家們用這些東西來研究珊瑚礁和自然棲息地之類的東西。」祖克柏在與NVIDIA 執行長黃仁勳(Jensen Huang)的對話中說:」但是,能夠在影片中做到這一點,而且是零拍攝,並告訴它你想要什麼,這就很酷了。
處理視訊對運算要求更高,SA2 仍然是一個需要大量硬體才能運行的龐大模型,但快速、靈活的分割在一年前幾乎是不可能的。
這種模式將和第一種模式一樣,是開放和免費使用的,目前還沒有託管版本的消息,而這些人工智慧公司有時會提供託管版本。但有一個免費的試用版。
當然,這樣的模型需要大量資料來訓練,Meta 也發布了一個包含50000 個影片的大型註解資料庫,它就是為此目的而創建的。在描述SA2 的論文中,另一個包含10 萬多個”內部可用”視頻的數據庫也被用於訓練,但這個數據庫並沒有公開–我已經要求Meta 提供更多信息,說明這是什麼,以及為什麼沒有公開。 (我們猜測這些影片來自Instagram 和Facebook 的公開資料)。
標註訓練資料範例
幾年來,Meta 一直是”開放”人工智慧領域的領導者,儘管事實上(正如扎克伯格在對話中所說),它很早就開始這樣做了,並推出了PyTorch 等工具。但最近,LLaMa、Segment Anything 和它免費發布的其他一些模型,已經成為這些領域人工智慧性能的一個相對可及的標準,儘管它們的「開放性」還有待商榷。
祖克柏也提到了Meta 公司開放技術的意義:「這不僅僅是一個軟體,你需要一個圍繞它的生態系統。如果我們不開放原始碼,它甚至都不會運行得那麼好,對嗎? 我們這麼做並不是因為我們是利他主義者,儘管我認為這對生態系統會有幫助,我們這麼做是因為我們認為這會讓我們正在建構的東西變得最好。