Twelve Labs使視頻內部搜索變得簡單而強大
隨著視頻在我們日常互動和創造的媒體中佔的比重越來越大,跟踪和索引這些內容的需求也越來越大。Twelve實驗室有一個總結和搜索視頻的機器學習解決方案,可以使消費者和創作者更快、更容易。
這家初創公司提供的能力是能夠輸入一個複雜但模糊的查詢,如”Courtney唱國歌的辦公室聚會”,並立即得到不僅是視頻,而且是視頻中發生的時刻。在YouTube或大學檔案館裡,你經常可以找到你想要的視頻。但接下來會發生什麼?你翻閱視頻,尋找你要找的部分,或者翻閱文字記錄,試圖想出他們措辭的確切方式。
這是因為當你搜索視頻時,你實際上是在搜索標籤、描述和其他基本元素,這些元素很容易被大規模地添加。在浮現你想要的視頻方面,有一些算法的魔力,但係統並沒有真正理解視頻本身。業界已經將問題過度簡化,認為標籤可以解決搜索問題。而現在許多解決方案確實依賴於,例如,識別出視頻的某些幀包含貓,所以它添加了標籤#cats。但是視頻不僅僅是一系列的圖像,而是複雜的數據。
Twelve實驗室建立一個新的神經網絡,它可以同時接受視覺和音頻,並圍繞它制定上下文;這被稱為多模態理解。這是目前人工智能領域的一個熱詞,因為當人工智能係統狹隘地專注於一種”感覺”,如音頻或靜態圖像時,我們似乎已經達到了理解世界的極限。例如,Facebook最近發現,它需要一個人工智能同時關註一個帖子中的圖像和文字,以檢測錯誤信息和仇恨言論。
對於視頻,如果你看的是單個幀,並試圖用帶有時間戳的文字記錄來進行聯想,你的理解就會受到限制。當人們觀看視頻時,他們會自然地將視頻和音頻信息融合到角色、行動、意圖、因果關係、互動和其他更複雜的概念中。
Twelve實驗室聲稱其視頻理解系統已經建立了類似的東西。人工智能被訓練成從多模態的角度來處理視頻,從一開始就將音頻和視頻聯繫起來,並創造他們所說的更豐富的理解,其中包括更複雜的信息,比如畫面中項目之間的關係,連接過去和現在,就比如說,如果有一個YouTuber搜索“Beast先生挑戰Joey Chestnut吃漢堡”,它就會理解挑戰某人,以及談論挑戰的概念。
Twelve實驗室將其工具構建成一個簡單的API,可以被調用來索引一個視頻(或一千個),生成一個豐富的摘要,並將其連接到一個選定的圖表。因此,如果你記錄了所有的手拉手會議或技能分享研討會或每週的頭腦風暴會議,那些變得可搜索,不僅僅是按時間或與會者,而是按誰說話,什麼時候,關於什麼,並包括其他行動,如畫圖或展示幻燈片等等信息。