結合視覺和語言或是開發更有能力的AI的關鍵
根據你所認同的智能理論,實現“人類水平”的AI將需要一個能利用多種模式–如聲音、視覺和文本–來推理世界的系統。比如當顯示一張在下雪的高速公路上一輛翻倒的卡車和一輛警察巡邏車的圖像時,人類水平的AI可能會推斷出危險的道路狀況導致了一場事故。
或者當運行了AI系統的機器人被要求從冰箱裡拿一罐蘇打水時,它們會繞過人、家具和寵物取出罐子並把它放在請求者可及的地方。
雖然現在的AI技術還不夠。但新研究表現出了令人鼓舞的進步跡象,從能找出滿足基本命令的步驟的機器人到能從解釋中學習的文本生成系統。在Techcrunch日前恢復的《Deep Science》中,他們將每週都會介紹AI和更廣泛的科學領域的最新發展,他們將介紹DeepMind、Google和OpenAI的工作–這些工作正朝著系統能夠以令人印象深刻的穩健性解決諸如生成圖像的狹窄任務的方向邁進。
AI研究實驗室OpenAI的DALL-E改進版–DALL-E 2很容易成為AI研究實驗室深處出現的最令人矚目的項目。TechCrunch記者指出,雖然最初的DALL-E展示了創造圖像以匹配幾乎任何提示的非凡能力,但DALL-E 2在這方面更進一步。它產生的圖像更加詳細,且它還可以智能地替換掉圖像中的特定區域–比如將一張桌子插入充滿適當反射的大理石地板的照片中。
雖然DALL-E 2本週受到了大部分的關注,但在周四,Google的研究人員在GoogleAI博客上所介紹的一個視覺理解系統同樣令人深刻。據悉,這個系統被稱為視覺驅動的文字轉語音(Visually-Driven Prosody for Text-to-Speech,簡稱VDTTS)。VDTTS可以生成聽起來很真實的唇語,除了文字和說話的人的視頻幀之外,沒有其他東西。
VDTTS生成的語音雖然不是錄製的對話的完美替代品,但表現相當好,它具有令人信服的人類表達能力和時間。Google認為有一天它可以在演播室中使用,從而取代可能在嘈雜條件下錄製的原始音頻。
當然,視覺理解只是通往更有能力的AI道路上的一個步驟。另一個組成部分是語言理解,它在許多方面都落後於人–即使拋開AI有據可查的毒性和偏見問題。一個鮮明的例子是,根據一篇論文,Google的一個尖端系統Pathways Language Model(PaLM)記住了用於“訓練”它的40%的數據,結果PaLM剽竊了代碼片段中的文本,甚至是版權聲明。
所幸的是,由Alphabet支持的AI實驗室DeepMind也在探索解決這一問題的技術。在一項新研究中,DeepMind的研究人員研究了AI語言系統–它們學會從許多現有文本的例子中生成文本–是否可以從對這些文本的解釋中獲益。在對幾十個語言任務進行註釋後並評估了不同系統在這些任務上的表現,DeepMind團隊發現,例子確實提高了系統的表現。
DeepMind的方法如果在學術界獲得通過,那麼有朝一日將可以應用到機器人技術中、形成機器人的構件並在無需一步步指示的情況下理解模糊的請求。儘管存在很大的局限性,但Google新的Do As I Can, Not As I Say項目還是讓人們看到了這個未來。
作為Google的機器人技術和Alphabet的X實驗室的日常機器人技術團隊之間的合作,“Do As I Can, Not As I Say”項目旨在為AI語言系統提供條件以便為機器人提出可行的且適合環境的行動。機器人充當語言系統的“手和眼睛”,而係統則提供關於任務的高級語義知識–理論上,語言系統編碼了大量對機器人有用的知識。
此外,一個名為SayCan的系統則可以選擇機器人在響應命令時應該執行的技能,其中它將特定技能有用的概率和成功執行該技能的可能性考慮在內。如如果有人說:“我的可樂灑了,你能給我拿點東西來清理嗎?”SayCan可以指示機器人找到一塊海綿,拿起海綿,然後將它送到提出該要求的人手中。
不過SayCan受到了機器人硬件的限制–研究小組不止一次觀察到他們選擇用來進行實驗的機器人意外地掉落物體。儘管如此,它跟DALL-E 2和DeepMind在語境理解方面的工作一起說明了AI系統如何在結合時使我們人類更接近於傑森一家式的未來。