蘋果開發出新款AI:能「看懂」螢幕上內容並用語音回复
蘋果公司的研究團隊最近發表了一篇論文,宣布他們成功開發了一款創新的人工智慧系統。這個系統能夠精確地理解螢幕上模糊的內容及其相關對話和背景環境,進而實現與語音助理更自然的互動。
這個系統被命名為ReALM(Reference Resolution As Language Modeling,即以語言建模為基礎的參考解析),它透過大語言模型的運用,將理解螢幕視覺元素指向的複雜任務轉化為純粹的語言問題。這項轉換使得ReALM在效能上相較於現有技術有了顯著的提升。
蘋果研究團隊強調:“讓對話助理能夠理解上下文,包括相關的內容指向,非常關鍵。能讓用戶根據他們所看到的螢幕內容進行提問,是確保真正實現語音操作體驗的重要一步。”增強對話助理的能力ReALM的一大創新在於它能夠重新建構螢幕內容,即透過分析螢幕上的信息及其位置資訊來產生文字表示,這一點對捕捉視覺佈局至關重要。研究人員展示了這種方法與專為內容指向調整的語言模型結合起來,能在執行相關任務時超越GPT-4的表現。研究人員表示:「我們對現有系統進行了顯著改進,在處理多種類型的內容指向時均展現出卓越性能。我們的最小模型就實現了超過5%的性能提升,而大型模型的表現則明顯超過了GPT-4。”實際應用與局限性這項研究凸顯了專注於語言模型在處理如內容指向解析等任務上的巨大潛力。由於回應時間或計算資源的限制,大型端到端模型往往難以實施。透過這項創新研究,蘋果展現了其持續投入,使Siri等產品在對話和理解脈絡方面更加出色。儘管如此,研究人員也指出,依靠自動化解析螢幕內容仍面臨挑戰。在處理更複雜的視覺內容,例如區分多個相似影像時,可能需要結合電腦視覺和多模態技術。努力縮小與AI競爭對手差距雖然在人工智慧領域蘋果曾經稍微落後,但它正在默默取得顯著進展。從融合視覺與語言的多模態模型,到開發AI驅動的動畫工具,再到建構高效能的專業AI技術,蘋果的研究實驗室持續實現技術突破。面對Google、微軟、亞馬遜和OpenAI等公司的激烈競爭——這些公司已在搜尋、辦公室軟體、雲端服務等領域推出了先進的AI產品——作為一個以保密聞名的科技巨頭,蘋果正努力不落人後。長期以來,蘋果更多在創新領域扮演跟隨者而不是領先者的角色,現在正面臨著一個由人工智慧快速改變的市場。在6月舉辦的全球開發者大會上,蘋果預計將推出新的大語言模型框架、「AppleGPT」聊天機器人及其生態系統中的其他AI功能。「我們很高興今年稍後分享我們在人工智慧方面的工作進展,」執行長 TimCook最近在一次獲利電話會議上暗示。儘管蘋果向來低調,但在AI領域的廣泛努力已經引起了業界的廣泛關注。然而,在日益激烈的人工智慧領域競爭中,蘋果的相對落後使其處於不利地位。但憑藉其雄厚的資金實力、品牌忠誠度、一流的工程師團隊和緊密整合的產品線,蘋果仍有機會扭轉局面。 (小小)