論文一窺蘋果AI大計Siri這回要變厲害了
儘管外界普遍認為蘋果在AI領域的動作較慢,實際上,蘋果一直在悄悄籌備,並等待合適時機發力。透過分析研究論文,美媒可以看出蘋果的AI策略逐漸明朗化。蘋果正致力於優化AI模型,使其更加精簡和有效率。透過在設備上直接處理資料並改善儲存方式,蘋果已顯著加快了處理速度並提高了模型效率。
此外,蘋果還開發了名為EELBERT的系統,可大幅減少模型的體積,同時盡量保持效能盡量不受影響。
在提升使用者體驗方面,蘋果特別關注如何改善Siri,使其更聰明地處理語音指令和查詢。研究團隊正在開發一種新技術,使Siri無需喚醒單字即可激活,同時優化模糊查詢的處理。
此外蘋果也意識到了AI在健康監測、創意設計和音樂編輯等多個領域的應用潛力。
蘋果最雄心勃勃的AI計畫之一則是多模態大語言模式Ferret。它能夠根據使用者的指令專注並理解指定的物件及其周圍環境。 Ferret的潛力不只如此,它甚至能解析螢幕上的內容。這項技術可能徹底改變人們使用智慧型手機和Vision Pro的方式。
以下是翻譯內容:
在人工智慧領域的競爭中,常有人誤以為蘋果起步較晚。自2022年底ChatGPT風靡全球以來,多數競爭對手都在加速追趕。雖然蘋果偶爾參與討論人工智慧,並推出一些相關技術的產品,但外界普遍感覺蘋果似乎只是試探,而非全力以赴。
然而,近幾個月的傳聞和報導揭示了蘋果的戰略佈局。實際上,蘋果一直在等待合適的時機。最近幾週有消息稱,蘋果正在與OpenAI和Google等巨頭探討合作,旨在增強其人工智慧功能,並積極開發自己的人工智慧模型,名為Ajax。
透過仔細研讀蘋果發布的人工智慧研究論文,可以感知到該公司的AI策略日漸成型。當然,我們應該認識到,從研究到產品的轉化是一個複雜且充滿不確定性的過程。但隨著蘋果預計在今年六月的全球開發者大會(WWDC)上展示其人工智慧技術,我們將至少能一窺這家科技巨頭的遠大藍圖,以及其如何將這些技術融入日常生活。
更小、更有效率的模型
我們共同期待的無疑是更優秀的Siri體驗!更出色的Siri即將到來!蘋果和全球科技界的許多研究都基於同一個前提:大語言模型(LLM)將立即提升虛擬助理的智慧。對蘋果來說,提升Siri意味著必須迅速部署這些模型,並確保它們普遍可用以便為使用者提供服務。
最新報導指出,在iOS 18中,蘋果計畫讓所有人工智慧功能都能在裝置上完全離線運作。即便擁有龐大的資料中心網路和數千個頂尖GPU,建構一個功能全面且出色的模型也並非易事,而在智慧型手機這樣有限的空間內實現這一目標,更是難上加難。因此,蘋果需要展現其非凡的創新能力。
在一篇名為《快閃記憶體中的LLM:有限記憶體下的高效大語言模型推理》(LLM in a flash: Efficient Large Language Model Inference withLimited Memory)的論文中,研究人員設計了一種創新系統來儲存模型數據。這種系統將資料主要儲存在設備的SSD而非RAM上。
研究人員寫道:「我們已證明能夠在SSD上運行的LLM大小是可用DRAM的兩倍,推理速度在CPU上提高了4到5倍,在GPU上提升了20到25倍。」他們發現,透過巧妙利用設備上最便宜且易於取得的儲存空間,可以使模型運行得更快更有效率。
此外,蘋果研究人員還開發了一個名為EELBERT的系統,該系統能夠將大語言模型壓縮到更小的尺寸,同時基本上保持其效能不受影響。他們在GoogleBERT模型上的測試成功將資料壓縮到原來的1/15,即只有1.2兆位元組,且品質僅下降了4%。然而,這種壓縮確實帶來了一些延遲上的妥協。
整體而言,蘋果正在努力解決模型世界中的一個核心矛盾:模型越大,其效能越好,但同時也變得更複雜、更耗電,運行速度更慢。與許多其他公司一樣,蘋果也在尋找在這些方面達到最佳平衡的方法,並探索實現這一目標的最有效途徑。
Siri要變得夠好?
在探討人工智慧產品時,虛擬助理的功能常常成為焦點──它們能獲得資訊、提醒事項、解答疑問,甚至取代我們完成任務。因此,蘋果的許多人工智慧研究專注於一個核心問題:如何將Siri提升至完美水平?
蘋果研發團隊正在探索一種無需喚醒字眼即可啟動Siri的新方法。想像一下,無需再說“嘿Siri”或“Siri”,設備就能直覺地感知到你是否在與它對話。研究人員承認:「這項挑戰比簡單的語音觸發檢測要複雜得多,因為缺少了標誌語音命令開始的明確觸發短語。」為了解決這個問題,另一組研究人員致力於開發更精確的喚醒詞檢測系統。在另一項研究中,他們訓練了一個模型,以更好地理解那些通常難以被虛擬助理理解的罕見詞彙。
大語言模型的優點在於其理論上能更快地處理大量資訊。例如,在喚醒詞研究中,研究人員發現,不是刻意排除所有不必要的聲音,而是將所有聲音都輸入模型,讓模型自己判斷哪些是重要的,這樣做可以顯著提高喚醒詞的辨識率。
一旦Siri捕捉到用戶的聲音,蘋果便竭盡全力確保其能更好地理解並進行交流。其中一個創新是名為STEER的系統,該系統透過判斷使用者是在提出後續問題還是新問題,來改善與虛擬助理的互動。
另一個研究利用大語言模型處理“模糊查詢”,使得無論使用者如何表達,系統都能準確理解其意圖。研究人員指出:「在不確定情況下,智慧對話代理可能需要主動提問,以減少不確定性,從而更有效地解決問題。」還有一項研究致力於使生成的回答更加簡潔明了,研究人員利用大語言模型優化了虛擬助理的語言表達。
AI在健康、創作以及音樂領域的應用
每當蘋果公開討論人工智慧時,其焦點總是如何讓這項技術改善日常生活,而非僅僅展示其技術力量。因此,儘管Siri得到了廣泛關注,特別是蘋果正試圖與如HumaneAI Pin、Rabbit R1這樣的設備競爭,同時Google也在將Gemini整合到所有Android系統中,蘋果顯然看到了人工智慧在多個領域的巨大潛力。
在蘋果關注的許多領域中,健康領域尤其重要。理論上,大語言模型能幫助我們分析從各種設備收集的大量生物辨識數據,並理解這些數據的深層意義。因此,蘋果一直在積極探索如何收集並整合用戶的運動數據,如何利用步態識別和耳機識別用戶身份,以及如何追蹤和解讀心率數據。為推進這一領域的研究,蘋果還創建並發布了名為“最大的基於多設備多位置感測器的人類活動數據集”,收集了50名參與者的詳細生物感測數據。
蘋果也視人工智慧為創新工具。在一項研究中,研究人員與動畫師、設計師和工程師進行了深入交流,並開發了一個名為Keyframer的系統。此系統允許使用者迭代地建構和完善設計。與傳統影像生成不同,Keyframer並非僅依賴輸入提示符號來產生影像,而是提供了一個工具箱,使用者可以根據個人喜好調整和完善影像的各個部分。此系統可廣泛應用於從Memoji個人化設計到蘋果更專業的藝術工具等多個領域。
另一項研究描述了一個名為MGIE的工具,該工具允許用戶透過描述修改意圖來直接編輯圖像,例如「讓天空更藍」、「讓我的臉看起來不那麼奇怪」或「添加一些石頭”,MGIE能將這些指令轉化為明確的視覺意圖,並實現合理的圖像編輯。儘管初期實驗並非完美無缺,但其潛力已顯現。
在Apple Music中,人工智慧的應用同樣值得關注。一篇名為《資源受限的立體聲唱歌聲音消除》(Resource-constrained Stereo Singing Voice Cancellation)的論文探討瞭如何將歌曲中的人聲與樂器聲分離的技術,這一技術如果被蘋果採用,將為喜歡混音的TikTok或Instagram用戶提供強大的工具。
蘋果硬體與AI結合
本文作者敢斷言,隨著時間的推移,蘋果將越來越多地將人工智慧技術融入其產品和服務,特別是在iOS平台上。蘋果不僅將在其自家應用程式中整合這些功能,還計劃透過API向第三方開發者開放。蘋果一直自豪於其硬體性能,尤其是相比普通Android設備。將強大的硬體與注重隱私的人工智慧結合使用,無疑將為蘋果在市場競爭中帶來顯著優勢。
然而,談到蘋果最大、最雄心勃勃的人工智慧項目,不得不提Ferret。 Ferret是多模態大語言模型,可以根據使用者的指令,專注並理解使用者指定的物件及其周圍環境。這項技術是為了應對當前常見的AI場景而設計的,即向設備詢問周圍的世界資訊。
但Ferret的潛能不僅限於此,它還能解析並理解螢幕上的內容。在Ferret的相關論文中,研究人員展示了它如何幫助用戶導航應用程序,回答關於App Store評分的問題,以及描述他們所看到的內容等。這對提高可訪問性有深遠的意義,也可能徹底改變人們使用手機、Vision Pro和智慧眼鏡的方式。
雖然我們對這些技術的設想可能看起來相當超前,但想像一下,這些技術如何與蘋果正在開發的其他產品相結合:一個能夠理解你需求的Siri,配合一個能看見並理解屏幕上所有內容的設備,將真正實現手機的自我操作。蘋果不需要對所有產品進行深度整合,只需運行相應的應用程式並自動點擊正確的按鈕即可。
必須指出,這一切目前還只是處於研究階段。如果從今年春天開始,這些技術能夠順利運作並應用到實際產品中,那將是一項前所未有的技術成就。我們預計在今年的WWDC上,將見證蘋果在人工智慧領域的重大公告。
蘋果CEOTim Cook(Tim Cook)在2月份已經透露了這方面的信息,並在本週的財報電話會議上基本確認了這一點。有兩件事已經很清楚:蘋果在AI競賽中處於激烈的競爭狀態,這些技術可能會徹底改變iPhone。想像一下,將來你甚至可能願意頻繁使用Siri,這將是蘋果在AI領域的重大成就。 (小小)