ChatGPT 現在可以讀取Mac 的某些桌面應用程式
OpenAI 的ChatGPT 開始與電腦上的其他應用程式協同工作。本週四,這家新創公司宣布,MacOS 版ChatGPT 桌面應用程式現在可以讀取VS Code、Xcode、TextEdit、Terminal 和iTerm2 等一些以開發者為中心的程式設計應用程式中的程式碼。
這意味著開發人員不必再複製和貼上他們的程式碼到ChatGPT 中,而這已成為使用聊天機器人的常見方式。 現在,當啟用該功能時,OpenAI 會自動透過聊天機器人發送正在處理的程式碼部分,作為上下文,同時也有提示。
不過,與Cursor 或GitHub Copilot 等流行的人工智慧程式設計工具不同,ChatGPT 目前還不能代表開發者將程式碼直接寫入開發者應用程式。
這項名為”與應用程式合作”(Work with Apps)的功能遠非人工智慧代理,但OpenAI 表示,讓ChatGPT 理解其他應用程式是建立代理系統的”關鍵基石”。 目前,人工智慧代理面臨的最大挑戰之一是讓它們理解電腦螢幕上的其他內容,而不是提示或它們自己的反應。
OpenAI 表示,該功能一開始將重點放在程式應用程式上;這很可能是因為人工智慧程式設計助理已經成為最受歡迎的用例之一。 今天,Plus 和Teams 用戶可以使用該功能,在接下來的幾週內,該功能將推廣到Enterprise 和Edu。 OpenAI 表示,ChatGPT 將能夠與其他類型的應用程式協同工作,特別是可以用於寫作任務的基於文字的應用程式。
現在可以為ChatGPT選擇幾個程式應用程式(圖片:OpenAI)
OpenAI 桌面產品負責人Alexander Embiricos 表示,為了閱讀不同的應用程序,OpenAI 主要依靠MacOS Accessibility API 來閱讀文字並將其翻譯為ChatGPT。 MacOS 的螢幕閱讀器可幫助蘋果的VoiceOver 功能運作,該功能已存在近二十年。 人們普遍認為它在大多數常見應用中都相當可靠,但並非所有應用都是如此。
對於某些應用程序,例如微軟的VS Code,Work with Apps 要求用戶安裝一個特殊的擴充功能來查詢內容。 而且,顧名思義,蘋果的螢幕閱讀器只能閱讀文本,因此無法幫助ChatGPT 理解視覺元素,例如照片、物件的方向或影片。
在某些應用程式中,每次提示時都會透過ChatGPT 發送最後200 行程式碼。 對於其他應用,您最重要視窗中的所有程式碼都將作為聊天機器人的輸入。 你可以高亮顯示程式碼或文字的部分,幫助ChatGPT 專注於專案的正確部分,但ChatGPT 也會包含周圍的文字。 這聽起來似乎會用到很多輸入標記。
呼叫Xcode 的Chatgpt(圖:OpenAI)
目前還不清楚OpenAI 計劃如何將此功能擴展到其他不相容蘋果螢幕閱讀器的應用程式。 Anthropic 是OpenAI 的競爭對手之一,它發布了一個人工智慧系統,透過分析用戶的桌面截圖來理解和使用其他應用程式。 坦白說,Anthropic 的方法在目前的狀態下還有很多不足之處:速度慢,錯誤多。 不過,它是一個更通用的人工智慧代理,不依賴應用程式接口,能做的不僅僅是讀取另一個視窗中的文字。
Embiricos 介紹說:”這並不是要成為一個代理,它只是一種與程式設計工具協作的方式,很快就會有更多的工具出現。在代理方面,我認為這是一個非常關鍵的組成部分。 ChatGPT能夠理解或處理你所擁有的所有內容,從而幫助你處理這些內容。
根據彭博社最近的報道,OpenAI 即將發布一款代號為”Operator”的通用人工智慧代理,因此向代理邁出的這一步尤其值得注意。 該工具預計將於2025 年初面世,可與其他早期嘗試的通用人工智慧代理相媲美,如Anthropic 的Computer use 或Google報道的”Jarvis”代理。
OpenAI 將首先在MacOS 上發布這些功能,就在蘋果於12 月推出與ChatGPT 的整合前不久。 目前還不清楚”Work with Apps”何時會登陸Windows,因為Windows 是由OpenAI 最大的支持者微軟創建的作業系統。