ChatGPT推出語音和影像功能現在可以用不同形式的指令向AI提問
OpenAI 對ChatGPT 的大部分改動都涉及人工智慧機器人的功能:它所能回答的問題、它所能存取的資訊以及改進的底層模型。不過這次,它調整了你使用ChatGPT 本身的方式。該公司正在推出一個新版本的服務,讓你不僅可以透過在文字方塊中輸入句子,還可以透過大聲說話或上傳圖片來提示人工智慧機器人。
據OpenAI 稱,新功能將在未來兩週內向付費使用ChatGPT 的用戶推出,”不久之後”其他用戶也將獲得新功能。
語音聊天部分讓人非常熟悉:你點擊一個按鈕並說出你的問題,ChatGPT 會將其轉換為文字並將其輸入大型語言模型,然後得到答案,再將其轉換為語音,並大聲說出答案。這種感覺就像與Alexa 或Google助理交談一樣,只是OpenAI 希望,由於底層技術的改進,答案會更好。大多數虛擬助理似乎都在依靠LLM 進行改造,而OpenAI 則走在了前面。
OpenAI 出色的Whisper 模型完成了大量的語音轉文字工作,而且該公司正在推出一種新的文字轉語音模型,據稱它可以”透過文字和幾秒鐘的語音樣本產生類似人類的音訊」。你可以從五個選項中選擇ChatGPT 的聲音,但OpenAI 似乎認為這個模型的潛力遠不止於此。例如,OpenAI 正在與Spotify 合作,將播客翻譯成其他語言,同時保持播客的聲音。合成語音有很多有趣的用途,OpenAI 可以成為這個行業的重要組成部分。
但事實上,只需幾秒鐘的音訊就能建立一個有能力的合成語音,這也為各種有問題的用例打開了大門。該公司在一篇宣布新功能的部落格文章中說:「這些功能也帶來了新的風險,例如惡意行為者有可能冒充公眾人物或實施詐欺。正是出於這個原因,OpenAI 才沒有廣泛使用這種模式:它將受到更嚴格的控制,並僅限於特定的使用案例和合作關係。”
同時,圖片搜尋有點像Google Lens。你只需拍下感興趣的照片,ChatGPT 就會找出你的問題所在,並做出相應的回應。你也可以使用該應用程式的繪圖工具來幫助清楚地表達你的疑問,或根據圖片說出或輸入問題。這就是ChatGPT 來回的特性所帶來的幫助:你可以一邊提示機器人,一邊完善答案,而不是先搜索,得到錯誤答案後再搜索。(這與Google在多模態搜尋方面的做法很相似)。
顯然,圖像搜尋也有其潛在的問題。其一是當你向聊天機器人提示一個人時,可能會發生什麼: OpenAI 表示,出於準確性和隱私方面的考慮,它有意限制了ChatGPT”分析和直接陳述人的能力」。這意味著人工智慧最科幻的願景之一–看著一個人說:「那是誰?- 這種能力不會很快實現。這也許是件好事。
在ChatGPT 首次發布近一年後,OpenAI 似乎仍在努力探索如何為其機器人提供更多特性和功能,同時又不帶來新的問題和弊端。在這些版本中,該公司試圖透過故意限制其新機型的功能來實現這一目標。但這種方法不會永遠奏效。隨著越來越多的人使用語音控制和圖像搜索,隨著ChatGPT 逐步成為一個真正多模式、實用的虛擬助手,要繼續保持護欄就會越來越難。