ChatGPT推出語音和影像功能現在可以用不同形式的指令向AI提問

2023-09-26 Comments 0 Comment

OpenAI 對ChatGPT 的大部分改動都涉及人工智慧機器人的功能：它所能回答的問題、它所能存取的資訊以及改進的底層模型。不過這次，它調整了你使用ChatGPT 本身的方式。該公司正在推出一個新版本的服務，讓你不僅可以透過在文字方塊中輸入句子，還可以透過大聲說話或上傳圖片來提示人工智慧機器人。

據OpenAI 稱，新功能將在未來兩週內向付費使用ChatGPT 的用戶推出，”不久之後”其他用戶也將獲得新功能。

語音聊天部分讓人非常熟悉：你點擊一個按鈕並說出你的問題，ChatGPT 會將其轉換為文字並將其輸入大型語言模型，然後得到答案，再將其轉換為語音，並大聲說出答案。這種感覺就像與Alexa 或Google助理交談一樣，只是OpenAI 希望，由於底層技術的改進，答案會更好。大多數虛擬助理似乎都在依靠LLM 進行改造，而OpenAI 則走在了前面。

OpenAI 出色的Whisper 模型完成了大量的語音轉文字工作，而且該公司正在推出一種新的文字轉語音模型，據稱它可以”透過文字和幾秒鐘的語音樣本產生類似人類的音訊」。你可以從五個選項中選擇ChatGPT 的聲音，但OpenAI 似乎認為這個模型的潛力遠不止於此。例如，OpenAI 正在與Spotify 合作，將播客翻譯成其他語言，同時保持播客的聲音。合成語音有很多有趣的用途，OpenAI 可以成為這個行業的重要組成部分。

但事實上，只需幾秒鐘的音訊就能建立一個有能力的合成語音，這也為各種有問題的用例打開了大門。該公司在一篇宣布新功能的部落格文章中說：「這些功能也帶來了新的風險，例如惡意行為者有可能冒充公眾人物或實施詐欺。正是出於這個原因，OpenAI 才沒有廣泛使用這種模式：它將受到更嚴格的控制，並僅限於特定的使用案例和合作關係。”

同時，圖片搜尋有點像Google Lens。你只需拍下感興趣的照片，ChatGPT 就會找出你的問題所在，並做出相應的回應。你也可以使用該應用程式的繪圖工具來幫助清楚地表達你的疑問，或根據圖片說出或輸入問題。這就是ChatGPT 來回的特性所帶來的幫助：你可以一邊提示機器人，一邊完善答案，而不是先搜索，得到錯誤答案後再搜索。(這與Google在多模態搜尋方面的做法很相似）。

顯然，圖像搜尋也有其潛在的問題。其一是當你向聊天機器人提示一個人時，可能會發生什麼： OpenAI 表示，出於準確性和隱私方面的考慮，它有意限制了ChatGPT”分析和直接陳述人的能力」。這意味著人工智慧最科幻的願景之一–看著一個人說：「那是誰？- 這種能力不會很快實現。這也許是件好事。

在ChatGPT 首次發布近一年後，OpenAI 似乎仍在努力探索如何為其機器人提供更多特性和功能，同時又不帶來新的問題和弊端。在這些版本中，該公司試圖透過故意限制其新機型的功能來實現這一目標。但這種方法不會永遠奏效。隨著越來越多的人使用語音控制和圖像搜索，隨著ChatGPT 逐步成為一個真正多模式、實用的虛擬助手，要繼續保持護欄就會越來越難。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

ChatGPT推出語音和影像功能現在可以用不同形式的指令向AI提問

2023-09-26 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆