AI助手Moemate:讓大模型“閱讀”你電腦屏幕上的內容
Moemate 是一款應用程序,它可以讓大型語言模型(包括Anthropic 的Claude 和GPT-4)“閱讀” 你電腦屏幕上的內容。Moemate 是一款運行在macOS、Windows 和Linux 設備上的助手,以動漫風格的化身形式呈現,旨在為用戶提供並朗讀他們所提出的任何問題的最佳答案。
與其他聊天機器人相比,Moemate 的特點在於它可以直接查看屏幕上發生的事情。然而,給這樣的軟件訪問你所看到和做的一切的權限,即使在最好的情況下,也存在相當大的風險。
Moemate 提供了強大的自定義功能,用戶可以自定義化身的動畫、合成語音和回答。此外,用戶還可以構建自定義角色模型並導入,以及導出可供其他Moemate 用戶導入和使用的化身格式。Moemate 的“個性” 由選擇的文本生成模型驅動,而合成語音可以選擇ElevenLabs、Microsoft Azure 或Moemate 自己的文本到語音引擎。
Moemate 通過為每個化身提供一個簡介來“根據地” 所選的文本生成模型,並試圖防止其偏離軌道。化身的簡介可以從頭開始編寫和編輯。Moemate 還提供了一些面向Twitch 的功能,如將聊天窗口置於焦點和顯示頻道訂閱者人數。
Moemate 的屏幕捕獲功能可以讓它看到並分析你的屏幕內容。無論選擇哪個文本生成模型,Moemate 都可以回答關於屏幕上處於焦點的窗口的問題。雖然系統並不完美,但用戶可以使用Moemate 總結食譜和網頁,獲取複雜主題的概要,甚至在遊戲中提供建議。
然而,Moemate 的效果有時不盡人意。它無法準確預測自己將關注的內容,有時會引用背景窗口的內容,有時則完全無法看到窗口的內容。此外,Moemate 有時會偏離主題,給出奇怪的回答。有些內置命令也有問題,如調節語音音量只能調節應用內音量而非整個系統音量。
儘管存在問題,Moemate 仍然有吸引力。多模態分析(結合文本、圖像和其他媒體分析)顯然具有強大的功能,尤其是在運行在PC 上的助手的情況下。未來的助手可能會類似Moemate,結合屏幕理解和文本生成模型,從而提高工作效率。Moemate 給我們展示了未來的一瞥,儘管還有很多問題,但仍然引人入勝。