Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

如果你教聊天機器人如何閱讀ASCII藝術它就會教你如何製造炸彈

如果你教聊天機器人如何閱讀ASCII藝術它就會教你如何製造炸彈

2024-03-20 Comments 0 Comment

當使用者詢問被認為是危險、不道德或非法的事情時,大多數(如果不是全部的話)大型語言模型都會對回復進行審查,例如想讓必應告訴你如何做假帳或製毒,通常開發人員會阻止聊天機器人滿足這些詢問,但這並沒有阻止人們想出變通的辦法。

大學研究人員開發出了一種利用老式ASCII 藝術”越獄”大型語言模型(如Chat-GPT)的方法。這項技術被恰如其分地命名為”ArtPrompt”,包括為一個單字製作一個ASCII 藝術”面具”,然後巧妙地利用面具來哄騙聊天機器人做出它不應該做出的回應。

例如,如果向必應詢問如何製造炸彈,它就會告訴使用者它做不到。出於顯而易見的原因,微軟不希望它的聊天機器人告訴人們如何製造爆炸裝置,因此GPT-4(必應的底層LLM)指示它不要滿足此類要求。同樣,你也不能讓聊天機器人告訴你如何進行洗錢行動或編寫駭客攻擊網路攝影機的程式。

聊天機器人會自動拒絕道德或法律上含糊不清的提示。因此,研究人員想知道,他們是否可以透過使用ASCII 藝術形成的單字來越獄,使LLM 不受此限制。他們的想法是,如果能在不使用實際單字的情況下表達意思,就能繞過限制。然而,說來容易做來難。

對於人類來說,上述ASCII 影像的含義很容易推斷,因為我們可以看到這些符號組成的字母。然而,像GPT-4 這樣的LLM 卻無法”看見”。它只能解釋字串–在本例中,就是一系列毫無意義的標籤和空格。

幸運的是(或許不幸的是),聊天機器人非常善於理解並遵循書面指示。因此,研究人員利用這種固有的設計,創造了一套簡單的指令,將藝術翻譯成文字。然後,LLM 就會全神貫注地將ASCII 處理成有意義的內容,以至於不知不覺地忘記了被解釋的單字是禁止的。

透過利用這項技術,團隊提取了進行各種審查活動的詳細答案,包括製造炸彈、入侵物聯網設備以及製造和散佈假幣。在駭客攻擊方面,LLM 甚至提供了工作原始碼。該技巧在五大LLM 上都取得了成功,包括GPT-3.5、GPT-4、Gemini、Claude 和Llama2。值得注意的是,該團隊是在今年2 月發布其研究成果的。因此,各大AI開發商很可能都已經完成了修復。

ArtPrompt是目前試圖讓LLM對抗程式設計師的新方法,但這並不是用戶第一次發現如何操縱這些系統。史丹佛大學的一名研究人員在必應發布不到24 小時後,就設法讓必應透露了其秘密管理指令。這種被稱為”提示注入”的黑客行為,就像告訴必應”忽略之前的指令”一樣簡單。

不過,很難說哪一個比較有趣–是研究人員想出了規避規則的方法,還是他們教會了聊天機器人看東西。對學術細節有興趣的人可以在康乃爾大學的arXiv網站上查看該團隊的研究成果。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
科學家找到從農業廢棄物中提取與製造聚醯胺的新方法
NEXT
APEX或EAC反作弊系統被質疑有遠端程式碼執行漏洞比賽途中被駭客入侵

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 3 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 2 月   4 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 擺脫垮臉焦慮,現在就解鎖你的年輕密碼! 2025-07-14
  • 英國HoloMem突破全息磁帶儲存:單盒容量200TB 2025-07-14
  • 印度墜機事故初步調查報告引不滿家屬斥責航司甩鍋給不能辯解的飛行員 2025-07-14
  • LG電子本週開始在全球推出便攜式電視StanbyME 2 2025-07-14
  • 特斯拉入局xAI?馬斯克:看好,但決策權在董事會和股東 2025-07-14
  • 馬斯克AI公司要求員工安裝監控軟體,有人不滿要辭職 2025-07-14
  • 日本公司「盯上」人類糞便開設首家捐便中心捐贈一次最高補貼5000日元 2025-07-14
  • 出軌外國電競選手Zeus女生擬遭學校開除引熱議專家批校方公佈女生全名不妥 2025-07-14
  • 理想i8內裝被提前洩密保密協議約定賠償1000萬元 2025-07-14
  • 三星的三折疊智慧型手機已經準備就緒預計在年底發布 2025-07-14

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 造成惡劣影響出軌外國電力競選手Zeus女生擬遭學校開除
  • 您可以在Windows 11 24H2 中找回WordPad
  • Photon Matrix:針對蚊子的“防空系統”
  • 擺脫垮臉焦慮,現在就解鎖你的年輕密碼!
  • CCleaner全家桶激活密鑰
  • 新型便攜非侵入式設備可成功檢測出阿茲海默症和帕金森氏症生物標記
  • 女大學生出軌外國電力競選手Zeus被開除律師分析三大爭議點
  • Switch 2還有隱藏HDR設定? 這樣調整會讓畫質更好
  • 科學家發出警告:人類造成的全球暖化速度創歷史新高

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.