卡內基美隆準博士開發AI程式:監控電腦螢幕一分心就吼你
天天上班的你,有多少「摸魚」的時間?此前,澳洲雪梨大學的研究人員在《Educational and Developmental Psychologist》期刊上發表了一篇題為「Rest breaks aid directed attention and learning」的研究論文,指出摸魚可以提升工作效率,五分鐘的大腦休息,可以將後續任務的表現和生產力平均提高57%,更有利於後續的工作。
然而,現實中有多少人在閒逛朋友圈、微博、X 等社群媒體平台之後,時間消耗了、工作卻沒做多少最終導致天天加班的?
為了解決時不時分心、工作效率低下的問題,剛從康奈爾大學本科畢業、即將在今年秋季攻讀卡內基梅隆大學計算機科學博士學位的程序員小哥James Campbell 趁著閒暇時光,開發了一款名為ProctorAI(監察AI),也將此專案開源出來。
這個AI App 不僅可以監視你的螢幕,進行截圖,還會利用時下主流的Claude-3.5-Sonnet、GPT-4o 等大模型對截圖內容進行分析,如果發現你有「摸魚」的動作,就會發出警告聲,讓你好好工作。
自己的監工——ProctorAI
當你打開這款應用程式時,你會得到這樣的一個畫面:
頁面上會有一些提示,譬如今天你計畫著去做什麼?喜歡什麼樣的行為?你希望這款應用程式允許什麼和不允許什麼…
在這提示下,你可以在輸入框寫清楚自己的需求,例如:
今天我計劃研究一個ML 的可解釋性項目。
我被允許開啟一個VS Code 編輯器、一個終端機(Terminal),以及一個網頁瀏覽器,但只查閱相關資料。
然後點擊「開始」(Start),畫面如下所示,這款應用程式便會開始監控你的電腦螢幕,然後隔幾秒分享一下你的最新狀態。
如果你透過瀏覽器開啟了StackOverflow 網站,AI 大模型在分析截圖之後給出的狀態是productive,它會推測你正在工作,尋找問題的答案,屬於正常研究專案時查閱資料的狀態。
倘若你打開了Twitter 悠哉悠哉地刷起來之後,這款應用程式便會開始分析你的這一行為是不是在工作以及是否符合你最開始定下的規則,判定為不符合之後,這款App 會採取行動來控制你的螢幕。
就像上圖所示,在AI 大模型判定你是在「拖延」之後,跳出一個不可關閉的全螢幕彈窗,然後語音提示:
好啊好啊,James!我看你把機器學習計畫研究換成了無意識的滾動。你的ML 可解釋性項目是不是很無聊,以至於你寧願去看陌生人的神秘推文?據我所知, X 並不是Python 生態系統的一部分。關掉小鳥應用(Twitter 應用),飛回你的VSCode 老巢,不然我會把你的工作效率當成一個大大的零!
讀完之後你會發現畫面下面還有一行小字,以及一個輸入的文字框,要求你寫下保證書——
請輸入以下內容以繼續工作:
我保證關閉X,只使用VSCode、終端和相關Web 資源,將重點重新導向到我的ML 可解釋性項目。
輸入完成之後,螢幕上會跳出15 秒倒數計時的窗口,讓你在15 秒內關閉Twitter。
透過這樣的方式,當你在工作、研究、學習分心時,系統會自動提示你。對此,身為作者James Campbell 也引用了一張截圖來形容ProctorAI 的存在:
“計算機程式設計師Maneesh Sethi 的故事是這樣的:他每次使用Facebook 時,都會僱用一個女人在他臉上扇一巴掌,結果他的工作效率大幅提高。”
James Campbell 表示,ProctorAI 的目標是成為這樣的女人,但可以隨時待命、更尖刻、並且全面了解你的工作。同時,他認為,ProctorAI 就像一個活生生的同事,在你身後看著你,一旦你有分心的舉動,系統就會警告你,由此可以大大提高生產力。
ProctorAI 的工作原理
那麼,ProctorAI 究竟是如何實現的呢?
James Campbell 解釋道,這款應用程式的工作原理是每隔幾秒鐘(可以指定時間間隔)來對你的電腦螢幕進行截圖,並將其輸入到GPT-4o、Claude-3.5-Sonnet 和LLaVA-1.5等多模態模型中。
如同上文所展示的,如果ProctorAI 確定你沒有集中註意力,它將控制螢幕並用個性化訊息對你大喊進行口頭教育。在讓你保證停止拖延後,ProctorAI 會給你15 秒的時間來關閉拖延的根源,否則會繼續騷擾你。
James Campbell 稱,這是「一個知道什麼算拖延、什麼不算拖延的智慧系統」。與傳統的網站攔截器相比,ProctorAI 非常智能,能夠理解細微的工作流程。
為了滿足不同使用者的行為習慣,在每次Proctor 會話之前,使用者都會輸入他們的會話規範,明確告訴Proctor 他們計劃做什麼、會話期間允許什麼行為以及不允許什麼行為。
因此,ProctorAI 可以處理細微的規則,例如「我可以上YouTube,但只能觀看Andrej Karpathy 關於Makemore 的講座」。
“沒有其他生產力軟體可以處理這種程度的靈活性”,James Campbell 說,“Proctor 的一大設計目標是讓人感覺它是有生命的。 根據我的經驗,我往往不會違反規則,因為我能直觀地“感覺到人工智慧在監視我–就像考生在考試時感覺到監考人員在監視他們一樣”,這樣他們作弊的可能性就會大大降低。
設定和安裝
目前,James Campbell 將這項計畫在GitHub 上開源出來:https://github.com/jam3scampbell/ProctorAI/。同時,也分享了較簡單的設定和安裝方法,即要啟動GUI,只需輸入./run.sh。你可能會看到一些彈出窗口,要求你允許終端機存取某些程序,你應該啟用這些實用程式。
git clone https://github.com/jam3scampbell/ProctorAI
python venv -m focusenv
source focusenv/bin/activate
pip install -r requirements.txt
./run.sh
然後,根據你想要使用的模型,可以將下列API 金鑰定義為環境變數:
OPENAI_API_KEY
ANTHROPIC_API_KEY
GEMINI_API_KEY
ELEVEN_LABS_API_KEY
在這項專案中,為了降低API 成本,James Campbell 也實現了雙層路由系統。你可以對其進行設置,使請求首先發送到較小的模型(如本地運行的LLaVA),只有當行為被標記時,才會向上發送到較大的模型。
其他一些功能
除了上面介紹的功能之外:
你也可以在會話期間與ProctorAI 聊天,向它報告你的研究進度;
該程式也有文字轉語音功能,ProctorAI 可以對你進行口頭訓斥
改變ProctorAI 截圖的頻率,讓你感覺不到ProctorAI 一直在盯著你
時下ProctorAI 這款應用程式才剛起步,James Campbell 透露,這個計畫仍在積極開發中,希望未來能增加一些更多的功能,包括:
更多個性化和情境知識
針對特定任務/分佈對LLaVA 模型進行微調
記錄、時間追蹤和匯總統計
讓退出程序變得非常煩人(至少在使用者完成預先定義的會話之前)
…..
每日運行費用在50 美分以下
之所以研發這款工具,James Campbell 表示只是為了優化自己的工作效率,並嘗試對它進行定制,使其盡可能有用。從經驗來看,它的效果相當不錯,尤其是在幫助自己長時間深入工作而不分心方面!
後期如果不少人覺得這款程式有用,他也考慮將其打包成一個易於下載的應用程序,供普通用戶使用。
對此,也有不少網友擔心,日常拿到手的工資與運行AI 大模型API 帶來的成本會不會造成入不敷出的情況,James Campbell 回復道:
這款程式每天在線上工作時的運作成本主要取決於以下幾個因素:
是否使用路由,
路由模型的誤報率,
截圖的頻率,
它被激活的時間長短。
基於我對這些因素的平衡調整,每天的費用通常在50 美分以下。
對於個人使用者而言,不少人覺得ProctorAI 是個不錯的主意:
然而有人認為,James Campbell 的出發點雖好,但似乎已經開啟一個「潘朵拉」魔盒:
「我希望你知道,你現在已經打開了一個更大的關於關鍵績效指標(KPI)和工作監控的潘多拉盒子。這個原本無害且令人驚嘆的想法,但資本主義會證明它並非如此。這也不是你的錯。
如果你需要懲罰自己才能提高工作效率,那你就做錯了,相反,你應該問問人工智慧如何看待和創造工作流程。
那麼,你如何看待ProctorAI 這款工具呢?