AI讀心術再升級一副眼鏡直接控制波士頓機器狗
近日,來自麻省理工的研究團隊發表了Ddog項目,只需一幅眼鏡就可以控制四足機器人,幫助特殊人群重獲希望還記得之前的AI讀心術嗎?最近,「心想事成」的能力再次進化,——人類可以透過自己的想法直接控制機器人了!
來自麻省理工的研究人員發表了Ddog項目,透過自己開發的腦機介面(BCI)設備,控制波士頓動力的機器狗Spot。
狗狗可以依照人類的想法,移動到特定區域、幫人拿東西、或拍照等。
而且,相較於之前需要使用佈滿了感測器的頭套才能“讀心”,本次的腦機介面設備以一幅無線眼鏡(AttentivU)的形式出現!
影片中所展示的行為也許比較簡單,但這個系統的目的是將Spot改造為能夠為患有肌萎縮側索硬化症(ALS)、腦性麻痺或脊髓損傷等疾病的人士提供基本溝通工具。
整個系統的運作只需要兩部iPhone和一副眼鏡,卻能給這些已經對生活失去希望的人帶去實際的幫助和關懷。
並且,我們將在相關的論文中看到,這個系統實際上是建立在非常複雜的工程之上。
論文網址:https://doi.org/10.3390/s24010080
Ddog系統使用AttentivU作為腦機介面系統,感測器嵌入到鏡框中,用來測量一個人的腦電圖(EEG) 或大腦活動,以及眼電圖或眼球運動。
這項研究的基礎是MIT的Brain Switch,一種即時的閉環BCI,允許用戶與照顧者進行非語言和即時的交流。
Ddog系統成功率為83.4%,並且,這是在個人助理用例中首次將無線、非視覺BCI系統與Spot整合。
影片中我們可以看到腦際介面設備的進化之路,以及開發者的一些思考。
在此之前,研究團隊就已經完成了腦機介面與智慧家庭的交互,而現在完成了控制能夠移動和操作的機器人。
這些研究給了特殊人群一絲光明,讓他們有活下去的希望,甚至未來可以過得更好。
相較於章魚一樣的感應器頭套,下面這個眼鏡確實酷多了。
根據美國國家罕見疾病組織的數據,目前美國有30,000名ALS患者,且估計每年診斷出5,000例新病例。此外,根據《腦性麻痺指南》,大約有100萬美國人患有腦性麻痺。
這些人中的許多人已經或最終將失去走路、穿衣、說話、寫作甚至呼吸的能力。
雖然確實存在通訊輔助工具,但大多數是允許使用者使用電腦進行通訊的眼睛凝視設備。允許使用者與周圍世界互動的系統並不多。
這種BCI四足機器人系統作為一個早期的原型,為現代個人助理機器人的未來發展鋪平了道路。
希望在未來的迭代中,我們能看到更驚人的能力。
腦控四足機器人
在這項工作中,研究人員探索了無線和穿戴式BCI設備如何控制四足機器人—波士頓動力公司的Spot。
研究人員開發的設備透過嵌入眼鏡架中的電極來測量使用者的腦電圖(EEG)和眼電圖(EOG)活動。
使用者在心中回答一系列問題(「是」或「否」),每個問答都對應一組預置的Spot操作。
例如提示Spot穿過一個房間,拿起一個物件(如一瓶水),然後為使用者取回它。
機器人與BCI
時至今日,腦電圖仍然是最實用且最適用的非侵入性腦機介面方法之一。
BCI系統可以使用內源性(自發性)或外源性(誘發)訊號進行控制。
在外源性腦機介面中,當一個人注意到外部刺激(如視覺或聽覺線索)時,就會出現誘發訊號。
這種方法的優點包括極簡的訓練以及高達60位元/分鐘的高位元率,但這需要使用者始終關注刺激,從而限制了其在現實生活中的適用性。而且,使用者在使用外源性BCI時會很快感到疲倦。
在內源性腦機介面中,控制訊號獨立於任何外部刺激產生,可以由使用者按需完全執行。對於那些有感覺障礙的使用者來說,這提供了一種更自然和直觀的互動方式,使用者可以自發性地向系統發出命令。
不過這種方法通常需要更長的訓練時間,而且比特率較低。
使用腦機介面的機器人應用通常適用於需要幫助的人群,它們通常包括輪椅和外骨骼。
下圖展示了截至2023年腦機介面和機器人技術的最新進展。
四足機器人通常用於在複雜的工作環境或國防應用中為使用者提供支援。
最著名的四足機器人之一是波士頓動力公司的Spot,它可以攜帶高達15公斤的有效載荷,並迭代繪製隧道等維護站點的地圖。房地產和採礦業也採用Spot等四足機器人,幫助監控具有複雜物流的工作現場。
本文使用移動BCI解決方案控制的Spot機器人,並基於心算任務,整體架構命名為Ddog。
Ddog架構
下圖展示了Ddog的整體結構:
Ddog是一個自主應用程序,用戶能夠透過BCI的輸入控制Spot機器人,而應用程式使用語音向用戶及其護理人員提供回饋。
該系統設計為完全離線或完全在線工作。線上版本具有一組更高級的機器學習模型,以及更好的微調模型,對於本地設備也更省電。
整個系統為真實場景而設計,並允許對大多數零件進行快速迭代。
在客戶端,用戶透過行動應用程式與腦機介面裝置(AttentivU)進行交互,該應用程式使用低功耗藍牙(BLE)協定與裝置進行通訊。
用戶的行動裝置與另一部控制Spot機器人的手機進行通信,以實現代理、操縱、導航,最終為用戶提供協助。
手機之間的通訊可以透過Wi-Fi或行動網路。負責控制的手機建立一個Wi-Fi熱點,Ddog和用戶的手機都連接到這個熱點。使用線上模式時,還可以連接到雲端上運行的模型。
服務端
伺服器端使用Kubernetes(K8S)集群,每個集群都部署在自己的Virtual Private Cloud(VPC)中。
雲端在專用VPC內工作,通常部署在更靠近最終用戶的相同可用區中,使每個服務的回應延遲最小化。
叢集中的每個容器都設計為單一用途(微服務架構),每個服務都是一個正在運行的AI模型,它們的任務包括:導航、映射、電腦視覺、操縱、定位和代理。
映射:從不同來源收集有關機器人周圍環境資訊的服務。它會對應靜態的不可移動資料(一棵樹、一棟建築物、一面牆),但也收集隨時間變化的動態資料(一輛車、一個人)。
導航:基於先前服務中收集和擴充的地圖數據,導航服務負責在空間和時間上建立A點和B點之間的路徑。它還負責建立替代路線,以及估計所需的時間。
電腦視覺:從機器人攝影機收集視覺數據,並利用手機的數據增強,產生空間和時間表示。此服務還嘗試分割每個視覺點並識別物件。
雲負責訓練與BCI相關的模型,包括腦電圖(EEG)、眼電圖(EOG)和慣性測量單元(IMU)。
部署在手機上的離線模型運行資料收集和聚合,同時也使用TensorFlow的行動端模型(針對較小的RAM和基於ARM的CPU進行了最佳化)進行即時推理。
視覺和操作
用於部署分割模型的原始版本是利用LIDAR資料的單一TensorFlow 3D模型。之後,作者將其擴展到少樣本模型,並透過運行神經輻射場(NeRF)和RGBD資料的補充模型進行增強。
Ddog收集的原始數據是從五個攝影機匯總而來的。每個攝影機都可以提供灰階、魚眼、深度和紅外線數據。手臂的夾持器內部還有第六個鏡頭,具有4K解析度和LED功能,配合預先訓練的TensorFlow模型偵測物件。
點雲由雷射雷達數據以及由Ddog和手機的RGBD數據產生。資料收集完成後,透過單一座標系進行歸一化處理,並與匯集了所有成像和3D定位資料的全局狀態相符。
操作完全取決於安裝在Ddog 上的機械手臂夾持器的質量,下圖的夾具由波士頓動力公司製造。
實驗中將用例限制在與預定義位置中的物件進行基本互動。
作者繪製了一個大的實驗室空間,將其設置為一個“公寓”,其中包含“廚房”區域(有一個裝有不同杯子和瓶子的托盤)、“客廳”區域(帶枕頭的小沙發和小咖啡桌), 和“窗口休息室”區域。
用例的數量不斷增長,因此覆蓋大多數用例的唯一方法是部署一個系統以連續運行一段時間,並使用資料來優化此類序列和體驗。
AttentivU
腦電圖數據是從AttentivU設備收集的。 AttentivU眼鏡的電極由天然銀製成,根據國際10-20電極放置系統,位於TP9和TP10位置。眼鏡還包括位於鼻託的兩個EOG電極和一個位於Fpz位置的EEG參考電極。
這些感測器可以提供所需的信息,並在需要時支援即時、閉環的干預。
設備具有EEG和EOG兩種模式,可用於即時捕捉注意力、參與度、疲勞和認知負荷的訊號。 EEG已被用作清醒和睡眠之間過渡的神經生理學指標,
而EOG是基於測量眼球運動過程中由於角膜-視網膜偶極子特性而誘導的生物電訊號。研究表明,眼球運動與執行某些任務所需的記憶訪問類型相關,並且是視覺參與、注意力和嗜睡的良好衡量標準。
實驗
首先將腦電圖資料分成幾個視窗。將每個視窗定義為1秒長的EEG資料持續時間,與前一個視窗有75%的重疊。
然後是資料預處理和清理。使用50 Hz陷波濾波器和通帶為0.5 Hz至40 Hz的帶通濾波器的組合對資料進行濾波,以確保消除電力線雜訊和不必要的高頻。
接下來,作者創建了偽影拒絕演算法。如果兩個連續epoch之間的絕對功率差大於預先定義的閾值,則拒絕某個epoch。
在分類的最後一步,作者混合使用不同的光譜波段功率比來追蹤每個受試者基於任務的心理活動。對於MA,該比率為(alpha/delta)。對於WA,該比值為(delta/low beta),對於ME,該比值為(delta/alpha)。
然後,使用變化點檢測演算法來追蹤這些比率的變化。這些比率的突然增加或減少表明使用者精神狀態發生了變化。
對於患有ALS的受試者,本文的模型在MA任務中達到了73%的準確率,在WA任務中達到了74%的準確率,在ME任務中達到了60%的準確率。
參考資料: