DARPA欲借SocialCyber項目摸底開源代碼的可信度

經歷數十年的發展，以Linux 為代表的的開源軟件，已經在人們的日常工作和生活中做到“潤物細無聲”。現實是，開源代碼幾乎有在地球上的每一台計算機上運行。但與此同時，美國國防部高級研究計劃局（DARPA）也對其可信程度產生了一絲顧慮。

毫不誇張地說，當今世界重度依賴於Linux 內核—— 即便大多數人從未聽說過它。

作為大多數計算機啟動時最先加載的程序之一，它使得運行機器的硬件能夠與軟件交互、控制資源調用、並充當操作系統的基礎。
同時它也是幾乎所有云計算、超算、物聯網、以及數十億智能機的核心構建塊。

然而內核的開源，也意味著任何人都能夠參與到代碼的編寫、閱讀和使用過程中，這點讓美國軍方內部的網絡安全專家感到十分擔心。

網絡安全研究員兼前NSA 計算機安全科學家Dave Aitel 指出：

開源性質意味著Linux 內核—— 以及許多其它關鍵的開源軟件—— 以我們仍然幾乎不了解的方式，暴露於惡意的操縱之下。
作為當前社會的核心技術，不升入了解其內核的安全性，就意味著我們無法對關鍵基礎設施給予嚴格的安全防護。

現在，美國軍方研究機構DARPA 想要全面了解這些開源項目的功能代碼和社區衝突。

通過更好地了解它們面臨的風險，從而更加有效地識別惡意行為者，防止後續對至關重要的開源代碼造成破壞。

具體說來是，DARPA 設立了一個計劃長達18 個月、耗資數百萬美元的“SocialCyber”項目。

與之前的大多數研究不同，SocialCyber 結合了開源軟件代碼和社會維度的自動分析。
通過融合社會學與人工智能研究的最新技術進展，它得以繪製、理解和保護這些龐大的開源社區，及其創建的代碼。

DARPA 項目經理Sergey Bratus 表示：

從最初的集體用愛發電、到形成全球性的基礎設施，再到互聯網本身、關鍵行業和幾乎無處不在的關鍵任務系統的基礎，開源生態系統可謂是人類歷史上最偉大的創造之一。
因為它能夠節省資金、吸引人才、並讓諸多工作變得更加輕鬆，現代文明正高度依賴於不斷擴大的開源代碼庫，比如電網、航路、運輸等行業的系統。

另一方面，以Dave Aitel 為代表的專家認為，儘管開源運動催生了一個所有人依賴的龐大生態系統，但我們並不完全理解它。

其中包含了無數的軟件項目、數百萬行代碼、無數的郵件列表和論壇，以及身份和動機都不十分明確的貢獻者群體，結果使得責任很難被追究。

MIT Tech Review指出：近年來，黑客多次悄悄地將惡意代碼插入到開源項目中，這些後門可能長期逃過檢測。
在最壞的情況下，整個項目都可能移交給了濫用開源社區信任的不良行為者來接管，導致代碼、甚至社區網絡都被其所染指。
在大海撈針的情況下，即使想要追責，也全然不是僅憑普通人手就能夠實現的。

有鑑於此，Bratus 認為我們需要藉助機器學習技術來消化和理解不斷擴大的代碼領域，

除了自動漏洞發現等實用工具，還需要能夠理解開源社區的代碼編寫、修復、實施與影響。

最終目標是檢測並抵禦任何惡意活動，提交有缺陷的代碼、介入乾預、阻止開發，甚至接管整個開源項目。
為此研究人員將使用情緒分析等工具，來分析開源社區內的社交互動—— 比如Linux 內核郵件列表。
這將有助於確定誰在積極參與建設，同時誰又在消極怠工或悄悄搞破壞。

至於SocialCyber 項目的運作方式，DARPA 已同多個團隊簽訂了協議，其中不乏具有深厚技術底蘊的小型競品網絡安全研究機構。

以總部位於紐約的Margin Research 為例，其已組建一支由備受推崇的研究人員所組成的團隊。

WONGCW 網誌