研究發現GitHub專案上超過310萬顆假”星”被用來提高排名
GitHub 存在一個問題,那就是不真實的”星星”被用來人為提高詐騙軟體和惡意軟體分發軟體倉庫的受歡迎程度,使其看起來更受歡迎,從而幫助它們接觸到更多毫無戒心的用戶。
“星星”類似社群媒體網站上的”讚”按鈕,讓GitHub 使用者收藏某個軟體來源。 GitHub 將星星作為全球排名系統的一部分,並向你展示它認為你可能喜歡的相關內容。
“你可以為倉庫和主題加星,以便在GitHub 上發現類似的專案。” GitHub解釋。
擁有408,000 個星的頂級倉庫
這個問題以前就有記錄,例如去年夏天,Check Point 揭露了一個名為” Stargazers Ghost Network “的惡意軟體交付服務,該服務利用一個由不真實用戶組成的廣泛網絡,在虛假項目上加星,以推送竊取資訊的惡意軟體。
非惡意專案也會利用假明星來提升人氣、擴大影響範圍,並吸引合法用戶的注意、真正的明星和採用。Socket、卡內基美隆大學和北卡羅來納州立大學的研究人員進行了一項新的研究,發現GitHub 上有450 萬顆星被懷疑是假的,這讓我們對問題的規模有了更清楚的認識。
GitHub的星級服務列表
尋找假星
研究人員開發並使用了一種名為”StarScout”的工具,對來自”GHArchive”的20TB 資料進行分析,以找出不真實的星星。
GHArchive 包含2019 年7 月至2024 年10 月期間超過60 億次GitHub 事件的元數據,其中包括3.1 億個版本庫和6.1 億顆星上的6050 萬次用戶操作。
StarScout 能偵測出在GitHub 上活動極少的用戶(如在單一版本庫上加星)、具有殭屍或臨時帳號活動模式的用戶,以及協調行動的帳號群組(如在短時間內加星相同的版本庫)。
他們的方法基於CopyCatch 演算法,該演算法旨在檢測社交網路中的詐欺模式。
StarScout 資料處理概覽
450 萬顆星星被懷疑是假的
在應用低活躍度和鎖定簽名演算法處理資料以識別各資源庫中的可疑明星後,研究小組在22915 個資源庫中發現了由132,0000 個帳戶提供的453,000 個疑似不真實的明星。
為了提高對這些明星真實性的可信度,研究人員只考慮了單月明星活動出現明顯異常峰值,且假星比例高於明星總數10%的資源庫,從而過濾掉了潛在的誤報。
這樣,結果就減少到15835 個素材庫的278,000 個帳號提供的310,0000 顆假星。
聚類行為等虛假模式的識別
截至2024年10月,其中約91%的資源庫和62%的疑似不真實帳號已被刪除,證明了StarScout工具的準確性。
研究也顯示,假冒明星的活動在2024 年激增,在2024 年7 月擁有超過50 個明星的資源庫中,約有15.8%參與了這些惡意活動。
研究人員報告了StarScout 在2024 年7 月發現的不真實軟體來源和帳戶,GitHub 將其全部刪除。 不過,他們仍在評估和報告2024 年11 月發現的其他群集。
偽造星級資源庫(已刪除和存在)的詞雲
偽造星級對GitHub 及其用戶的影響是多方面的,但總的來說,這個問題會削弱人們對該平台及其上託管的各種軟體專案的信任。
使用者應拋開星級,評估版本庫的活動和質量,閱讀文檔,檢查內容和貢獻,並儘可能審查程式碼。
欺騙性的GitHub 儲存庫比比皆是,該平台甚至被利用於國家支持的行動,因此在從該平台下載軟體時一定要謹慎。