分析稱19.42%的Twitter活躍賬號是虛假或垃圾郵件賬戶
2022年5月13-15日,SparkToro和Followerwonk對過去90天內活躍的44058個公共Twitter賬戶進行了嚴格的聯合分析。這些賬戶是通過機器從1.3億多個公開的、活躍的個人資料中隨機選擇的。該分析發現,19.42%符合虛假或垃圾郵件賬戶的保守定義。詳情和方法見下面的報告全文。
在過去的三年裡,SparkToro一直在運營一個名為Fake Followers的Twitter個人資料免費工具。在過去的一個月裡,許多媒體和其他好奇的各方都使用該工具來分析可能成為Twitter收購者的埃隆·馬斯克(Elon Musk)的粉絲。上週五,馬斯克發推文說他對Twitter的收購被“擱置”了,因為有人質疑Twitter的用戶中有多少是虛假或垃圾郵件賬戶。
SparkToro是一個只有三個人的小團隊,Fake Followers旨在進行非正式的免費研究(實際業務是受眾研究軟件)。然而,鑑於公眾的重大興趣,SparkToro與Twitter研究工具Followerwonk(其所有者Marc Mims是一個長期的朋友)聯手進行了嚴格的分析回答。
- 什麼是垃圾郵件或虛假Twitter賬戶?
- 多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?
- 馬斯克的粉絲中,有百分之多少是垃圾郵件、虛假或不活躍的賬戶?
- 為什麼SparkToro的方法應該被信任?
SparkToro在下文中逐一討論這些問題。
什麼是垃圾郵件或虛假Twitter帳戶?
SparkToro的定義(可能與Twitter自己的定義不同)可以最好地描述如下。
“垃圾郵件或虛假Twitter賬戶是指那些不經常有人類親自撰寫其推文內容、消費其時間線上的活動或參與Twitter生態系統的賬戶。”
這個定義下的許多“虛假”賬戶既不邪惡也沒有問題。例如,相當多的用戶發現關注@newsycombinator(它自動分享黑客新聞網站的頭版文章)或@_restaurant_bot(它推送通過Google地圖發現的隨機餐廳的照片和鏈接)這樣的機器人有價值。可以說,這些賬戶使Twitter成為一個更好的地方。他們只是沒有一個人在設備後面,親自參與到Twitter的生態系統中。
相比之下,大多數“垃圾郵件”賬戶是一種不受歡迎的滋擾。他們的活動範圍從兜售宣傳和虛假信息到那些試圖銷售產品、誘導網站點擊、推送網絡釣魚嘗試或惡意軟件、操縱股票或加密貨幣,以及(也許最糟糕的)騷擾或恐嚇平台用戶。
SparkToro的假粉絲方法(下文有詳細描述)試圖識別所有這些類型的不真實的用戶。
然而,SparkToro的系統並不試圖識別可能由人類不定期操作但有一些自動化行為的Twitter賬戶(例如,一個有多個用戶的公司賬戶,如他們自己的@SparkToro,或一個由一個人操作的社區賬戶,如Aleyda Solis的@CrawlingMondays)。他們無法知道Twitter(或馬斯克)可能會選擇如何對這些賬戶進行分類,但他們偏向於對“垃圾郵件/虛假”的相對保守的解釋。
多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?
為了得到最全面的答案,SparkToro在五個獨特的數據集上應用了一個單一的垃圾郵件/虛假賬戶分析過程(如下所述)。
以上所代表的數據集是:
1.Followerwonk隨機樣本(44058個賬戶)–Followerwonk目前有10.47億個Twitter資料索引,以連續的周期更新,需要30天左右。任何被刪除的賬戶(由用戶或Twitter)都會被刪除,不包括在統計中。根據Followerwonk的定義,其中1.3億是“近期活躍”的,即在過去9週內曾發布推文,並且是公開的,而不是“受保護”的(Twitter對私人賬戶的術語)。
Marc 寫了代碼,從Followerwonk的活躍數據庫中隨機選擇公共賬戶,並將它們傳遞給SparkToro進行分析。SparkToro團隊的Casey進一步刷新了這個名單,並通過他們的虛假粉絲垃圾郵件分析程序運行了44058個公共活躍賬戶,發現8555個賬戶的特徵與虛假/垃圾郵件賬戶高度相關。他們相信這個數據集代表了對有多少活躍的Twitter用戶可能是垃圾郵件或假的問題的最佳、單一答案。
2.虛假追隨者工具的匯總平均值(約50萬個配置文件運行,分析了1億多個賬戶)–在過去3年半的運作中,SparkToro的虛假追隨者工具已經在501532個獨特的賬戶上運行,並分析了其中每個賬戶的數千個追隨者,總計超過10億個配置文件(儘管這些並不一定獨特,而且他們沒有跟踪哪些配置文件被分析為該過程的一部分)。
這代表了他們可以獲得的最大的賬戶集,但它包括對許多老賬戶的分析,這些賬戶在過去90天內沒有發送過推文,因此,很可能不符合Twitter對mDAUs(可盈利的日活躍用戶)的定義。他們把它包括在內是為了進行比較,並表明包括簡單的隨機Twitter賬戶(與那些最近活躍的賬戶相比)的分析可能不那麼準確。
3.Twitter上@ElonMusk的所有追隨者(9340萬個賬戶)–鑑於人們對馬斯克的賬戶的獨特興趣,以及它在觸發這份報告中所發揮的核心作用,研究團隊認為包括對關注@ElonMusk的近億個賬戶的完整分析是明智的。這個數據集包括了在過去90天內沒有發過推文的舊資料(不符合Twitter的mDAUs定義)。
4.Twitter上@ElonMusk的活躍粉絲(2680萬個賬戶)–對馬斯克的Twitter粉絲進行更公平的評估,只包括在過去90天內發過推文的賬戶。為了與Followerwonk的分析方法相匹配,SparkToro團隊只選擇了那些符合這一標準的26,878,729個賬戶,並在上圖中把它們細分出來。
5.對關注@Twitter賬戶的100個用戶進行隨機抽樣(100個賬戶)–在5月13日週五的推文的後續報導中,馬斯克說,“我的團隊將對@twitter的100個關注者進行隨機抽樣;我邀請其他人重複同樣的過程,看看他們有什麼發現。”
雖然SparkToro團隊不認為這個過程是一個嚴格的、具有統計學意義的樣本集,但他們還是把它包括在內,以便進行比較。5月14日,他們從@Twitter的粉絲公共頁面中手動抽取了一個隨機賬戶樣本。為了得到偏差最小的樣本,他們只包括公共賬戶,只包括在過去90天(2022年2月12日之後)發送推文的賬戶,只包括2021年5月之前創建的賬戶,即他們已經在Twitter上呆了1年以上(許多最近的賬戶,特別是考慮到馬斯克的活動,可能使樣本產生偏差)。
6.Twitter最近的收益報告估計(賬戶數量不明)–馬斯克在最近的推文中引用了Twitter的公開收益報告,分享了<5%的mDAUs(可盈利的每日活躍用戶,在他們的2019年報告中定義)是虛假或垃圾郵件。SparkToro在圖表中加入了這一估計,以便進行比較,並指出其方法未被披露。
毫無疑問,其他研究人員將作出其他估計,希望有同樣大和嚴格的數據集。鑑於Twitter公開數據的局限性,SparkToro團隊認為最準確的估計是:在過去90天內發送過推文的公共賬戶中,有19.42%是虛假或垃圾郵件賬戶。
馬斯克的Twitter粉絲有多大比例是垃圾郵件、虛假或不活躍的?
2018年10月,SparkToro分析了當時的美國總統唐納德-特朗普在.Twitter上的所有54,788,369名追隨者。在這份報告中,SparkToro複製了這一過程,分析了馬斯克個人資料中的所有93,452,093名粉絲(截至2022年5月14日)。
當通過SparkToro的公共工具運行虛假追隨者報告時,其團隊分析了一個Twitter用戶的追隨者樣本(幾千個)。當一個賬戶有非常多的追隨者時,這種方法可能會偏離對每個追隨者的全面分析所顯示的情況。在5月14日星期六和5月15日星期日,SparkToro的Casey Henry 對馬斯克的賬戶進行了這一全面分析,以提供盡可能精確的數字。
上面是SparkToro的垃圾郵件分析系統中使用的一些因素的分類,總的來說,70.23%的@ElonMusk的粉絲不太可能是看到他的推文的真實、活躍用戶。這遠遠高於假粉絲的中位數,但並不令人驚訝,原因有幾個。
非常大的賬戶往往比其他賬戶有更多的虛假/垃圾郵件粉絲
受到大量媒體報導和公眾關注的賬戶(如美國前總統特朗普和馬斯克)往往比其他賬戶吸引更多的虛假/垃圾郵件追隨者
Twitter向新用戶推薦的賬戶(通常包括@ElonMusk)往往會獲得更多的虛假/垃圾郵件關注者。
與其他Twitter賬戶的分佈情況相比,@ElonMusk的虛假/垃圾郵件追隨者數量可能顯得不正常,但SparkToro不認為或暗示馬斯克對獲得這些可疑的追隨者負有直接責任。最有可能的解釋是上述因素的組合,而馬斯克對Twitter的積極使用、媒體對其推文的報導以及Twitter自己的推薦系統更加劇了這種情況。
SparkToro團隊也只對那些在過去90天內發過推文的2680萬@ElonMusk的粉絲進行了分析。這個過濾器與他們應用於Followerwonk數據集和@Twitter的隨機關注者的過濾器相匹配。
這種更有選擇性的分析發現23.42%的人可能是虛假或垃圾郵件賬戶,這個數字與估計的全球平均數相差不遠。
為什麼要相信SparkToro和Followerwonk的方法學?
上述分析的數據集(除了@Twitter的隨機100名粉絲,研究團隊不贊成這種方法)範圍足夠大,過程足夠嚴格,其結果可由任何具有類似公共權限的Twitter研究人員複製。研究團隊邀請任何有興趣的人在他們自己的數據集上複製在這裡使用的過程(並在下面詳細描述)。Twitter在這裡提供了關於他們的API產品的信息。
Followerwonk只從那些在過去90天內有公開推文發表的賬戶中隨機抽取樣本,這是”活動”的明確標誌。此外,Followerwonk定期更新其個人資料數據庫(每30天),以刪除任何受保護或刪除的賬戶。他們相信,這個樣本的規模足夠大,具有統計學意義,並且經過精心策劃,最接近於Twitter可能認為的可盈利的每日活躍用戶(mDAU)。
SparkToro的虛假粉絲分析認為,如果一個賬戶觸發了SparkToro在他們的虛假粉絲工具中顯示的許多信號,那麼它就是虛假的。
SparkToro識別虛假賬戶的模型來自於對數万個已知的垃圾(和真實)Twitter賬戶進行的機器學習過程。以下是SparkToro如何建立這個模型的。
2018年7月,SparkToro團隊從3個不同的垃圾郵件和機器人賬戶供應商那裡購買了3.5萬個虛假Twitter粉絲賬戶。他們的供應商讓這些賬戶關註一個空的Twitter賬戶,該賬戶創建於2016年,在2018年7月有0個粉絲。花了~3週的時間來交付這35,000名粉絲。在接下來的3周里,他們每天都會收集這些虛假/垃圾賬戶的數據。
除了這35000個已知的垃圾郵件賬戶,團隊又從SparkToro的大型檔案索引中隨機抽取了50,000個非垃圾郵件賬戶。這給了我們總共85,000個賬戶,在亞馬遜網絡服務上通過機器學習程序運行。
這85,000個賬戶被分成兩組,其中混合了垃圾郵件和非垃圾郵件賬戶。A組作為訓練集,B組作為測試集,以分析模型的性能。
以下數據被用於初始模型的生成:
- 資料圖片
- 簡介URL
- 已驗證的賬戶狀態
- 語言
- Twitter語言
- 帳戶年齡(天數)
- 個人簡介的長度
- 追隨者的數量
- 他們關注的賬戶數量
- 距離上次發推的天數
- 推文的數量
- 帳戶出現在名單上的次數
- 地點
- 顯示名稱
在找到符合數據的模型後,SparkToro團隊分析了結果,以確定與垃圾郵件密切相關的特徵。不出所料,沒有一個特徵與垃圾郵件有1:1的相關性。但是,很多特徵在組合使用時顯示出前景。以下是與垃圾郵件賬戶相關的特徵的例子。
- 資料圖片- 缺乏這些資料的賬戶往往是垃圾郵件。
- 賬號年齡(天數)–某些模式顯然與垃圾郵件有關(例如,當一天內創建的大量賬號關注特定的賬號或發送幾乎相同的推文)。
- 追隨者的數量- 垃圾郵件賬戶往往只有很少的追隨者
- 自上一條推文以來的天數–許多垃圾郵件賬戶很少發推文,而且是以協調的方式發推文
- 帳戶出現在名單上的次數- 垃圾郵件帳戶幾乎從不出現在名單上
- 顯示名稱- 某些關鍵詞和模式與垃圾郵件密切相關
然而,這些並不是唯一的,其他與垃圾郵件有適當相關性的信號(特別是當多個信號適用於一個賬戶時)也有助於建立一個有效的模型。通過試驗和錯誤(當然還有模式擬合),他們精心設計了一個評分系統,可以正確識別超過65%的垃圾郵件賬戶。他們故意偏向於遺漏一些虛假/垃圾郵件賬戶,而不是意外地將任何真正的賬戶標記為錯誤的。
關鍵是要記住,沒有一個因素能告訴他們一個賬戶是垃圾郵件!這一點很關鍵。觸發的垃圾郵件信號越多,一個賬戶就越有可能是垃圾郵件。我們的虛假追隨者係統要求在將一個賬戶評為”低質量”或虛假之前,至少要有17個垃圾郵件信號中的一小部分,有時甚至多達10多個(取決於哪些信號,以及它們的預測性)。
這種方法可能低估了垃圾郵件和虛假賬戶的數量,但幾乎不包括假陽性(即聲稱一個賬戶是假的,但其實不是)。
對Followerwonk提供的約4.4萬個隨機的、最近活躍的賬戶應用這一模型,可以得出每個賬戶的質量分數,如下圖所示。
一個賬戶觸發的垃圾郵件相關標誌越多,其在該系統中的質量得分就越低。Sparktoro的保守方法意味著我們只將3、2和1的分數視為虛假/垃圾郵件賬戶,而這三個的組合產生了他們的最終估計,最好的說明是:19.42%的最近活躍的公共Twitter資料極有可能是虛假或垃圾郵件。