人民的AI為人民:印度公司反擊剝削為貧困數據工人“分紅”
數據工作者在建設人工智能大語言模型的語料庫方面發揮著關鍵作用,但他們的勞動卻常常得不到公平對待,而這種不公平現像在全球數據產業並不罕見。面對這一現狀,印度初創企業Karya試圖找到一種切實可行的新模式——提高工資標準,並讓工人獲得數據版權帶來的“分紅”。
Karya公司的首席執行官曼努·喬普拉(Manu Chopra)表示,Karya公司的願景是通過數據工作幫助印度農民擺脫貧困。他認為,合理的報酬不僅提高了數據質量,也能夠幫助社會邊緣群體,讓更多人受益於人工智能技術的發展,美國《時代》雜誌7月27日發表封面文章“人民的AI為人民”,對Karya公司的故事進行了報導,並表示儘管Karya目前在擴展規模和維持願景上仍存挑戰,但這一實踐為數據產業提供了新的可能性和借鑒。
《時代》最新一期封面文章“人民的AI為人民”,關注印度初創公司探索讓數據工人享受AI紅利。
人工智能背後的工人
印度南部卡納塔克邦的阿拉哈利村,在一棵椰子樹的陰影下,錢德里卡(Chandrika)一邊滑動屏幕,一邊連續點擊幾個音頻進行剪輯,每次輕觸,她用母語說話的聲音就從手機里傳出。
在使用這個應用之前,30歲的錢德里卡的銀行賬戶中只有184盧比(2.25美元)。但是在4月下旬的連續幾天,她只需工作約6個小時,就收到了2570盧比(31.30美元)的報酬。這個數額大致相當於她在一所離家很遠的學校擔任教師,抵扣通勤的三趟公交車費用之後一個月的收入。
與錢德里卡的日常工作不同,這個應用程序不會讓她等到月底才能收到款項,幾個小時後錢就會進她的銀行賬戶。僅僅通過用母語卡納達語朗讀文本——這種語言主要由分佈在印度中部和南部的6000萬人使用,她就用這款應用賺到了每小時大約5美元的工資,幾乎是印度最低工資的20倍。而且,幾天后,她還會收到更多的錢——只要音頻剪輯被驗證為準確,她就會得到50%的獎金。
正是因為AI的蓬勃發展,錢德里卡的語音才能換來這麼高的收益。目前,像ChatGPT這樣的先進AI工具在英語等語言中表現最佳,因為這些語言的文本和音頻數據在網絡上非常豐富。然而,對於卡納達語這樣的語言來說,情況就差得多,儘管這種語言被千萬人使用,但在互聯網上卻很少見,例如,維基百科上有600萬篇英文文章,但只有3萬篇卡納達語文章。在這些“資源較少”的語言中,人工智能即使能夠運行,也可能存在偏見——比如經常認為醫生是男性,護士是女性,並且可能難以理解當地的方言。要創建一個有效的英語人工智能,只需從已經積累的數據中收集就足夠了。但對於像卡納達語這樣的語言,需要尋找更多的數據。
這就導致了,對以一些世界上最貧困人民所使用的語言為基礎的數據集的巨大需求。需求的一部分來自尋求構建AI工具的科技公司,另一大部分來自學術界和政府,特別是在擁有14億人口、22種官方語言和至少780種土著語言的印度,英語和印地語長期以來佔據著重要地位。這種需求的上升意味著數以億計的印度人突然掌握了一種稀缺且有價值的資產:他們的母語。
數據工作在印度並非新事物。20世紀末,印度在將呼叫中心和服裝工廠轉變為生產力引擎方面作出了巨大貢獻,並在21世紀默默地將同樣的事情應用於數據工作。和之前一樣,這個行業再次被一些中間公司所主導,他們支付接近法定最低工資的工資,同時以高額利潤向外國客戶出售數據。預計到2030年,全球價值超過20億美元的AI數據行業將增至170億美元。然而,這些錢很少流向印度、肯尼亞和菲律賓的數據工作者。
創造一個更公平的模式
在阿拉哈利和奇盧卡瓦迪相鄰的村莊,Karya公司正在測試一種新模式。錢德里卡就在Karya公司工作,該公司成立於2021年,總部位於班加羅爾,自稱為“世界上第一個道德數據公司”。與競爭對手一樣,它以市場價向大型科技公司和其他客戶出售數據。但Karya沒有把大部分收入留作利潤,而是用來支付成本,剩下的部分則用於幫助印度農村的貧困人群。Karya與當地非政府組織合作,確保最貧困的人群以及歷史上被邊緣化的社區首先獲得就業機會。除了每小時5美元的最低工資,Karya還讓工人在工作中實際擁有所創造數據的所有權,因此每當數據再次銷售時,工人們除了過去的工資外還將獲得收益。這是行業內其他地方都沒有的模式。
“現有的工資體係是市場的失敗。”27歲的Karya首席執行官喬普拉告訴《時代》,“我們決定成為一家非營利組織,因為從根本上說,你無法在市場中解決市場的失敗。”
Karya告訴工人:這不是一份長久的工作,而是一種快速增加收入的方式,讓你能夠繼續做其他事情。工人通過該應用程序可以獲得的最高收入為1500美元,大致相當於印度的年平均收入。Karya表示,已向全國范圍內約3萬名印度農村居民支付了6500萬盧比(近80萬美元)的工資。到2030年,喬普拉希望能夠觸及1億人口。“如果做得好,我真誠地認為這是數百萬人迅速擺脫貧困的最快途徑。”他說。喬普拉出生於貧困家庭,曾因為獲得斯坦福獎學金改變人生軌跡,“這絕對是一個社會項目。財富就是力量。我們希望將財富重新分配給那些被遺落的社區。”
喬普拉不是第一個發現人工智能數據工作能幫助世界最貧困人口,並對其潛力贊不絕口的科技公司創始人。Sama是一家外包公司,曾經負責過OpenAI的ChatGPT和Meta的Facebook的數據處理合同,它也把自己宣傳為科技公司幫助全球人民擺脫貧困的一種“道德”方式。但是根據此前的報導,為ChatGPT工作的肯尼亞工人表示,他們接觸到的訓練數據讓他們受到創傷,而其中一些人每小時收入不到2美元。Sama還為Facebook進行類似的內容審查工作,其中一名參與該項目的工作者說,他在為改善工作條件發起運動時被解僱。Sama公司的創始人在2018年被BBC(英國廣播公司)問及低工資問題時辯稱,支付更高的工資可能會破壞當地經濟,弊大於利。很多數據工作者不滿Sama公司這種說法,他們認為這只是靠數據工作者賺取大筆利潤的公司的一種方便的藉口。
第一次聽說Karya時,《時代》記者立刻產生了懷疑。Sama也是作為一個專注於消除貧困的非營利組織開始的,但後來轉型為營利性企業。Karya真的能成為一個更包容和道德的人工智能行業模式嗎?即使可以,它能擴展嗎?有一點是清楚的:在這些問題上,印度可能是最好的試驗場所。印度是移動數據價格最便宜的國家之一,即使是貧困的農民也常常擁有智能手機和銀行賬戶。還有潛在的好處:根據世界銀行的數據,即使在疫情之前,印度約有1.4億人每天生活費不到2.15美元。對於那些人來說,喬普拉所說的巨額現金注入可能會改變他們的生活。
數據質量和生活收入的“雙贏”
在距離繁忙的科技大都市班加羅爾70英里的地方,在奇魯卡瓦迪村一座低矮的混凝土建築內,當地農業合作社的總部聚集了十幾名男女,他們都是在過去一周內開始為Karya工作的人。
瘦弱的21歲年輕人卡納卡拉傑(Kanakaraj)在附近的一所大學學習,為了支付書本和交通費用,偶爾在周圍的田地裡做臨時工。一天的工作可以賺到350盧比(約4美元),但由於氣候變化,當地的夏季比往常更加炎熱,這種體力勞動變得更加難以忍受。在附近城市的工廠工作可以帶來稍微高一點的工資,但意味著每天乘坐不可靠和價格昂貴的公交車上下班,離開他習慣的生活環境,住在城市的宿舍裡。
在Karya,卡納卡拉傑一個小時的收入比他在田裡一天的收入還要多。“工作很好。”他說,“而且很輕鬆。”喬普拉說,這是村民的典型說法。“他們很高興我們支付給他們很多錢。”他說,但更重要的是,“這不是辛苦的工作。這不是體力勞動。”當卡納卡拉傑看到第一筆工資進入銀行賬戶時,他感到很驚訝。“我們被騙了很多錢。”他向記者解釋,村民常常收到利用他們絕望心理的短信,承諾將他們的存款增加10倍。當有人第一次告訴他Karya時,他以為這是一個類似的騙局。
由於儲蓄很少,當地人經常不得不貸款支付緊急費用。這些掠奪性機構往往對這些貸款收取高利率,導致一些村民陷入債務循環。例如,錢德里卡利用她在Karya的工資幫助家人償還一筆巨額醫療貸款,這筆貸款是她25歲的妹妹治病時產生的。其他Karya工人也面臨類似的情況。25歲的阿賈伊·庫馬爾(Ajay Kumar)陷入了為治療母親嚴重背部傷病而產生的醫療債務中。38歲的希瓦納(Shivanna N.)在小時候因燃放鞭炮而失去了右手。儘管他沒有債務,但殘疾意味著他很難謀生。
Karya的工人、38歲的Shivanna N在8歲時因意外失去了右手。
這些村民正在參與Karya在卡納塔克邦推出的一個新項目,該項目是為一家印度醫療非政府組織進行的,該組織正在尋求關於結核病的語音數據,結核病每年導致約20萬印度人死亡。這些語音錄音,收集了卡納達語的10種不同方言,將幫助訓練一個人工智能語音模型,以理解當地人的肺結核問題,並回答旨在減少疾病傳播的信息。當這個應用完成時,它希望能夠讓不識字的人更容易獲得可靠的信息,而不用讓肺結核患者尋求幫助時承擔經常遭受的污名。這些錄音還將作為卡納達語數據集的一部分,在Karya的平台上轉售給許多AI公司。這些公司對訓練數據的內容不太在意,而是更關注它對語言整體結構的編碼。每次轉售,100%的收入都將分配給參與數據集的Karya工人,並按照他們投入的時間比例分配。
19歲的Madhurashree說,她在Karya的工作幫助她了解了結核病的症狀和預防措施。
雖然規模較小,但Karya已經擁有一系列知名客戶,包括微軟公司、麻省理工學院和斯坦福大學。今年2月,該公司為比爾與梅琳達·蓋茨基金會開展了一個新項目,旨在為10億印度人口使用的5種語言(馬拉地語、泰盧固語、印地語、孟加拉語和馬拉雅拉姆語)構建語音數據集,最終目標是建立一個可以用母語和方言回答印度農民關於醫療保健、農業、衛生、銀行和職業發展等問題的聊天機器人。這項技術可以被視為致力於消除貧困的ChatGPT,有助於傳播改善印度人生活質量的知識。
“我認為應該有一個世界,語言不再是使用技術的障礙,這樣每個人都能使用技術,無論他們說什麼語言。”微軟研究中心的語言學家和首席研究員卡利卡·巴利(Kalika Bali)說。她與蓋茨基金會合作進行該項目,並擔任Karya監督委員會的無薪酬成員。Karya相對較高的工資“滲透到數據的質量上”,巴利說,“這將立即提高系統輸出的準確性。”她說她通常從Karya那裡得到的數據錯誤率不到1%,這在構建AI模型時幾乎從未發生過。
特殊的公司結構
喬普拉說,最初他和他的團隊向任何人開放應用程序,結果發現最早的100個註冊用戶都是占主導地位的高種姓男性。這一經歷讓他認識到“知識是通過權力渠道傳遞的”。為了接觸到最貧困的社區,以及邊緣化的種姓、性別和宗教,他很早就意識到必須與在農村地區有基層影響力的非營利組織合作。這些組織可以代表Karya按照收入和多樣性的要求分發訪問碼。“他們知道對於誰來說,這筆錢是錦上添花,對於誰來說,這筆錢是改變命運的。”他說,這個過程也確保了工人最終生成的數據有更強多樣性,這有助於減少AI偏見。
“我們需要的是讓更多人意識到,大多數數據公司是不道德的。”他說,“而且有一種道德的方式。”為了讓這個應用發揮出他認為能夠發揮的影響力,他需要贏得更多的客戶——說服更多的科技公司、政府和學術機構從Karya獲取他們的AI訓練數據。
但在追求新客戶的過程中,即使是自詡為“有道德”的企業,最終也可能妥協。那麼,什麼能阻止Karya陷入與Sama公司同樣的境地呢?喬普拉說,答案的一部分在於Karya的公司結構。Karya在美國註冊為非營利組織,控制著印度的兩個實體:一個非營利組織和一個營利組織。這個營利組織在法律上有義務將它賺取的任何利潤(在支付工人之後)捐贈給非營利組織,後者再將它們用於再投資。他說,這種安排的好處在於,消除了他或聯合創始人為了有利可圖的合同而犧牲工人工資或福利的任何動機。目前,這是一個有效的模式,但如果慈善資金枯竭,這個模式可能會崩潰。
奇魯卡瓦迪和阿拉哈利村的村民對人工智能的了解有限。喬普拉表示,向工人們解釋他們正在做什麼時可能存在挑戰,最成功的方法是告訴工人們他們正在“教計算機說卡納達語”。那裡沒有人知道ChatGPT,但村民們知道Google助手,他們稱之為“OK Google”。35歲的失業父親思达拉久(Siddaraju L.)表示,他不知道什麼是人工智能,但如果計算機能說他的語言,他會感到驕傲。“我對我的母語像對我的父母一樣尊敬。”
人們希望,通過Karya等項目的努力,印度語言的人工智能項目能夠從英語人工智能的錯誤中吸取教訓,並從一個更可靠和無偏見的起點開始。“直到不久前,英語的語音識別引擎甚至都不能理解我的英語口音。”微軟研究中心的語音研究員巴利談到她的口音時說,“如果人工智能技術不滿足它們的受眾,那麼這些技術的存在有什麼意義呢?”