網傳字節跳動實習生刪除GB以下所有機器學習模型
昨晚脈脈上有網友爆料,字節跳動一位實習生刪除了公司所有輕量級別的機器學習模型!
什麼是lite模型?
該樓主表示,lite模型就是公司內幾乎所有GB大小以下的機器學習模型,且全部被刪除了,實習生直接刪除的是父目錄且加了skip trash (刪除文件時臨時禁用回收)操作,導致被刪除模型無法被恢復。
當晚全公司通報,直接被列入P0 事故等級(嚴重事故):
據樓層討論,光是處理問題的群就進了接近三百人,其殃及業務之廣可想而知:
大家都在討論這位實習生的去留,我們搜了一下,據說,“只要不是主觀故意的”就不會被開除:
所以說一定要穩住別慌,問題不大。
1
網友熱議
有網友表示這是實習生給你們這幫人出了一道hard題,不過沒有標準答案,考驗你們解題能力的時候到了。
還有網友表示實習生不能有權限操作這麼重要的東西,這鍋80%應該判給管理者,實習生反倒是暴露了問題,換個角度來看,實習生立功了。
我們知道,字節跳動最出名的文化之一,就是扁平化管理。實習生與正式員工有同樣的文檔權限,這也是字節能夠在與BAT等大廠競爭中保持靈活高效的秘訣,從這個角度上來說,說實習生立功倒也不能算錯。
而別的對手就權限不一了。
到底刪除了多少模型?
根據字節網友後來發到網上的疑似截圖顯示,被刪除的只是:“Lagrange Lite 全量Batch模型的備份”,且顯示為“被誤刪”。
又有字節的工程師網友表示刪除的都是離線數據,影響不大。
該樓主好像對此事非常熱衷,全程在線跟帖,表示“確實影響不大但是麻煩,重新訓練模型和延遲上線理論上都會對指標有負向只是不那麼明顯了”。
實習生“立大功”
2018年據英國《金融時報》報導,Google內部一位實習生無意中犯下一個“小”錯誤,導致一則沒有意義的廣告投放到“大量”網頁和應用中,持續了大約為45分鐘,相關費用和清理成本達到1000萬美元,真可謂小手一抖,千萬元沒有。
2
字節AI
字節都有什麼出名的機器學習產品?
字節跳動最早是以今日頭條來闖蕩江湖,在今日頭條以及後來的抖音和火山等產品上肯定用到了不少機器學習推薦算法,這就先不提了。
此外,在抖音這款“有毒”的產品上,也時不時見到各種運用AI 算法來做人臉變化的技術應用,比如最近的在抖音上比較火的重返3歲的AI特效等等。
據AI科技評論所知,字節還開源過一個名為LightSeq的序列推理引擎,它對以Transformer 為基礎的序列特徵提取器(Encoder)和自回歸的序列解碼器(Decoder)做了深度優化,早在2019 年12 月就已經開源,應用在了包括火山翻譯等眾多業務和場景。
據了解,這應該是業界第一款完整支持Transformer、GPT 等多種模型高速推理的開源引擎。
LightSeq 可以應用於機器翻譯、自動問答、智能寫作、對話回復生成等眾多文本生成場景,大大提高線上模型推理速度,改善用戶的使用體驗。
相比於目前其他開源序列推理引擎,LightSeq具有如下幾點優勢:1. 高性能;2. 支持模型功能多; 3. 簡單易用,無縫銜接Tensorflow、PyTorch等深度學習框架。
據AI科技評論所知,字節跳動AI Lab最近計劃要開源“新版訓練加速引擎”,可以讓模型訓練加速3倍以上。
最後,據這次的誤刪除事件來看,1GB 的模型其實不算大,大概只有幾億的參數量級,反觀現在AI 江湖動則千億萬億起步的模型,1GB以下的模型真的不算大,算不上是決定性的模型。
或許此次事件對字節只是一件不痛不癢的小事,字節的高層或許壓根不知道此事,畢竟這又不是刪庫跑路。
雖說如此,但程序裡的bug是個玄學,有時哪怕某個小bug產生的影響往往也是難以預料的,有時會牽一發而動全身,若是赶巧也可能影響整個產品線。
但是,還是希望各位公司謹記“天干物燥,小心火燭”。