阿里雲發布機器學習平台PAI v3.0
距機器學習平台PAI 2.0發布兩年後,阿里巴巴於今早的阿里雲峰會上重磅發布PAI 3.0版本。阿里雲機器學習平台是構建在阿里雲MaxCompute(原ODPS)計算平台之上,集數據處理、建模、離線預測、在線預測為一體的機器學習平台。阿里雲機器學習封裝了阿里巴巴集團內成熟的算法,向機器學習用戶提供了更簡易的操作體驗。
訪問:
今日發布的PAI 3.0 推出了全新的算法模型市場,涵蓋電商、社交、廣告、金融等多個行業,數十種場景的算法模型。同時還新增了流式算法組件、圖神經網絡、增強學習組件等平台工具。
作為機器學習平台的內核,PAI 的智能計算引擎進行了全面升級,通過編譯技術優化通用計算引擎,訓練性能提升400%——PAI 團隊研發了深度學習編譯器TAO(Tensor Accelerator and Optimizer),以通用化、平台化的方式有效解決上層Workload 與底層硬件計算單元之間高效映射的問題。
此外,在深度學習優化分佈式引擎方面,PAI 3.0 可以實現單任務支持上千worker 並發訓練,並支持5k+ 超大規模異構計算集群。
PAI 希望實現“用更少的硬件,支持更多業務更快完成業務迭代”。為了完成這個目標,團隊有針對性地研發了GPU 分時復用技術。整套技術實現遵循了數據驅動的思想,包括實時在線性能數據反饋通路、細粒度GPU 資源復用、虛擬顯存以及基於歷史數據的資源預估策略這幾個關鍵模塊。
此外,PAI 3.0 還發布了大規模圖神經網絡,緩存機制效率提升40%,算子速度提升12 倍,系統端建圖時間從數小時降至5 分鐘。
據了解,從PAI1.0開始,該機器學習平台已經在阿里巴巴內部使用了2年。基於該平台,在淘寶搜索中,搜索結果會基於商品和用戶的特徵進行排序。通過使用參數服務器,淘寶可以把百億個特徵的模型,分散到數十個乃至於上百個參數服務器上,打破了規模的瓶頸。