亞馬遜Alexa運算遷移至自家芯片:吞吐量提高30% 成本下降45%
亞馬遜宣布將人工智能處理遷移到自家定制的AWS Inferentia芯片。這意味著亞馬遜最大的推理(inferencing)服務(例如語音助手Alexa)將交由更快、更專業的芯片進行處理,而非基於NVIDIA的多用途GPU。
亞馬遜已經將大約80% 的Alexa 語音助手處理遷移到Elastic Compute Cloud (EC2) Inf1 實例上處理。和使用傳統GPU 的G4 實例相比,Inf1 實例將吞吐量提高了30%,成本下降了45%。亞馬遜認為,它們是推斷自然語言和語音處理工作負載的最佳實例。
Alexa 的工作方式是這樣的:實際的智能音箱(或者揚聲器)可以不做任何操作,所有任務都交由AWS 處理器完成。或者更準確的說,一旦Echo 設備上的芯片檢測到喚醒詞,系統就會啟動。。它開始實時將音頻流傳輸到雲。在數據中心的某個地方,音頻被轉換為文本(這是推理的一個示例)。然後從文本中提取含義(另一個推理實例)完成所需要的所有操作,例如獲取當天的天氣信息等等。
Alexa完成您的請求後,她需要將答案傳達給您。然後,腳本被轉換為音頻文件(另一個推理示例),並發送到您的Echo設備。回音播放文件,以便於你出行的時候是否決定帶上雨傘。顯然,推理是工作的重要組成部分。毫不奇怪,亞馬遜投入了數百萬美元來製造完美的推理芯片。
Inferentia 芯片由四個NeuronCore 組成。每個實現一個“高性能脈動陣列矩陣乘法引擎”。每個NeuronCore或多或少地由以線性,獨立方式處理數據的大量小型數據處理單元(DPU)組成。每個Inferentia芯片還具有巨大的緩存,從而提高了延遲。