1.2 毫秒!英偉達TensorRT 8 運行BERT-Large 推理創紀錄
自今年5月份TensorRT 8-EA版(Early Access,嚐鮮版)發布之後,英偉達終於在本週二發布了TensorRT 8的正式版。作為支持英偉達GPU平台的深度學習推理框架,TensorRT 8正式版與以往的版本相比,能夠在在1.2毫秒內運行全球最廣為採用的基於transforemer模型之一——BERT-Large,即將語言查詢推理時間縮短至上一個版本的一半,創下最新記錄,為搜索引擎、廣告推薦和聊天機器人的AI模型提供支持。英偉達官方聲稱,TensorRT8 不僅針對transformer 作出突破性優化,還新增其他兩項關鍵特性,實現AI 推理方面的突破。
推理時間縮短至1.2 毫秒,速度提升1 倍
“AI 模型以指數級的速度增長,很多公司不得不縮減模型大小以追求響應速度。英偉達2016 年推出的TensorRT 可以幫助這些企業擴大規模,提升精度。” 英偉達AI 軟件部的產品管理總監Kari Briski 回顧TensorRT 推出的背景時說道。
TensorRT 是英偉達自家的深度學習推理框架,在模型推理的過程中,可以將Pytorch、TensorFlow 等其他框架訓練好的模型轉化為TensorRT 格式,再使用TensorRT 推理引擎運行,從而提升這一模型在GPU 上的運行速度。
因此,支持更多的模型和進一步縮短推理時間,提高推理速度是廣大AI 軟件開發者對TensorRT 升級的普遍期望。
2019 年,黃仁勳在GTC China 上發布TensorRT 7。相比於只支持30 多種模型的TensorRT 5,TensorRT 7 能夠支持各種類型的RNN、Transformer 和CNN, 支持多達1000 多種不同類型的計算變換和優化,還能讓推理時間縮短至0.3 秒,為此黃仁勳將其稱之為“我們實現的最大飛躍”。
這次更新的TensorRT 8 版本,雖然升級“飛躍”程度比不上從5.0 版本到7.0 版本的升級,但也有一定程度的更新。
英偉達宣稱,TensorRT 8 的各項優化為語言帶來了創紀錄的速度,能夠在1.2 毫秒內運行全球最廣為採用的基於transforemer 模型之一——BERT-Large, 幫助企業將模型擴大一倍或兩倍,從而提高精度。
落實到具體的應用上,這種推理速度的提升能夠讓對話式AI 更加智能,交互應用程序的性能也能夠得以提升。
新增兩項核心技術,是推理速度提升的關鍵
在此之前,之所以能夠憑藉TensorRT 提升模型在英偉達GPU 上的運行速度,主要得益於TensorRT 的一系列優化,這些優化包括:
- 權重與激活精度校準:通過將模型量化為INT8 來更大限度提升吞吐量,同時保持高精度,力求精度和吞吐量的最大平衡;
- 層與張量融合:通過融合內核中的節點,優化GPU 顯存和帶寬的使用;
- 內核自動調整:基於目標GPU 選擇最佳的數據層和算法;
- 動態張量顯存:更大限度減少顯存佔用,並高效地為張量重複利用內存;
- 多流執行:並行處理多個輸入流的可擴展設計;
簡單而言,就是在力求以低混合精度提升吞吐量的同時,減少計算和內存訪問,合併網絡層。
而在TensorRT 8 版本中,英偉達又新加入兩個關鍵特性,以實現AI 推理方面的突破。
其一是稀疏性。TensorRT 8中使用稀疏性技術,在保證精度推理的同時,降低深度學習模型中的部分權重,減小模型所需要的帶寬和內存,在提升效率的同時使開發者能夠通過減少計算操作來加速神經網絡。
這項技術能夠幫助NVIDIA Ampere 架構GPU 得到性能上的提升。
其二是量化感知訓練。開發者能夠使用訓練好的模型,以INT8精度運行推理,且不會造成精度損失,大大減少計算和存儲成本,在Tensor Core核心上實現高效推理。
TensorRT 誕生第五年,下載次數近250 萬次
推理模型上的速度優勢讓TensorRT 廣受歡迎。五年來,已有來自醫療、汽車、金融和零售等各個領域的27500 家企業,超過25 萬名開發者下載使用TensorRT, 累計次數近250 萬次。
GE 醫療是TensorRT 的使用者之一,他們用TensorRT 助力加速早期檢測疾病的關鍵工具——超聲波計算機視覺創新,使臨床醫生能夠通過其職能醫療解決方案提供方最高質量的護理。
GE 醫療心血管超聲首席工程師Erik Steen 表示:“臨床醫生需要花費寶貴的時間來選擇和評估超聲圖像。在Vivid Patient Care Elevated Release 項目的研發過程中,我們希望通過在Vivid E95 掃描儀上實施自動心臟視圖檢測,使這一過程變得更加高效。心臟視圖識別算法將選擇合適的圖像來分析心壁運動。TensorRT 憑藉其實時推理能力,提高了視圖檢測算法的性能,同時縮短了我們研發項目的產品上市時間。”
開源AI 技術的領導者Hugging Face 也在同英偉達展開密切合作,其產品總監Jeff Boudier 表示,通過TensorRT 8,Hugging Face 在BERT 上實現了1 毫秒的推理延遲,十分期待能在今年晚些時候為客戶提供這一性能。
目前,TensorRT 8 已經全面上市,且面向英偉達計劃開發者成員免費提供,用戶能夠從TensoRT GitHub 庫中獲得最新版本插件、解析器和样本開放源代碼。