摩爾線程開源vLLM-MUSA 加速國產GPU AI
近日,摩爾線程上線了大語言模型高速推理框架開源專案vLLM的MUSA移植版本,為開發者提供基於摩爾線程全功能GPU進行開源專案MUSA移植的範例。摩爾線程表示,正努力圍繞自主研發的統一系統架構GPU、MUSA軟體平台,建構完善好用的MUSA應用生態。
vLLM是一个高效且易用的大模型推理和服务框架,支持创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化、分布式推理支持等,可显著提高大语言模型(LLM)的推理性能。
目前,vLLM已在各種大語言模型中廣泛應用,成為業界常用的開源大模型推理框架。
摩爾線程基於vLLM v0.4.2版本,進行了移植適配,使其支援摩爾線程GPU後端Device,並完全開源,開發者可以二次開發、升級vLLM到社群更新版本等。
值得一提的是,由於摩爾線程MUSA架構的先進性、軟體棧對CUDA的優良兼容性,透過MUSIFY程式碼自動轉換工具,用戶可以快速地將原有的CUDA程式碼遷移到MUSA平台,實現替代。
同時,CUDA相關函式庫的調用,也可以快速替換為對應的MUSA加速函式庫,如算子函式庫muDNN、集合通訊庫MCCL、線性代數函式庫muBLAS等。
摩爾線程透過MUSA軟體堆疊對CUDA軟體堆疊介面相容,大幅提升了應用移植的效率,縮短了開發週期,也提供MUSIFY自動程式碼移植工具等一系列實用工具和腳本。
摩爾線程vLLM-MUSA開源位址: