微軟和NVIDIA合作:將雲端加密擴展到GPU上
很多組織都遷移到雲端,來滿足他們在存儲和人工智能解決方案方面的數據相關需求。為了確保敏感數據的隱私和安全,使用保密計算是至關重要的。這基本上是通過一整套硬件和軟件的配合實現控制的,管理數據如何被共享和使用,以及數據所有者如何驗證這些過程。
英特爾和AMD的CPU已經能夠創建可信的執行環境(TEEs),在CPU層面為保密計算提供支持。TEEs確保數據在靜止狀態、傳輸過程中,甚至在使用過程中都保持加密。它還提供遠程驗證,以驗證硬件的配置,並只對所需的算法授予數據訪問權。微軟在Azure上的保密計算解決方案也利用同樣的原則。
然而,現有的解決方案與內置在CPU 中的TEE 聯繫在一起,所以微軟現在希望將這一邊界也擴展到GPU,確保數據可以安全地轉移到更強大的硬件上以滿足計算需求。當涉及到組織的人工智能工作負載時,這就更加重要了,微軟正在與英偉達在這方面進行合作。
微軟表示想要實現這個目標並不簡單。因為它需要保護GPU 免受各種攻擊,同時確保Azure 主機對管理活動有足夠的控制。即使在硬件層面,該實施方案也不應對熱能和性能產生負面影響,而且理想情況下,也不需要對現有的GPU 微架構進行改變。該公司的願景包括保密GPU 的以下功能:
● 一種新的模式,GPU上的所有敏感狀態,包括GPU內存,都與主機隔離。
● 在GPU芯片上有一個硬件信任根,可以生成可驗證的證明,捕獲GPU的所有安全敏感狀態,包括所有固件和微代碼
● 對GPU驅動程序進行擴展,以驗證GPU的證明,建立與GPU的安全通信通道,並透明地加密CPU和GPU之間的所有通信
● 硬件支持通過NVLink透明地加密所有GPU-GPU通信
● 在客戶操作系統和管理程序中支持將GPU安全地連接到CPU TEE,即使CPU TEE的內容是加密的。
微軟表示,它已經在Azure上的NVIDIA A100 Tensor Core GPU中建立了保密計算能力。這已經通過一個名為安培保護內存(APM)的新功能完成。實施細節在本質上是高度技術性的,你可以在這裡查看。
這個解決方案現在可以通過Azure Confidential GPU VMs進行私人預覽。目前,企業可以使用最多4個NVIDIA A100 Tensor Core GPU的虛擬機來處理他們的Azure工作負載。微軟的下一步包括確保更廣泛地採用這些做法,並與NVIDIA合作,在其Hopper架構上進一步加強現有的實施。