Stability AI試圖透過新的影像生成人工智慧模型保持領先地位
Stability AI 的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion 更快、更強大,而Stable Diffusion 是許多其他文本到圖像生成AI 工具的基礎。
Stable Cascade 可以產生照片,並對所建立的圖片進行修改,或嘗試提高現有圖片的解析度。其他文字到圖片的編輯功能還包括內畫和外畫(模型只對圖片的特定部分進行填充編輯),以及可視邊緣(用戶可利用現有圖片的邊緣製作新照片)。
根據提示”一張擬人企鵝坐在咖啡館裡看書喝咖啡的電影照片”生成的Stable Cascade圖像。
新模型可在GitHub 上供研究人員使用,但不能用於商業用途。當Google甚至蘋果等公司發布自己的圖像生成模型時,新模型也帶來了更多選擇。
與Stability 的旗艦產品Stable Diffusion 模型不同,Stable Cascade 並不是大型語言模型,而是三個不同的模型,它們都依賴Würstchen 架構。
Stable Cascade與其他模型的推理時間比較
將請求分解成更小的位元後,請求所需的記憶體更少(在那些很難找到的GPU 上訓練的時間也更少),運行速度更快,同時在”提示對齊和美學品質”方面表現更佳。創建一個影像大約需要10 秒,而目前使用的SDXL 模型需要22 秒。
Stability AI公司幫助普及了Stable Diffusion方法,同時也成為了幾起訴訟的對象,這些訴訟指控Stable Diffusion公司在未經權利人許可的情況下對受版權保護的數據進行了訓練- Getty圖片公司對Stability AI公司的訴訟將於12 月開庭審理。該公司於12 月開始透過訂閱的方式提供商業許可,並表示這是幫助其研究獲得資金所必需的。