Stability AI發布最新圖像生成模型Stable Diffusion XL 1.0
Stability AI 宣布推出Stable Diffusion XL 1.0,這是一個文本到圖像的模型,該公司稱其為迄今為止”最先進”的版本。Stable Diffusion XL 1.0 在GitHub 上以開源形式發布,此外還有Stability 的API 和消費者應用ClipDrop 和DreamStudio,Stability 聲稱,與前代產品相比,Stable Diffusion XL 1.0 的色彩”更鮮豔”、”更準確”,對比度、陰影和光照效果也更好。
Stability AI 的應用機器學習主管Joe Penna 在接受采訪時指出,Stable Diffusion XL 1.0 包含35 億個參數,可以在”幾秒鐘內”生成多種長寬比的100 萬像素分辨率的完整圖像。”參數”是模型從訓練數據中學到的部分,基本上定義了模型處理問題的技能,這裡指的是生成圖像。
上一代穩定擴散模型Stable Diffusion XL 0.9 也能生成更高分辨率的圖像,但需要更多的計算能力。
Penna 說:”Stable Diffusion XL 1.0 是可定制的,可以根據概念和風格進行微調。它也更易於使用,只需基本的自然語言處理提示,就能完成複雜的設計。”
Stable Diffusion XL 1.0 還在文本生成方面進行了改進。Penna 說,許多最好的文本到圖像模型都很難生成帶有可讀徽標的圖像,更不用說書法或字體了,而Stable Diffusion XL 1.0 卻能”高級”地生成文本,而且清晰可讀。
此外,據SiliconAngle 和VentureBeat 報導,Stable Diffusion XL 1.0 支持內繪(重建圖像的缺失部分)、外繪(擴展現有圖像)和”圖像到圖像”提示–這意味著用戶可以輸入一張圖像並添加一些文字提示,以創建該圖像的更多細節變化。此外,該模型還能理解用簡短提示給出的複雜、多部分指令,而以前的Stable Diffusion 模型則需要較長的文本提示。
Stable Diffusion XL 1.0 生成的圖片。圖片來源:Stability AI
他補充說:”我們希望,通過發布這個功能更強大的開源模型,圖像的分辨率不會是唯一翻兩番的地方,而且還能讓所有用戶大大受益。”
但與之前版本的Stable Diffusion 一樣,該模型也引發了棘手的道德問題。從理論上講,開源版本的Stable Diffusion XL 1.0 可以被不懷好意者用來生成有毒或有害的內容,比如未經同意的深度偽造。這在一定程度上反映了用來訓練它的數據:來自網絡的數百萬張圖片。
無數教程展示瞭如何使用穩定人工智能自己的工具(包括穩定擴散的開源前端DreamStudio)來創建深度偽造內容。還有無數教程展示瞭如何微調基礎穩定擴散模型來生成色情內容。
Penna並不否認濫用的可能性–他也承認該模型存在一定的偏差。但他補充說,Stability AI 已經採取了”額外措施”,通過過濾模型訓練數據中的”不安全”圖像、發布與問題提示相關的新警告以及盡可能多地屏蔽工具中的個別問題術語,來減少有害內容的生成。
Stable Diffusion XL 1.0 的訓練集還包括一些藝術家的作品,這些藝術家曾抗議包括Stability AI 在內的公司將他們的作品用作生成式人工智能模型的訓練數據。Stability AI 聲稱,至少在美國,合理使用原則免除了它的法律責任。但這並沒有阻止幾位藝術家和圖片公司Getty Images 提起訴訟,要求停止這種做法。
穩定人工智能公司(Stability AI)與初創公司Spawning 合作,尊重這些藝術家的”退出”請求,該公司表示,它還沒有從訓練數據集中刪除所有標記的藝術作品,但它”將繼續採納藝術家的請求”。
“我們正在不斷改進穩定擴散的安全功能,並認真地繼續迭代這些措施,”Penna說。”此外,我們還承諾尊重藝術家的要求,將其從訓練數據集中刪除。”
在發布Stable Diffusion XL 1.0 的同時,Stability AI 還在其API 的測試版中發布了一項微調功能,允許用戶使用少至五張圖片來”專業化”生成特定的人物、產品等信息。該公司還將把Stable Diffusion XL 1.0 移植到亞馬遜用於託管生成式人工智能模型的雲平台Bedrock 上,擴大了之前宣布的與AWS 的合作。
Stability公司在商業化道路上遭遇低谷,面臨著來自OpenAI、Midjourney等公司的激烈競爭,因此該公司推動建立合作夥伴關係並開發新功能。今年4月,Semafor報導稱,迄今為止已募集到1億多美元風險資金的Stability AI公司正在燒錢–這促使該公司在6月完成了一筆2500萬美元的可轉換票據,並獵聘了一名高管來幫助提高銷售額。
“最新的SDXL模型代表了Stability AI的創新傳統和能力的下一步,即為人工智能社區提供最前沿的開放式訪問模型,”Stability AI首席執行官埃馬德-莫斯塔克(Emad Mostaque)在一份新聞稿中說。”在亞馬遜Bedrock上發布1.0版本表明了我們與AWS合作,為開發者和客戶提供最佳解決方案的堅定承諾”。