微軟推出最新視覺基礎模型Florence-2 可在瀏覽器上運行
根據微軟官方消息,微軟推出視覺基礎模型Florence-2,該模型現已能夠在支援WebGPU的瀏覽器中100%本地運行。 Florence-2-base-ft是一個擁有2.3億參數的視覺基礎模型,採用基於提示的方法來處理廣泛的視覺和視覺語言任務。
此模型支援多種功能,可用於產生影像、辨識字元、分割影像、偵測物體等等。
Florence-2的在地化運作得益於Transformers.js和ONNX Runtime Web技術的支援。這項突破不僅提高了用戶隱私保護水平,也大大降低了使用成本,為AI視覺技術的普及應用鋪平了道路。