清華係出手全球第一款端側全模態理解模式Megrez-3B開源
今日,清華系AI Infra創企無問芯穹正式開源端側解決方案中的全模態理解小模型Megrez-3B-Omni,並同步開源其純語言模型版本Megrez-3B- Instruct。 Megrez-3B-Omni為端側而生,選擇了最適合手機、平板等端側設備的30億參數黃金尺寸,結構規整,單模態版本的推理速度最大領先同精度模型300%。
該模型同時具備圖片、音訊、文字三種模態資料的處理能力,並在三個模態的多種測評基準中取得了同尺寸下最優效能。
其多模態能力可靈活切換,反應非常迅速。例如先隨手拍張單據照片發給它,問“6個人AA人均多少錢”,再語音輸入讓它寫個詼諧文案催大家付錢,它能立即按要求出稿。
▲Megrez-3B-Omni可實現在語音、影像、文字多個模態之間自由切換
和同樣三模態的VITA(based on Mixtral 8×7B)、Baichuan-Omni-7B ,雙模態的MiniCPM-V 2.6(based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,以及單一模態的Qwen、Baichuan等模型相比,Megrez-3B-Omni在主流基準測試集上的表現都不遜色。
Megrez-3B-Instruct也提供了WebSearch功能,支援呼叫外部工具進行網頁搜尋。
無問芯穹成立於2023年5月,由清華大學電子工程系教授、系主任汪玉教授發起,由汪玉的第一任博士畢業生夏立雪擔任共同創辦人兼CEO。其技術團隊源起於清華大學電子工程系NICS-EFC實驗室,在模型壓縮、推理加速及硬體能耗優化等領域擁有深入的學術研究和深厚的工程實踐經驗,擅長模型輕量化、軟硬體協同最佳化.
該公司以「釋放無穹算力,讓AGI觸手可及」為使命,致力於成為大模型時代首選的「算力營運商」。百度、智譜AI、聯想、小米、軟通高科等知名企業均是無問芯穹的投資方。
今年9月,無問芯穹CEO夏立雪、無問芯穹戰略運營SVP王夢菲在與智東西等媒體交流時透露,該公司今年已有一些規模化收入,主要來自銷售算力,明年會進一步擴大市場份額。其端側大模型推理處理器LPU將以IP形式,與合作夥伴做聯合的晶片發布,計劃明年有一些落地嘗試。經其內部測算,無問芯穹預計在3到5年內獲利。
作為無問芯穹「端模型+端軟體+端IP」端上智慧整合解決方案的重要構成,無問芯穹認為要實現端側AGI,像Megrez-3B-Omni這樣的全模態理解模型是必不可少的一環。
無問芯穹稱Megrez-3B-Omni是一個能力預覽,接下來將持續迭代Megrez系列,提升自動化水平至“ edge device use ”效果,讓用戶只需要給出簡單的語音指令,就可完成端設備的設定或應用操作,並將它作為「端模型+端軟體+端IP」端上智慧一體化解決方案的重要組成推向市場。
無問芯穹Github、HuggingFace首頁以及Modelers魔樂、ModelScope魔搭等社群皆可取得Megrez-3B-Omni及其大語言模型版本。無問芯穹Infini-AI異構雲平台上可取得大語言模型版本的API或直接線上體驗。
Github網址:
https://github.com/infinigence/Infini-Megrez
HuggingFace地址:
https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI異構雲端位址:
https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr
01 .
圖片理解:3B體量對標34B模型表現,
輕鬆辨識模糊印刷體、複雜手寫字
在影像理解方面,Megrez-3B-Omni參數規模僅3B,其綜合性能表現卻可以全面超過34B模型,包括LLaVA-NeXT-Yi-34B等模型,是目前OpenCompass、MME、MMMU、OCRBench等多個主流測試集上精度最高的影像理解模型之一。
▲圖來源:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/
同時,Megrez-3B-Omni在場景理解、OCR等任務上也表現出色,能夠準確洞察和分析圖像中的場景內容,並有效率地從中提取文字資訊。
例如發一張模糊截圖,就算圖片裡的像素低清,模型也能秒速辨識。
▲Megrez-3B-Omni 螢幕識別
隨手拍一張複雜的手寫字照片,它也能快速提取裡面的關鍵訊息。
▲Megrez-3B-Omni手寫字體識別
02 .
文本理解:超越上一代14B最佳模型,
讀完課堂筆記秒出測驗題
在文本理解方面,作為全模態理解模型,Megrez-3B-Omni沒有犧牲模型的文本處理能力,將上一代14B大模型的優秀能力壓縮至3B規模,以更少的資源消耗,實現了更高的性能輸出,顯著降低了計算成本、提升了計算效率。
此模型在C-EVAL、MMLU/MMLU Pro、AlignBench等多個權威測試集上更是取得端上模型最適精確度,在文字理解上取得全球領先地位。這為端側設備的智慧化提供了全新可能。
在理解長文本時,模型能做到準確意圖辨識和極速推理。
它可以適用於教育等很多文字工作應用場景。例如讓它參考課堂筆記,出一套包含3個問題的課後習題。
▲Megrez-3B-Omni文本理解
或讓它幫忙給程式碼捉蟲。
▲Megrez-3B-Omni程式碼理解
03 .
音訊理解:輸入語音輕鬆提問,
能聽音、問圖、解文
在語音理解方面,Megrez-3B-Omni的效果比肩產業主流方案,不僅支援中文和英文的語音輸入,還能夠處理複雜的多輪對話場景,更能支援對輸入圖片或文字的語音提問,實現不同模態間的自由切換。
使用者可以就任意模態內容發出語音指令,Megrez-3B-Omni能根據語音指令直接回應文本,從一長段語音中快速提煉重點。
▲Megrez-3B-Omni語音理解
04 .
多場景靈活應用:支援網頁搜尋
Megrez-3B-Instruct也特別提供了WebSearch功能,使得模型能夠聰明地判斷何時需要呼叫外部工具進行網頁搜索,輔助回答使用者的問題。
▲WebSearch支持
這樣用戶就能建構屬於自己AI搜索,透過網路獲取最新訊息,克服小模型的幻覺問題和知識儲備不足的限制。
模型有時候自身儲備已經夠獨立解決問題,這時過多的搜尋呼叫反而可能降低推理速度和效果。 Megrez-3B-Instruct透過在搜尋和對話之間進行智慧切換,避免了過度依賴搜尋或完全不呼叫搜尋的問題。
除了可以自動決策工具呼叫時機之外,Megrez-3B-Instruct還具備上下文理解效能優異、可提供參考資訊的結構化輸出等優勢。
這些能力都已整合於Megrez-3B-Instruct模型中,使用者可透過System Prompt自由切換。
05 .
結語:一體化設計,推動端側智能
相較於雲端大模型,端側模型需要在資源有限的裝置上快速部署、高效運行,對降低模型運算和儲存需求提出更高要求。
模型小,不一定代表速度快。
在將推理速度大幅提升背後,憑藉對硬體特性的深入理解與利用,Megrez-3B-Omni透過軟硬體協同優化策略,確保了各參數與主流硬體高度適配,以實現硬體性能的利用最大化。
先前在提供端上智慧一體化解決方案方面,無問芯穹秉持軟硬協同理念已與多家知名智慧型裝置和終端晶片廠商展開合作。
除端側全模態理解模型外,該公司有端上推理軟體和IP設計方案,不僅支援CPU、GPU、NPU的同時推理,還能透過跨越軟硬體層次的系統優化,額外帶來最高可達70%的效能提升,最大化端側硬體效能的利用,適應電腦、平板、手機甚至眼鏡等輕量的端側行動裝置。
透過軟體硬體共同最佳化,在端上智慧一體化解決方案內,無問芯穹也將推出與之相適配的端側推理軟體與LPU IP等,透過「端模型+端軟體+端IP」一體化設計,為端側設備提供更完整、對硬體利用更有效率的智慧方案,促進大模型在端側設備上實現更高推理速度與更低能耗。