百度聯合發起中文自然語言處理數據共建計劃“千言”
在百度大腦語言與知識技術峰會上,百度CTO王海峰首次發布了百度大腦語言與知識產品全景圖;百度還聯合發起中文自然語言處理數據共建計劃——“千言”。另外,百度集團副總裁吳甜發布了語義理解技術與平台文心、智能文檔分析平台TextMind和AI同傳會議解決方案3大新產品。
圖:百度CTO 王海峰
同時發布了6項升級,包括智能創作平台的3個場景方案、以及智能對話定制與服務平台UNIT的3項全新升級。
圖:百度集團副總裁吳甜
據介紹,百度推出的語義理解技術與平台文心,基於深度學習平台飛槳打造,依托領先的語義理解核心技術,集成優秀的預訓練模型、全面的NLP算法集、端到端開發套件和平台,提供一站式NLP開發與服務,讓開發者更簡單、高效地定制企業級NLP模型。智能文檔分析平台TextMind,基於OCR、NLP技術,以文檔解析為核心能力,支持文檔對比與文檔審核,具備“多快好省”的核心優勢,促進企業辦公智能升級。
其中,全新發布的AI同傳會議解決方案,覆蓋會議全場景、全流程,旨在打造用戶隨身的“會議同傳專家”。吳甜現場展示瞭如何只用一台電腦和一部手機快速搭建一套同傳服務,只需點點鼠標、打幾個字,就能快速獲得專業的同傳服務。
值得一提的是,針對數據匱乏、算力不足等語言與知識技術研發中面臨的瓶頸,會上,百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃——“千言”,解決數據稀缺問題。
據悉,“千言”一期由來自國內11家高校和企業的數據資源研發者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20餘個中文開源數據集。
對此,百度技術委員會主席吳華表示,“未來,我們希望有更多的數據集作者能夠參與共建千言,共同推動中文信息處理技術的進步,建設世界範圍的中文信息處理影響力。我們計劃在未來3年,面向20多個任務,收集和建設不少於100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。”
現場,吳華還發布了百度語言與知識技術算力共享計劃,通過百度AI STUDIO平台提供算力支持。