華為正式發布河圖引擎:從大數據走向“大數據庫”
在華為2019全球數據基礎設施論壇上,面向鯤鵬計算產業,華為Cloud & AI產品與服務總裁侯金龍宣布全面啟動數據基礎設施戰略,並開源數據虛擬化引擎HetuEngine(河圖引擎)。據悉,其旨在讓夥伴像使用“數據庫”一樣使用“大數據”,讓數據治理、使用更簡單。
圖:華為 Cloud & AI產品與服務總裁侯金龍宣布開源數據虛擬化引擎HetuEngine(河圖引擎)
據了解,這是繼今年9月基於“鯤鵬+昇騰”雙引擎全面啟航計算戰略後,華為從數據角度對計算戰略的再度闡述。
對此,侯金龍指出,“為了更好地發展數據產業,今天我宣布開源河圖引擎,開源版本的河圖引擎叫openHetu,將於2020年6月上線。我們將開源內核,開發者可以基於開源代碼進行定制,包括數據源擴展、SQL執行策略等,實現應用快速對接,提升開發效率。”
據環球網科技此前報導,今年9月份,華為在全聯接大會上發布了“一云兩翼雙引擎”的鯤鵬計算產業佈局,基於“鯤鵬+昇騰”雙引擎。其中,“一云”是指華為雲,是生態夥伴發展的黑土地。“兩翼”是指智能計算和智能數據。數據作為鯤鵬產業中的關鍵一翼,華為將圍繞數據構建端到端的能力,包括存、算、用的能力,通過5G+雲+AI能力,打造“融合、智能、開放”的數據基礎設施。
現場演講中,侯金龍表示,目前的智能世界,正從數據管理走向數據運營。他以大港油田為例說明,“在經歷了50年持續開採後,面臨資源枯竭、產量下降的挑戰。2019年以來,大港油田採用華為大數據和AI技術,利用測井曲線,結合經驗模型生成了每口井的孔隙度、滲透率,找到了更多的新的油氣層。通過數據運營,為長期穩產500萬噸提供了決策支撐。”
然而,據預測,全球數據量將從2018年的33 ZB快速增長到2025年的180 ZB。但是,產生的數據中僅有不到2%被保存,而被保存的數據中僅有不到10%被應用。
“海量數據的增長背後是需要海量存儲和計算的資源,數據增長是無限的,而存儲資源卻是有限的。”侯金龍指出,為實現這個追求,華為打造融合、智能、開放的數據基礎設施,讓數據系統從孤立走向融合,從復雜走向智能,從封閉走向開放。
具體來講,首先,通過“打破數據處理與數據存儲的邊界”,實現數據高效共享和分析,降本增效。其次,通過“AI+存儲+雲”,實現數據全生命週期內智能管理和智能運營,讓存儲越用越快,價值越來越大。最後,通過“數據虛擬化引擎”,統一SQL語法,像使用數據庫一樣使用大數據。
會上,他宣布,為了更好地發展數據產業,華為正式發布“開源河圖引擎”,開源版本的河圖引擎叫openHetu,將於2020年6月上線。“我們將開源內核,開發者可以基於開源代碼進行定制,包括數據源擴展、SQL執行策略等,實現應用快速對接,提升開發效率。”
據介紹,華為將數據虛擬化引擎命名為河圖,是為了屏蔽數據基礎設施的複雜度,讓開發者像使用數據庫一樣使用大數據,復用現有的生態、工具和技能,提升開發效率2到10倍。
“’大禹得河圖後始見清明’,傳說中,大禹通過河圖掌握河流山川複雜的地形地貌,順利完成治水大業。河圖引擎,就是要讓數據治理簡單,使用簡單,更方便的挖掘數據價值。”
他最後指出,河圖引擎具備4個核心能力:
一個目錄:通過元數據在線感知,構建1000+異地異構數據源全局虛擬數據視圖,打破數據孤島,數據全局可視,解決企業找數難問題。
一個入口:通過開放的連接框架、5000節點SQL引擎,實現30種異地異構數據源統一SQL訪問,秒級獲取,數據全局可得,解決企業取數難問題。
一份數據:通過CarbonData技術,實現一份數據多場景分析,多應用共享,數據零搬遷,數據全局可用,解決企業用數難問題。
統一安全:通過細粒度動態授權、敏感數據自動感知技術,實現異地異構數據源集中式安全配置與管控,數據全局可控,數據授權時間從天到秒,解決企業數據安全與合規問題。