Google推出BigLake預覽版:幫企業更容易分析數據
在其Cloud Data Summit 峰會上,Google 宣布推出BigLake 預覽版。通過這個新數據湖存儲引擎,可幫助企業更容易分析其數據倉庫(data warehouses)和數據湖(data lakes)中的數據。
BigLake 的核心是利用Google 在運行和管理其BigQuery 數據倉庫方面的經驗,並將其擴展到Google Cloud Storage 上的數據湖,將數據湖和倉庫的優點結合到一個單一的服務中,抽像出基礎存儲格式和系統。
值得注意的是,這些數據可以放在BigQuery 中,也可以存放在AWS S3 和Azure Data Lake Storage Gen2 上。通過BigLake,開發者將獲得一個統一的存儲引擎,並能夠通過一個系統查詢底層數據存儲,而不需要移動或重複數據。
在今天的公告中,Google Cloud 的數據庫、數據分析和商業智能副總裁兼總經理Gerrit Kazmaier 表示:
在不同的數據湖和數據倉庫中管理數據,會產生孤島,增加風險和成本,特別是當數據需要移動時。BigLake允許公司統一他們的數據倉庫和湖泊來分析數據,而不必擔心底層的存儲格式或系統,這消除了從源頭上重複或移動數據的需要,減少了成本和低效率。
使用策略標籤,BigLake 允許管理員在表、行和列級別上配置他們的安全策略。這包括存儲在Google Cloud Storage 的數據,以及兩個支持的第三方系統,其中Google的多雲分析服務BigQuery Omni 啟用了這些安全控制。然後,這些安全控制也確保只有正確的數據流入Spark、Presto、Trino和TensorFlow等工具。該服務還與Google的Dataplex工具整合,提供額外的數據管理功能。
Google指出,BigLake 將提精細度的訪問控制,其API將跨越Google雲,以及開放的面向列的Apache Parquet等文件格式和Apache Spark等開源處理引擎。
Google Cloud 軟件工程師Justin Levandoski 和產品經理Gaurav Saxena 在今天的公告中解釋道
企業需要管理和分析的有價值的數據量正在以驚人的速度增長。這些數據越來越多地分佈在許多地方,包括數據倉庫、數據湖和NoSQL存儲。隨著企業的數據越來越複雜,並在不同的數據環境中擴散,孤島出現了,造成風險和成本增加,特別是當這些數據需要移動時。我們的客戶已經明確表示;他們需要幫助