Delta Lake 進入Linux 基金會
近日,數據湖(data lakes)數據治理項目 Delta Lake進入Linux基金會,基金會表示將與Delta Lake共建數據湖開放標準。Delta Lake 是一個存儲層,為Apache Spark和大數據workloads提供ACID事務能力,其通過寫和快照隔離之間的樂觀並發控制(optimistic concurrency control),在寫入數據期間提供一致性的讀取,從而為構建在HDFS和雲存儲上的數據湖帶來可靠性。
Linux 基金會介紹,當前每個組織都希望通過數據科學、機器學習和分析從數據中獲得更多價值,但由於數據湖內部缺乏數據可靠性,產生了極大的阻礙。Delta Lake 通過使事務符合ACID 標準來啟用並發讀取和寫入,從而解決了數據可靠性挑戰。它的架構實施能力有助於確保數據湖中沒有損壞且不合格的數據。自2017 年10 月推出以來,Delta Lake 已被4 000 多家組織採用,每月處理超過2 exabyte(十億字節)數據。
“將Delta Lake 引入Linux 基金會的中立組織之下,將有助於依賴該項目的開源社區開發解決存儲和處理大數據(本地和雲端)的技術”,Linux 基金會戰略計劃副總裁Michael Dolan 表示。
實際上Databricks 的聯合創始人是Apache Spark 項目的創建者,Spark 目前已成為大規模數據處理事實上的標準,儘管Delta Lake 最初設計為與Spark 配合使用,但其目前已經發展出了一個蓬勃的開源社區,並增加了對其它開源數據系統的支持。
目前Delta Lake已經被成千上萬的組織採用,包括Intel、阿里巴巴、Booz Allen Hamilton與Starburst等,並且他們也是其開源生態的重要貢獻者。為了進一步推動Delta Lake開源生態的發展,Delta Lake背後的公司Databricks作出了將Delta Lake託管到Linux基金會的決定。
Databricks 的CEO 兼聯合創始人Ali Ghodsi 表示:“我們的團隊繼續創建開源項目並為之做出貢獻,因為我們知道這是最快、最全面的創新方式。為了解決組織的數據挑戰,我們希望確保該項目以最真實的形式開源。通過Linux 基金會社區的力量和貢獻,我們相信Delta Lake 將很快成為數據湖中數據存儲的標準。”
相關閱讀:
前陣子Delta Lake 剛被InfoWorld 評為2019 年最佳開源軟件,詳見:
https://www.oschina.net/news/110451/2019-infoworld-bossie-awards