微軟開源大規模數據處理項目Data Accelerator
微軟開源了一個原為內部使用的大規模數據處理項目Data Accelerator。自2017年開發以來,該項目已經大規模應用在各種微軟產品工作管道上。據微軟官方開源博客介紹,Data Accelerator的一些方法可以更容易地在Apache Spark上構建流式傳輸管道:
- 即插即用:輕鬆設置輸入源和輸出接收器,以便在幾分鐘內建立管道。Data Accelerator支持從Eventhub和IoThub取數據,並支持將數據下載到Azure blob、CosmosDB、Eventhub等。
- 無代碼體驗:無需編寫任何代碼即可設置警報和數據處理。通過規則設計器體驗,您可以指定簡單和聚合的數據處理,標記和警報。
- SQL查詢:在SQL中編寫複雜的處理——無需在Scala中工作。內置的可擴展性模型還支持用戶定義的函數並利用Azure功能,例如,用於ML中流。
- 實時查詢:通過針對傳入數據樣本運行,在幾秒鐘內驗證您的查詢,從而節省設置和測試管道處理的工作時間。
Data Accelerator 不僅僅是EventHub 和數據庫之間的管道。它允許用戶在繼續流式傳輸的同時重塑傳入的事件,然後將同一事件的不同部分路由到不同的數據存儲,同時提供健康監控和整個管道狀態的警報。
Data Accelerator 還提供配置UI 和規則/查詢設計器體驗,使用戶無需編寫任何代碼即可啟動和運行。
此外,任何進行流數據處理的人通常都需要使用滑動窗口處理數據,或處理延遲到達數據,或者隨時間累積數據。Data Accelerator 支持並簡化了這些高級功能的使用。
最後,微軟提到,Data Accelerator支援dev-test循環的快速驗證週期,其中查詢針對本地採樣的事件運行在部署之前就能迭代修正到可用,這可以節省大量測試工作管道處理的時間。