重大失誤?NASA全面向AWS雲端遷移數據卻忽略了訪問成本
去年,NASA選擇了亞馬遜雲服務(AWS)來託管地球科學和ESDIS信息系統的數據。新數據庫可方便地整理相關任務信息,預計存儲需求會從當前的32PB增長到近250PB 。然而除了額外的容量需求,該機構似乎忘記了AWS的數據訪問和檢索成本,即所謂的“出口費用”。
資料圖(來自:NASA)
當將數據從雲端移動到另一個區域(比如供科學家進行分析的本地工作站)時,NASA 將不得不在按月收取的服務費的基礎上,再支付一筆額外的費用。
換言之,檢索的數據越多,相關的開銷舊越大。目前該機構將數據本地存儲在12 個分佈式的活動檔案中心(DAAC)中,但希望在未來幾年完成全面的雲端遷移。
初次轉移計劃已在今年一季度開展,但相關數據都來自何處、NASA 又是如何精確到215PB 的呢?
據悉,NASA 是根據該機構即將開展的15 次訪問來估算的,預計每日將產生100TB 以上的信息。
其中包括NASA-ISRO 合成孔徑雷達(NISAR)和地表水與海洋地形(SWOT)衛星的數據,這部分將率先上傳到Earthdata Cloud 。
若該機構可以負擔得起這部分數據出口費用,那將所有這些數據存儲在雲端(而不是像現在這樣分散),將對NASA 研究人員大有裨益。
2017 ~ 2025 數據增長量(藍色)/ 提取速度(橙色)
遺憾的是,根據NASA 監察長辦公室在今年3 月份發布的一份審計報告,相關模擬並不能準確地得出ESDIS 和EOSDIS 的出口費用將有多高。
若NASA 出於成本控制的原因而限制數據的輸出量,此舉也將帶來一些潛在的風險,即科學數據對最終用戶的可訪問性將大大地降低。
基於此,該報告提出了三點建議:
首先,一旦NISAR 和SWOT 投入運營並提供了足夠的數據,NASA 必須完成獨立的分析,以確定雲遷移和保障當前DAAC 運營的長期財務可持續性。
其次,適當納入機構指導,以在製定數據管理計劃的早期階段,做好ESDIS 和OCIO 的協調工作。
第三,確保在DAAC 分類過程中考慮所有適用的信息類型,在確定影響級別時考慮適當的前提,並對相關流程做到標準化。