馬斯克：AI訓練去年就已耗盡現實世界的所有資料

馬斯克在CES期間受訪時指出，現實世界能用來訓練AI模型的資料，已經消耗的差不多了。馬斯克表示，基本上，AI訓練已經將人類累積的知識全數耗盡，而這個時間點就是去年（2024年）。

馬斯克的這一觀點呼應了OpenAI前科學長Ilya Sutskever在去年12月機器學習會議「NeurIPS」上的說法，Sutskever當時表示，AI產業能夠消耗的數據已經達到了頂峰。

面對現實世界資料的枯竭，馬斯克暗示合成資料（synthetic data）將是未來的發展方向。

他指出，補充現實世界數據的唯一方法就是合成數據，由AI自行產生用於訓練的數據，透過合成數據，AI將能夠為自己評分，並展開自我學習的過程。

事實上，許多科技巨頭已經開始使用合成資料來訓練AI模型，微軟、Meta、OpenAI及Anthropic等企業已經在其AI模型訓練中廣泛應用合成資料。

科技市場研究機構Gartner估計，2024年AI及分析計畫使用的資料中，約有60%是合成資料。

例如，微軟在1月8日開源的AI模型「Phi-4」就是透過合成資料結合現實世界資料進行訓練的，Google的「Gemma」模型也採用了類似的方法。

Anthropic使用部分合成資料開發了表現最佳的系統之一“Claude 3.5 Sonnet”，而Meta則運用AI產生資料來微調其最新推出的Llama系列模型。

WONGCW 網誌