AI訓練數(shù)據(jù)面臨枯竭,馬斯克提出合成數(shù)據(jù)解決方案
近日,馬斯克在CES大會上發(fā)表觀點,指出訓練AI模型的可用數(shù)據(jù)已所剩無幾。
據(jù)馬斯克稱,AI訓練已耗盡了人類累積的全部知識,而這一時間點出現(xiàn)在去年(2024年)。
馬斯克的觀點與OpenAI前首席科學家Ilya Sutskever去年在NeurIPS機器學習大會上的說法相呼應(yīng)。Sutskever當時表示,AI行業(yè)可消耗的數(shù)據(jù)已達到峰值。
面對現(xiàn)實世界數(shù)據(jù)的匱乏,馬斯克暗示合成數(shù)據(jù)將成為未來的發(fā)展方向。
他強調(diào),補充現(xiàn)實世界數(shù)據(jù)的唯一途徑是合成數(shù)據(jù),即由AI自行生成用于訓練的數(shù)據(jù)。通過合成數(shù)據(jù),AI能夠自我評估,并進行自我學習。
實際上,許多科技巨頭已開始使用合成數(shù)據(jù)訓練AI模型。微軟、Meta、OpenAI和Anthropic等公司已將其廣泛應(yīng)用于AI模型訓練中。
市場研究機構(gòu)Gartner估計,2024年AI和分析項目中約60%的數(shù)據(jù)將是合成數(shù)據(jù)。
例如,微軟于1月8日開源的AI模型Phi-4是結(jié)合合成數(shù)據(jù)和現(xiàn)實世界數(shù)據(jù)進行訓練的。谷歌的Gemma模型也采用了類似方法。
Anthropic使用部分合成數(shù)據(jù)開發(fā)出表現(xiàn)出色的系統(tǒng)Claude 3.5 Sonnet。Meta則利用AI生成數(shù)據(jù)對推出的最新Llama系列模型進行微調(diào)。
(舉報)