AI时代的瓶颈挑战:数据稀缺现状何解?
1月9日消息,据TechCrunch报道,马斯克与其他人工智能专家达成共识,认为现实中用于训练AI模型的数据资源已基本枯竭。
在周三晚间与 Stagwell 董事会主席马克・佩恩的直播对话中,马斯克表示:“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”
马斯克此番言论与前 OpenAI 首席科学家伊利亚・苏茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 会议上的观点相似。苏茨克弗曾指出,AI 行业已经达到了所谓的“数据峰值”,并预测未来缺乏足够的训练数据,将迫使 AI 模型的开发方式发生改变。
马斯克认为,合成数据(注:即人工智能模型自我生成的数据)将是未来的关键。“补充现实世界数据的最佳方式是借助合成数据,即让AI自行生成训练数据。AI将进行自我评估,并通过这一持续的学习过程不断提升自身性能。”
目前,多家科技企业如微软、Meta、OpenAI和Anthropic已开始采用合成数据来训练其主要的人工智能模型。根据Gartner的预测,至2024年,用于人工智能和数据分析项目中的60%数据将会是通过合成方式产生的。
使用合成数据的一个明显优势在于能够降低开销。据人工智能创业公司Writer透露,他们基于PalmyraX004模型的研发几乎全靠合成数据完成,总投入约为70万美元。相比之下,类似规模的OpenAI模型研发费用则高达约460万美元。
然而,合成数据虽然有用,但也存在一定的风险。研究显示,使用合成数据可能会导致模型性能降低,输出结果不仅缺乏新颖性,还可能更加偏向某一特定方向,从而严重影响其实际应用效果。由于模型是利用自动生成的合成数据进行训练的,如果这些数据本身存在偏见或局限性,那么最终模型的输出也会受到这些因素的影响。