AI推理新突破!前缀微调训练tokens大幅减少,效率提升惊人
3月2日消息,科技媒体marktechpost昨日报道,腾讯AILab与香港中文大学合作,提出了一种名为“无监督前缀微调”(UPFT)的新方法,显著提高了大型语言模型的推理效率。 这一创新方法不仅展示了学术界与产业界合作的力量,还为解决复杂的人工智能挑战提供了新的思路。随着人工智能技术的发展,如何提高模型的效率成为了一个重要课题。UPFT方法的提出无疑是一个值得欢迎的进步,它不仅能够加速计算过程,还能在一定程度上降低能耗。这对于推动人工智能技术的实际应用具有重要意义。
该方法无需进行完整的推理过程,只需要关注模型输出的前8到32个词元,就可以显著提高模型的推理效率。UPFT技术捕捉了不同推理路径中共有的关键早期步骤,在减少计算资源消耗的同时,提升了整体的推理性能。 这种方法不仅为提高深度学习模型的运行效率提供了一条新途径,而且展示了在不牺牲准确性的前提下优化算法的可能性。通过聚焦于早期的词元输出,可以预见未来更多的计算密集型应用将受益于此项技术,从而实现更高效能的推理过程。这标志着在人工智能领域向着更加实用和高效的方向迈出了重要一步。
大型语言模型在理解和生成语言方面表现优异,但增强其推理能力仍是一大难题。传统的微调方法需要大量的标注数据或复杂的拒绝采样技术,这会消耗大量资源。为解决这一问题,UPFT采用了新的策略,通过关注模型输出的初始token来提高效率,并减少了对昂贵监督的依赖。
研究发现,针对同一问题,模型生成的各种推理路径的初始步骤往往高度相似,UPFT 正是基于这种“前缀自洽性”,无需完整推理轨迹或大量标注数据,仅使用这些初始标记进行训练。
UPFT运用贝叶斯推理原理,将正确推理的概率拆解为“覆盖率”和“准确性”两个方面。通过在早期阶段对token进行训练,UPFT在探索多种推理路径的同时,保证了结果的可靠性。实验结果显示,UPFT能够将训练过程中处理的token数量减少最多达95%,同时大幅降低了时间和内存的需求。
UPFT在GSM8K、MATH500、AIME2024和GPQA等推理基准测试中表现出色。例如,在Qwen2.5-Math-7B-Instruct模型上,UPFT在减少训练和推理tokens的同时,提高了平均准确率。在复杂的推理任务中,UPFT的性能提升尤为明显,表明早期推理步骤包含了解决问题的重要信息。
附上参考地址
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models
Tencent AI Lab Introduces Unsupervised Prefix Fine-Tuning (UPFT): An Efficient Method that Trains Models on only the First 8-32 Tokens of Single Self-Generated Solutions