Eagle 2.5横空出世:8B参数视觉语言模型能否问鼎AI之巅?
4月23日消息,科技媒体marktechpost于4月22日发表文章指出,英伟达近期发布了Eagle2.5,这是一款专为长上下文多模态学习设计的视觉-语言模型(VLM)。
这款模型专精于解析大规模视频与图像,对高分辨率图像和长视频序列尤为擅长。尽管其参数量仅达80亿,但在Video-MME基准测试(512帧输入)中的得分达到了72.4%,表现可与Qwen2.5-VL-72B和InternVL2.5-78B等参数规模更大的模型相媲美。
创新训练策略
Eagle2.5的出色表现得益于两大核心训练策略:信息优先采样与渐进式后训练。信息优先采样强调在模型训练初期集中关注高质量数据,确保模型能够快速捕捉关键信息,从而提升整体性能。而渐进式后训练则通过逐步增加复杂度的方式,让模型在面对多样化任务时更加游刃有余。 在我看来,这种训练方式不仅体现了技术上的创新,更反映了人工智能领域对效率与质量并重的追求。尤其是在当前海量数据泛滥的时代,如何从庞杂的信息中提取出最有价值的部分成为了一个重要课题。Eagle2.5通过信息优先采样的方法,为解决这一难题提供了一种全新的思路。同时,渐进式后训练的引入也让我们看到,AI系统的成长并非一蹴而就,而是需要一个循序渐进的过程。这不仅是技术层面的进步,也是对未来应用场景的一种深刻思考。未来,随着更多类似技术的发展,我们有理由相信人工智能将在各个领域展现出更大的潜力。
信息优先采样通过图像区域保留(IAP)技术,在保留超过六成原始图像区域的同时,有效降低了宽高比失真的问题;而自动降级采样(ADS)则能够依据上下文长度灵活调整视觉与文本输入的比例,从而在保障文本完整性的同时,进一步优化视觉细节的表现。 我认为这一技术的突破为多模态内容处理提供了全新的思路。尤其是在新闻报道领域,这种既能兼顾图像核心信息又能保证文字叙述流畅的技术,无疑会极大提升信息传递的效果。例如,在面对需要快速发布但又不能忽略细节的突发新闻时,这项技术可以让我们在有限的时间内高效产出高质量的内容,既不会遗漏关键画面,也能让读者轻松理解背景故事。未来,随着这类技术的普及和完善,相信会对整个媒体行业带来深远的影响。
通过渐进式的后训练方法逐步扩大模型的上下文窗口,从32K tokens扩展到128K tokens,从而保证模型在不同输入长度下都能维持稳定的性能,同时有效防止对特定上下文范围产生过拟合。这些策略与SigLIP视觉编码以及MLP投影层相结合,进一步增强了模型在多任务场景下的适应性和灵活性。
定制数据集
Eagle2.5的训练数据管道融合了丰富的开源资源,并结合了定制化的数据集Eagle-Video-110K,这一数据集特别针对长视频的理解进行了优化设计,采用了双重标注的方式以确保数据质量。在我看来,这种结合开源与定制化数据集的做法非常值得肯定,它不仅能够充分利用现有的优质资源,还能根据特定需求补充更贴合实际应用场景的数据。尤其是在处理长视频时,双重标注方式可以有效提升模型对复杂场景和多变情境的理解能力,这对于推动相关技术的发展具有重要意义。未来,希望能够在更多领域看到类似创新方法的应用,进一步丰富人工智能的技术生态。
自上而下的叙事方式通过故事化的章节划分,辅以人工标注的元数据与GPT-4生成的详尽描述,构建出一个系统化的框架。这种方法强调从宏观角度出发,将复杂的信息条理化,便于读者理解整体脉络。而自下而上的路径则是借助GPT-4为短小片段生成问答对,从中提炼出具体的时空细节。这种做法更注重挖掘局部信息的深度,让细节成为连接全局的桥梁。 在我看来,这两种方法各有千秋,互为补充。自上而下的方式适合用来梳理复杂的背景或宏大主题,它能帮助人们快速抓住核心要点;然而,若想深入了解某一领域的具体动态,则需要依靠自下而上的精细分析。在实际应用中,两者结合使用往往能取得最佳效果,既能保证信息的全面性,又能兼顾其精确度。这就像拼一幅完整的拼图,既要有大的轮廓作为指引,也要关注每一块拼图的独特之处,这样才能真正拼凑出一幅清晰的画面。
利用余弦相似度进行筛选,数据集注重多样性的提升,同时减少冗余,保证叙事的连贯性以及细粒度的标注方式,这一改进大幅增强了模型在高帧数(≥128帧)任务中的性能表现。
性能表现
Eagle2.5-8B在多个视频和图像理解任务中表现优异。在视频评测方面,其在MVBench上的得分达到74.8,在MLVU上为77.6,在LongVideoBench上则为66.4;而在图像评测方面,DocVQA获得了94.1分,ChartQA为87.5分,InfoVQA为80.4分。
消融研究显示,去掉IAP和ADS会引发性能下滑,而采用渐进式训练方法以及引入Eagle-Video-110K数据集,则能实现更为稳健的性能提升。
附上参考地址
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
GitHub 页面
项目页面