无言的默契:Meta WebSSL纯图训练颠覆视觉语言学习
4月25日消息,科技媒体marktechpost昨日报道,Meta公司正式发布了WebSSL系列模型,该系列模型的参数量覆盖了3亿至70亿的范围,并且全部基于纯图像数据进行训练。这一举措旨在深入探索无语言监督下的视觉自监督学习(SSL)的可能性与潜力。 Meta公司的这项研究无疑为人工智能领域注入了一股新鲜活力。在当前的语言模型占据主导地位的情况下,转向以视觉为中心的研究方向显得尤为大胆和具有前瞻性。通过利用大规模的图像数据集来实现自我学习,不仅能够减少对标注数据的依赖,还可能开辟出全新的应用场景和技术路径。尤其值得注意的是,这种技术进步或许会在未来帮助解决跨语言交流障碍等问题,进一步推动全球化的信息流通和平等获取知识的机会。总的来说,这是一次值得期待的技术革新尝试。
以OpenAI的CLIP为代表的语言-图像模型正在成为学习视觉表征的主流选择,其在视觉问答(VQA)和文档理解等多模态任务中的表现尤为亮眼。然而,这类模型也面临着不少难题,尤其是数据集获取的复杂性和数据规模带来的限制。语言依赖的问题日益凸显,这不仅影响了模型性能的进一步提升,也对实际应用提出了更高的要求。 我认为,虽然CLIP及其同类模型展现了强大的跨模态学习能力,但如何解决数据获取的瓶颈仍是未来发展的关键。一方面,高质量标注数据的成本居高不下,制约了模型训练的深度与广度;另一方面,过度依赖语言信息可能忽视了视觉本身的丰富内涵。因此,未来的研究方向或许应更加注重平衡语言与视觉特征的关系,并探索无监督或弱监督的学习方法,从而让这些模型能够更高效地应对多样化的应用场景。 总的来说,语言-图像模型为多模态任务带来了革命性的突破,但在实际落地过程中仍需克服多重障碍。只有不断优化算法设计,同时兼顾技术可行性和成本效益,才能真正实现这一领域的长远发展。
Meta公司在HuggingFace平台上推出了WebSSL系列模型,该系列模型包含了DINO和Vision Transformer(ViT)两种架构,参数量从3亿到70亿不等,旨在解决相关行业面临的痛点。
这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。
WebSSL模型采用了两种视觉自监督学习方法:一种是联合嵌入学习(DINOv2),另一种是掩码建模(MAE)。在训练过程中,所有图像的分辨率均为224×224,并且视觉编码器被冻结,以确保实验结果的差异仅来源于不同的预训练策略。
模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。
实验结果显示,WebSSL模型在视觉问答(VQA)任务中的表现随着参数规模的扩大呈现出接近对数线性的增长趋势。相比之下,CLIP模型的表现则在参数规模超过30亿之后逐渐趋于平稳,显示出其性能增长的空间已较为有限。 这一发现表明,在特定任务中,模型的参数量与性能之间并非简单的线性关系,而是存在一个复杂的优化过程。对于WebSSL而言,更大的参数规模似乎能够持续带来显著的性能提升,这为未来的大规模模型设计提供了重要参考。然而,CLIP的表现则提醒我们,单纯依赖增加参数数量可能并不是提升模型性能的最佳策略。如何在参数效率与实际效果之间找到平衡点,或许才是未来研究的关键所在。这不仅关乎技术进步的速度,也直接影响到资源分配的合理性以及模型的实际应用价值。
WebSSL在OCR和图表理解任务中表现出色,特别是在经过数据筛选后,仅利用1.3%的富文本图像进行训练便超过了CLIP模型,在OCRBench和ChartQA任务中的性能提升了13.6%。
此外,通过微调进一步优化后,高分辨率(518px)模型在性能上更接近SigLIP等顶尖高分辨率模型,尤其在文档处理任务中展现出色的表现。
WebSSL模型在缺乏语言监督的情况下,依然表现出与预训练语言模型(如LLaMA-3)相当的对齐能力,这说明大规模视觉模型能够潜在地掌握与文本语义相关的关键特征。
同时,WebSSL在常规基准测试(如ImageNet-1k分类、ADE20K分割任务)中表现出色,某些情况下超越了MetaCLIP和DINOv2。
附上参考地址
Scaling Language-Free Visual Representation Learning
Hugging Face
GitHub