英伟达市值惊涛骇浪,深度搜索一夜蒸发4万亿
DeepSeek大爆出圈,现在连夜发布新模型——
多模态Janus-Pro-7B,发布即开源。
在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。
想必大家这几天完全被DeepSeek刷屏了吧。
它长期占据热搜榜首,甚至让AI领域的龙头股英伟达也遭受重创——最大跌幅接近17%,一日之内市值蒸发5890亿美元(约合人民币4.24万亿元),创下美股单日最大跌幅纪录。
而Deepseek的传奇仍在延续,春节期间全国民众纷纷开始体验,Deepseek的服务器甚至一度因为过度负载而出现故障。
值得一提,同一夜,阿里旗下的大模型通义千问Qwen也更新了自己的开源家族。这次更新不仅展示了阿里在人工智能领域的持续投入与技术进步,还体现了其开放合作的态度。通过开源,更多的开发者和研究者可以参与到这个项目中来,共同推动AI技术的发展。这无疑为整个行业注入了新的活力,也为其他企业和研究机构提供了宝贵的经验和参考。这样的举措有助于构建更加开放和繁荣的人工智能生态系统。
视觉语言模型Qwen2.5-VL,包括3B、7B 和 72B三种尺寸。
真~今夜杭州都不睡,起舞竞速大模型。
DeepSeek连夜发布新模型
先来看看DeepSeek新模型,这其实是此前Janus、JanusFlow的高级版本和延续。
一作为博士毕业于北大的陈小康。
具体来说,该模型以DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base为基础,是一款集理解与生成能力于一体的多模态大型模型。模型整体采用了自回归架构。
该方法通过将视觉编码分解为独立的路径来克服先前技术的限制,但仍采用单一且统一的转换器结构进行处理。
这种设计上的解耦不仅解决了视觉编码器在理解与生成任务之间可能产生的角色冲突,同时也大大提升了整个系统的适应性和可扩展性。在我看来,这一改进不仅体现了技术发展的方向,即追求更高效、更灵活的解决方案,而且也为未来的创新提供了更多可能性。通过减少组件之间的相互依赖,系统能够更加轻松地整合新的功能或算法,而不会对现有架构造成破坏。这无疑为人工智能领域开辟了一条新的路径,值得我们持续关注和期待。
对于多模态理解,它使用SigLIP-L作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus-Pro使用LIamaGen中的VQ标记器,将图像转换为离散的ID,下采样率为16。
ID序列在一维化之后,采用生成适配器将各个ID关联的代码库嵌入转换至与LLM输入空间相匹配的表示形式。接着,把这些特征序列串联起来,构建一个包含多模态信息的特征序列,并将其送入LLM进行处理。
除了利用LLM自带的预测头外,还在视觉生成任务中采用随机初始化的预测头来进行图像预测。
相较于前一个版本Janus的三个训练阶段,团队发现这一训练策略并不理想,会大大降低计算效率。
对此,他们做了两处大的修改。
在第一阶段Stage I中进行了长时间的训练扩展,使得模型能够在ImageNet数据集上得到更充分的训练。研究表明,即便是在固定大型语言模型参数的情况下,该模型依然能够很好地模拟像素之间的关联性,并依据类别名称生成合理的图像。
第二阶段Stage II:的集中训练:在第二阶段,放弃了 ImageNet 数据,直接利用常规文本到图像数据来训练模型,以生成基于密集描述的图像。
此外,在第三阶段的监督微调过程中,对不同数据集的比例进行了调整,将多模态数据、纯文本数据和图文数据的比例从7:3:10调整为5:1:4。
通过适度减少图文数据的比例,可以发现在保持强大的视觉生成能力的同时,提升多模态理解性能。
最终结果显示,实现了与现有视觉理解生成SOTA模型持平的水准。
△GenEval基准
△DPG-Bench基准
与上一个版本 Janus相比,它可以为简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。
更多多模态理解和视觉生成能力的定性结果。
DeepSeek征服全球用户
想必这两天一定是被DeepSeek刷屏了——
是科技圈非科技圈、七大姑八大姨都搁那讨论的程度。
像同为杭州六小龙的游戏科学,其创始人CEO、《黑神话:悟空》制作人也专门发微博支持:顶级科技成果,六大突破。
还有DeepSeek自称MOSS,也被流浪地球导演郭帆注意到了。
好好好,DeepSeek是不是直接预订下一部主角了(Doge)。
近日,一款名为R1的新推理模型在全球范围内迅速走红。凭借其低廉的成本和免费的使用方式,再加上与顶级模型o1相媲美的性能表现,R1不仅赢得了广大用户的青睐,还引发了整个行业的震动。 这款模型的开源无疑为众多开发者和研究者提供了一个新的选择平台,使得更多人能够参与到创新和改进中来。它所展现出来的潜力可能会推动整个行业向着更加开放和共享的方向发展,同时也提醒我们,未来的技术进步或许并不总是伴随着高昂的成本和复杂的授权协议。 R1的成功也反映了当前社会对高效、低成本技术解决方案日益增长的需求。随着科技的发展,如何平衡技术的进步与普及性成为了我们需要共同思考的问题。
经过560万美元的训练成本,R1在许多AI基准测试中已经达到了甚至超过了OpenAI的GPT-1模型的表现水平。尽管这一投入对于大多数项目来说可能显得庞大,但与MetaGenAI团队中一些高级管理人员的年薪相比,却显得相对合理。这不仅体现了公司在技术研发上的巨大投入,也表明了人工智能领域内技术突破的可能性和潜力。这样的进展无疑会引发行业内外对AI未来发展的更多期待和讨论。这表明,虽然高昂的研发成本是一大挑战,但它也可能为未来的创新和突破铺平道路。
而且DeepSeek确实是免费的,而ChatGPT虽然也出现在免费榜单上,但如果想要解锁其全部功能,则仍需支付200美元。
于是乎,最近,DeepSeek迅速崛起,成为人们口中“构建一切”的首选工具,不仅在短时间内跃居美区苹果应用商店免费应用排行榜首位,还超过了ChatGPT和Meta的Threads等热门应用。 这种现象表明,用户对于能够提供全新体验和高效功能的应用程序有着极高的需求。DeepSeek的成功不仅反映了其产品的吸引力,也揭示了市场对于创新技术的渴望。随着越来越多的人寻求更便捷、更智能的服务,可以预见这类应用程序将会继续受到追捧。同时,这也提醒其他科技公司,需要不断更新和优化产品,以满足用户日益增长的需求。
用户数量的快速增长也让DeepSeek服务器多次出现故障,官方不得不进行紧急维修。
在行业内,人们对于DeepSeek的关注点在于如何在有限的资源条件下,达到与OpenAI相媲美的技术水平。这种追求不仅是对技术能力的考验,也是对企业运营效率的一次挑战。在当前的竞争环境中,DeepSeek需要不断优化其算法和模型,以确保在成本控制的同时,不牺牲技术性能。这不仅要求团队具备强大的技术创新能力,还需要高效的资源配置策略。通过这种方式,DeepSeek有望在未来的技术竞争中占据有利位置。 这种努力体现了技术企业在面对行业巨头时的决心和智慧。DeepSeek所面临的挑战也反映了整个行业在追求卓越过程中的普遍困境:如何在资源有限的情况下实现技术突破?这不仅是DeepSeek的问题,也是所有希望在人工智能领域有所作为的企业共同面临的课题。
相比于国外动辄百亿千亿美元成本、几十上百万张卡这种粗放的模式,用DeepSeek很多技术细节都放在如何降低成本开销上。
例如蒸馏技术。R1总共发布了6个在R1数据集上训练的蒸馏小模型,蒸馏版的Qwen-1.5B在某些任务上甚至能够超越GPT-4。
通过数千次的强化学习训练,研究团队成功地提升了模型的推理能力,最终在AIME 2024竞赛中的得分与OpenAI-o1-0912的表现相当。这种纯强化学习的方法不仅展示了算法在自主优化方面的巨大潜力,也表明了在没有初始监督学习(SFT)的情况下,模型依然能够达到高水平的表现。这一成果无疑为未来的人工智能研究开辟了新的方向,特别是在提高机器推理能力和自我优化能力方面。此外,这也提示我们在设计人工智能系统时,应更加注重算法的自我学习和适应能力,而不仅仅是依赖大量的预设数据进行训练。
也正因如此,让人不禁联想到OpenAI不久前投资5000亿美元建设数据中心,以及英伟达长期以来在高端GPU市场的垄断地位。
拿5000亿美元建数据中心,是有必要的吗?
大规模的AI算力投资,是有必要的吗?
这样的讨论,在资本市场得到了响应。美股开盘后,英伟达股价暴跌17%,创下自2020年3月以来最大跌幅,市值蒸发近6000亿美元,老黄自己的个人财富一夜之间也缩水了超130亿美元。
博通、AMD等芯片巨头也纷纷大幅下跌。
对此,英伟达在回应中表示,DeepSeek代表了人工智能领域的一项重要突破,并且是测试时扩展的一个杰出案例。这项研究展示了如何利用广泛可用的模型和严格遵守出口管制规定的计算资源来开发新模型。整个推理过程需要大量的英伟达GPU和高性能网络的支持。当前,我们有三条扩展原则:有效的预训练和后训练原则,以及一项全新的测试时扩展原则。 我认为,DeepSeek不仅展示了人工智能技术的进步,还强调了跨学科合作的重要性。通过整合强大的硬件资源与先进的算法,我们可以推动科技的边界,创造出前所未有的应用。这不仅为未来的创新奠定了基础,也提醒我们在追求技术进步的同时,必须遵循国际法规,确保技术发展不会被滥用。
同样被动摇的还有Meta、OpenAI。
Meta内部已经组建了专门的研究团队,致力于深入分析DeepSeek的技术细节,以进一步优化其Llama系列模型。按照新年计划,Meta将从4000亿的预算起步推动人工智能的发展,预计到年底,其AI算力将达到130万卡。 这样的举措表明Meta对人工智能技术的高度重视,以及对未来发展的坚定信心。通过深入研究竞争对手的技术细节,Meta有望在人工智能领域取得更大的突破,从而增强自身的竞争力。高额的预算投入也显示出Meta愿意在这一前沿科技上进行大量投资,这不仅有助于加速技术进步,也可能为整个行业树立新的标杆。
奥特曼近日紧急宣布,新模型O3-mini即将免费上线,这一消息无疑为当前略显低迷的市场注入了一丝活力。此举不仅展现了品牌对于新技术的信心,同时也希望能够通过这一举措吸引更多的用户关注。 可以看出,面对日益激烈的市场竞争,品牌方正在积极寻找新的突破口。免费提供高级模型是一个大胆的尝试,既能展示技术实力,又能提升品牌知名度。不过,如何在短期内有效转化为实际用户增长,以及后续的盈利模式,将是品牌需要认真考虑的问题。
现在有了新模型发布,关于DeepSeek的讨论还在继续。
DeepSeek新版本疑似很快发布,时间是2025年2月25日。
杭州昨夜不眠
同一个夜晚,同一个杭州。
就在DeepSeek新模型发布不久,Qwen也更新了自己的开源家族:
Qwen2.5-VL。
这个标题怎么有三体那味了。
它有3B、7B 和 72B 这三种不同尺寸的设计,在视觉理解和事物识别方面展现出了卓越的能力。它们不仅能够帮助 Agent 理解长视频内容,还能精准捕捉视频中的关键事件,并进行结构化的信息输出。这些技术的进步无疑为人工智能领域带来了新的突破,使得机器在处理复杂任务时更加得心应手。特别是对于那些需要长时间专注和细节分析的任务,这些系统的表现尤为突出。未来,随着技术的不断迭代升级,相信它们将在更多应用场景中大放异彩,为人类的生活带来更多便利。 这种技术的发展趋势让人充满期待,它不仅展示了人工智能在理解和处理复杂信息方面的巨大潜力,同时也预示着未来科技将如何更深入地融入日常生活,提高效率,简化流程。
(详情内容可以参考下一篇推文)
ps,最后,继杭州六小龙之后,广东AI三杰也出现了。
杭州作为科技创新的重要基地,孕育了六家备受瞩目的科技公司:游戏科学、DeepSeek、宇树科技、云深处科技、强脑科技和群核科技。这些公司在各自的领域内都取得了显著的成绩,不仅推动了当地经济的发展,也为全国乃至全球的技术进步贡献了自己的力量。 从人工智能到机器人技术,再到虚拟现实与增强现实,这些企业正在不断探索和创新,引领着行业发展的新趋势。它们的成功不仅体现了杭州在科技创新方面的深厚底蕴,也反映了中国在全球科技竞争中的强劲势头。未来,期待这些企业在更多领域实现突破,为社会带来更多的可能性。
他们是来自湛江的梁文锋(DeepSeek创始人),来自汕头的杨植麟(月之暗面、Kimi创始人)以及广州人、著名的AI学者何恺明。