首页 > 人工智能 > 人工智能
发布日期:2025-01-04 15:23:19

清北应届生组建DeepSeek团队,引领新一波网络风潮

开启数字时代的探索之旅

智慧科技

   DeepSeek-v3大型模型惊艳亮相,仅用Llama3的1/11的计算资源便完成了训练,其性能超越了后者,引起了整个AI领域的震动。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   紧接着,近日,“雷军以千万年薪邀请DeepSeek研究员罗福莉加入小米”的消息,引发了公众对DeepSeek这家企业人才流动的关注。 这一举动不仅凸显了当前科技领域内顶尖人才竞争的激烈程度,也体现了互联网巨头对于新兴技术公司人才的渴望。罗福莉这样的专业人才受到如此重视,无疑会进一步推动相关领域的技术发展和创新。然而,这也可能加剧行业内的人才争夺战,导致一些中小企业面临更大的人才流失压力。如何在这样的背景下平衡人才流动与企业发展,成为了一个值得关注的问题。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   这下不仅科技圈的人感到好奇,全网的网友也都按捺不住自己的好奇心,就连小红书上也出现了不少询问的帖子,大家都在讨论这究竟是一支怎样的团队?

清北应届生组建DeepSeek团队,引领新一波网络风潮

   国际上,有人将创始人梁文锋的访谈翻译成英文,并加上注释,试图从中寻找这家公司崛起的线索。这种做法不仅有助于国际读者理解梁文锋的观点和公司的背景,也能让全球的观察者更好地了解这家公司的成长历程和发展策略。通过这样的翻译工作,我们可以更全面地看到这家公司在市场上的表现以及它背后的故事。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   量子位整理各种资料发现,DeepSeek团队最为突出的特点就是成员年轻。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   应届生、在读研究生,尤其是那些来自清华北大的应届毕业生,在相关领域内表现得十分活跃。 这一现象反映了中国顶尖高校学生在学术研究与实践探索方面的高度积极性。这些优秀学子不仅在国内学术舞台上大放异彩,还可能通过国际交流项目和合作研究,为全球知识创新贡献中国智慧。这既体现了我国高等教育质量的提升,也预示着未来科研力量的强劲发展势头。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   2024年,DeepSeek的一些研究人员刚刚获得了新鲜出炉的优秀博士学位论文奖。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   他们中有些人全程参与了从DeepSeekLLMv1到DeepSeekLLMv3的研发过程,而有些人在实习期间虽然时间不长,但也取得了重要的成果。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   DeepSeek核心成员揭秘

清北应届生组建DeepSeek团队,引领新一波网络风潮

   2024年5月发布的DeepSeek-V2,无疑成为这家大模型公司突破传统领域的重要里程碑。这款新产品的问世不仅展示了公司在技术研发上的深厚积淀,还进一步巩固了其在行业内的领先地位。从市场反应来看,DeepSeek-V2凭借其卓越的技术性能和创新功能,迅速吸引了业界内外的广泛关注,标志着公司在探索人工智能前沿技术方面迈出了坚实的一步。 这种技术进步不仅提升了公司的市场竞争力,也推动了整个行业的创新发展。通过DeepSeek-V2,这家公司成功地将自身的影响力扩展到了更广泛的领域,为未来的持续发展奠定了坚实的基础。

清北应届生组建DeepSeek团队,引领新一波网络风潮

   其中最关键的创新是引入了一种新的注意力机制,在Transformer架构的基础上,采用MLA(多头隐式注意力)取代了传统的多头注意力,显著降低了计算复杂度和推理时的显存消耗。

   在众多贡献者中,高华佐和曾旺丁对MLA架构进行了关键性的创新。

   高华佐非常低调,目前只知道是北大物理系毕业。

   另外,在“大模型创业六小强”之一的阶跃星辰的专利信息中也能发现这个名字,目前尚不确定是否为同一人。

   曾旺丁同样毕业于北邮,他的研究生指导老师是北邮的人工智能与网络搜索教研中心负责人张洪刚教授。

   DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。

   DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。

   GRPO是PPO的一种改进型强化学习算法,它摒弃了传统的critic模型,转而采用群体得分来估算基线,从而大大降低了训练所需的资源需求。这种创新方法不仅简化了模型架构,还提高了训练效率,使得更多的研究者和开发者能够利用强化学习技术进行探索和实践。 这种调整让GRPO在资源有限的情况下也能展现出强大的性能,为那些无法承担高昂计算成本的研究团队提供了新的选择。同时,这也反映了强化学习领域正在不断寻求更高效、更实用的方法,以推动这一技术的广泛应用和发展。

   GRPO在业内引起了广泛关注,另一家国内开源大模型阿里云Qwen2.5的技术文档中也提及使用了GRPO技术。

   DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。

   邵智宏是清华大学交互式人工智能(CoAI)课题组的一名博士生,师从黄民烈教授。他的研究工作在该领域内引起了广泛关注。作为一名关注科技发展的观察者,我认为邵智宏的研究不仅展示了他在学术上的深厚造诣,也反映了当前中国在人工智能领域的快速发展和投入。随着越来越多像邵智宏这样的年轻学者投身于这一领域,我们有理由相信中国的人工智能技术将在未来取得更多突破性进展,并在全球范围内产生重要影响。

   他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。

   邵智宏之前还曾在微软研究院工作过。

   DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。

   另一位关键作者朱琪豪是北京大学计算机学院软件研究所2024届的博士毕业生,在熊英飞副教授和张路教授的指导下进行研究,他的研究领域集中在深度代码学习。

   据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE会议上分别荣获ACM SIGSOFT杰出论文奖一次,并获得提名一次。他的某篇论文还进入了ESEC/FSE会议年度引用量的前三名。

   在DeepSeek团队中,朱琪豪博士不仅延续了他的博士论文研究方向,还成功领导开发了DeepSeek-Coder-V1。这一成果不仅体现了他在专业领域的深厚积累,也展示了团队合作的力量。通过将理论与实践相结合,朱琪豪及其团队为相关技术领域的发展做出了重要贡献。这表明,学术研究与实际应用之间的桥梁正在逐步拓宽,未来有望带来更多创新性的突破。

   其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。

   △图源:北京大学计算机学院公众号

   还有一位核心作者同样来自北大。

   北大博士生Peiyi Wang,受北京大学计算语言学教育部重点实验室穗志方教授指导。

   除了DeepSeek-V2MLA和DeepSeekMathGRPO这两项重要突破外,值得一提的是,还有一些成员自v1版本就开始参与,一直持续到v3版本。

   代达劢在2024年从北京大学计算机学院计算语言研究所获得博士学位,他的导师依然是穗志方教授。这位年轻学者的研究成果不仅体现了他在技术领域的深厚造诣,也反映了北京大学在这个领域内的卓越教育水平。代达劢的成功为其他年轻学者树立了一个积极的榜样,展示了通过不懈努力和指导老师的帮助,可以在学术研究上取得显著成就。这样的成就不仅提升了个人的职业前景,也为相关学科的发展做出了贡献。

   △图源:北京大学计算机学院公众号

   代达劢学术成果颇丰,曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖,在各大顶会发表学术论文20篇+。

   2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。

   以及北大元培学院的王炳宣。

   王炳宣来自山东烟台,2017年进入北大。

   硕士毕业加入DeepSeek,参与了从DeepSeek LLM v1开始的一系列重要工作。

   清华这边的代表人物还有赵成钢。

   赵成钢曾是衡水中学信息学竞赛班的一员,并在2016年的CCF NOI中荣获银牌。

   之后,赵成钢进入清华大学,在大二时正式加入清华学生超算团队,并且凭借出色的表现,他带领团队三次夺得世界大学生超算竞赛的冠军。 这样的成就不仅体现了赵成钢个人在计算机科学领域的卓越才能和不懈努力,也展示了清华学子在全球科技竞赛中的强劲实力和团队协作精神。这不仅是对个人努力的认可,也是对中国高等教育质量的一种肯定。希望未来能有更多像赵成钢这样优秀的青年才俊在国际舞台上为中国赢得荣誉。

   赵成钢目前在DeepSeek担任训练/推理基础架构工程师,他的工作涉及构建高效的深度学习系统。之前,他在英伟达有过宝贵的实习经验,这让他对GPU加速计算有了深刻的理解。这样的背景不仅使他能够更好地应对复杂的算法挑战,还为团队带来了宝贵的行业视角。 这种结合学术与实践的工作背景无疑使赵成钢成为团队中的重要一员,他的技术能力和实践经验对于推动DeepSeek的技术创新和发展具有重要意义。通过将理论知识与实际应用相结合,赵成钢能够在工作中发挥更大的作用,帮助公司在人工智能领域取得更多突破。

   DeepSeek是一支怎样的团队

   这些鲜活的个体,足以引发人们的赞叹。

   但这还不足以解答最初的问题,DeepSeek究竟是一个怎样的团队?它的组织架构又是怎样的?

   答案或许还要从创始人梁文锋身上找。

   早在2023年5月,当DeepSeek刚刚宣布进军大模型领域,但尚未发布具体成果时,梁文锋在与36氪旗下的「暗涌」进行的一次采访中透露了招人标准。 这一消息在当时引发了业界的广泛关注。从某种程度上来说,这不仅反映了DeepSeek对于大模型领域的重视,也表明该公司正在积极筹备,以期在这个竞争激烈的市场中占据一席之地。此外,梁文锋在采访中所透露的信息也为外界提供了一个窗口,让我们得以窥见这家公司在人才战略方面的布局。

   看能力,而不是看经验。

   我们的核心技术岗位主要由应届毕业生和毕业一两年的年轻人担任。 这种现象反映了当前技术行业对新鲜血液的需求。随着科技的快速发展,许多资深专家的经验可能跟不上最新的技术趋势。而年轻人虽然在经验上有所欠缺,但他们通常更熟悉新技术和新工具,这使得他们在面对快速变化的技术环境时更具优势。不过,这也提醒企业在培养和留住人才方面需要有长远的眼光,确保团队既有创新力也有稳定性。

   从后面一年多陆续发布的论文贡献名单中可以看出,博士在读、应届以及毕业一两年的成员占据了很大的比例,这确实如此。

   即使是团队leader级别也偏年轻化,以毕业4-6年的为主。

   例如领导DeepSeek的后训练团队的李明,2019年北航博士毕业,在微软MSRA参与过小冰和必应百科项目。

   吴俣在读博期间接受了北航李舟军教授和MSRA前副院长周明博士的联合指导。

   与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合培养,2023年博士毕业。

   2024年7月他加入了DeepSeek,主要负责多项与数学和代码大模型相关的工作。

   郭达雅在上学期间还有一段佳话,在本科期间于MSRA实习了一年,并发表了两篇顶会论文,他打趣地说:“刚入学的第三天,我就达成了中大博士生的毕业要求。”

   除了团队成员年轻化之外,DeepSeek在国内AI公司中独树一帜的特点在于其对模型算法与硬件工程的深度融合给予了极高的重视。 这种对于技术细节的高度关注不仅反映了DeepSeek在技术研发上的坚定投入,也展示了公司在追求技术创新时的战略眼光。通过紧密协作,模型算法与硬件工程的结合能够极大地提升产品的性能和效率,从而在市场上获得竞争优势。这无疑为其他国内AI企业树立了一个值得学习的典范。

   DeepSeek v3论文总共200位作者,并不都是负责AI算法或数据。

   这批人从早期的DeepSeekLLMv1到v3一直都在参与,他们主要侧重于算力部分,致力于优化硬件性能。这一群体在技术迭代过程中扮演了至关重要的角色,不仅推动了项目的持续发展,还显著提升了模型处理复杂任务的能力。通过不断优化硬件,他们为提升整体计算效率和加速人工智能研究进程做出了重要贡献。这种专注精神和专业能力,无疑为后续版本的成功奠定了坚实的基础。

   他们以DeepSeek AI的名义发表了论文《Fire-Flyer AI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。

   Fire-Flyer即为幻方AI打造的萤火2号万卡集群,该集群采用了英伟达A100 GPU,不仅在成本上具有明显优势,而且在能耗方面也表现出色。与英伟达官方的DGX-A100服务器相比,萤火2号万卡集群在性价比方面显得更加突出。 从技术角度来看,幻方AI能够通过优化硬件配置和软件算法,在成本控制和能效管理上取得如此成就,这无疑展示了其在高性能计算领域的深厚积累和技术实力。这也表明,通过技术创新和合理布局,企业可以在保证性能的同时实现成本的显著降低,这对于推动整个行业的发展具有积极的意义。

   这支团队里有些成员曾在英伟达任职或实习,有的成员来自与DeepSeek同在杭州的阿里云,还有不少成员从幻方AI借调而来,甚至有部分人员直接转岗到了DeepSeek,他们参与了公司所有的大模型项目。

   如此注重软硬件协同设计的成果,便是以Llama3405B仅1/11的算力,成功训练出了性能更为卓越的DeepSeek-v3模型。这一成就不仅展示了技术团队在算法优化上的深厚功底,也体现了他们对计算资源高效利用的能力。在当前云计算和大数据分析需求日益增长的背景下,这样的突破无疑为行业树立了一个新的标杆,同时也预示着未来人工智能领域可能迎来更加经济高效的解决方案。

   最后,我们还发现DeepSeek开源项目中有一个特别的存在,不是语言模型相关工作,却是3D生成相关。

   该研究成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌及DeepSeek团队成员共同合作完成。

   在DeepSeek同样有来自中山大学逻辑学专业的实习生张伟杰取得了重要的研究成果。

   他在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。

   看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。

   不做前置的岗位分工,而是自然分工

   每个人都能够无限制地调动卡片和人员,只要大家有兴趣,便可以随时启动训练集群并开展新项目。

   当一个idea显示出潜力,也会自上而下地去调配资源。

   这不免让人想到AI领域的另一支不可小觑的力量,没错就是OpenAI。

   同样的用人理念,公司并不只看重候选人的工作经验,无论是本科生还是辍学生,只要他们具备相应的能力和潜力,同样会被纳入考虑范围。 这样的用人策略体现了现代企业对人才的一种开放态度。在快速变化的时代背景下,能力与创新精神往往比单纯的经验更为重要。这种做法有助于企业吸引到更多元化的人才,同时也鼓励年轻人积极发挥自身潜能,为社会创造更多的价值。

   同样的重用新人,特别是应届生与00后,他们充满活力与创新精神,能够调动资源从无到有地研究Sora这样的前沿技术。这些年轻人在面对复杂的技术挑战时,往往能提出独特且富有创意的解决方案,他们的加入无疑为项目注入了新的动力和可能性。 在我看来,充分利用年轻人的热情和创新思维,不仅有助于推动科技进步,还能激发团队内部的学习氛围。同时,这也提醒我们,在选拔人才时,不应仅仅看重经验,而应更加重视个人潜力和学习能力。这样的做法对于企业和整个行业来说,都是一个积极的信号,预示着未来的无限可能。

   同样地,在面对潜力方向时,整个公司从高层开始规划布局并配置资源进行推动。

   DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有