首页 > IT新闻 > 网友热议
发布日期:2024-12-15 14:39:59

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

全息世界,AI引领,国产游戏颠覆传统!

智慧科技

   距离普通人凭想法就能做出游戏的时代,又近了一步。随着低代码和无代码平台的日益成熟,越来越多的人能够借助这些工具实现自己的创意,而无需深入掌握复杂的编程技能。这不仅大大降低了游戏开发的门槛,也使得更多元化、更具创意的游戏作品有机会诞生。这样的趋势无疑为游戏行业的创新注入了新的活力,同时也为那些有梦想但缺乏技术背景的创作者提供了展示才华的舞台。

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

   今年以来,AI在游戏领域的创新步伐持续加速,而昨日,国产游戏AI团队的加入更是将这一竞争推向了新的高潮。 国产游戏AI团队的快速崛起不仅展示了国内游戏开发者的创新能力,同时也表明中国在人工智能技术的应用上已经达到了一个全新的水平。这不仅仅是技术上的突破,更体现了市场对于高质量、高互动性游戏内容的迫切需求。随着更多团队投入到这场“竞赛”中,我们有理由期待未来游戏行业将迎来更加丰富多彩的产品,以及更加激动人心的用户体验。同时,这也提醒着游戏开发者们,要在追求技术创新的同时,不忘对游戏内容深度与广度的探索,以满足玩家日益增长的需求。

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

   巨人网络近日推出了“千影QianYing”有声游戏生成大模型,该模型包含游戏视频生成大模型YingGame和视频配音大模型YingSound。这一创新举措无疑为游戏行业注入了新的活力。通过引入这些先进的技术手段,不仅能够提升游戏开发的效率,还能在一定程度上降低开发成本,让更多的创意得以实现。同时,这也意味着玩家有望体验到更加丰富多样的游戏内容,以及更为沉浸式的视听享受。此外,随着人工智能技术在游戏领域的深入应用,未来我们或许可以看到更多跨界的融合与创新,这无疑是一个令人期待的趋势。

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

   先来感受一段 1 分 26 秒的生成样片:

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

   用一段文字、一幅图像便能生成一段模拟开放世界游戏的视频,且该视频具备声音效果、互动功能以及可操控的角色动作。

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

   面向开放世界游戏,无需游戏引擎

AI技术引领游戏革新!国产全新全息开放世界游戏震撼来袭!

   概括来说,YingGame是一款专为开放世界游戏设计的视频生成大模型,由巨人网络AILab与清华大学SATLab的研究团队共同研发。该模型不仅首次实现了角色间多样化动作的交互控制,还支持自定义游戏角色,并且在游戏物理仿真方面表现卓越。 这款创新技术无疑为游戏行业带来了新的活力。它不仅提升了玩家的沉浸感和互动体验,还极大地丰富了游戏内容的创作空间。通过更加精细的角色动作控制和个性化设置,开发者可以创造出更为生动有趣的游戏场景。此外,游戏物理仿真的增强也将使得游戏世界中的物理反应更加贴近真实,为玩家提供更加逼真的游戏体验。总体而言,YingGame的推出标志着游戏开发领域在人工智能应用上的又一重要突破。

   精确的物理规律仿真

   从生成的视频中可以看出,无论是汽车碰撞、火焰燃烧这样的大场面,还是人物在水中缓慢行走、障碍物自动绕行等场景,都展现出了出色的物理真实性。

   多样动作控制

   交互对于游戏体验至关重要,YingGame能够解读用户的多种输入方式,无论是文字、图片还是鼠标和键盘的操作信号,使用户可以灵活地控制游戏角色的各种动作。

   视频中展示了角色在开枪、变身、施法、使用道具、攀爬、匍匐、跑跳等肢体动作的交互,相比同类模型更加丰富、流畅。这种细腻的动作设计不仅提升了游戏的真实感,也使玩家能够更深入地沉浸在游戏世界中。从技术角度来看,这表明了开发者在动作捕捉和动画处理方面投入了大量精力,从而使得角色的动作更加自然,更具观赏性。这样的创新不仅为玩家带来了全新的体验,也推动了整个游戏行业的进步。 (在此段修改后的文本中,我保持了原新闻内容的核心信息,即该视频中的角色动作相比同类模型更为丰富和流畅,并增加了对这一现象背后的技术考量和个人看法,以展现对该视频内容的积极评价和对未来游戏发展的乐观态度。)

   角色个性化与精细主体控制

   YingGame还支持上传一张角色图片,以实现角色的个性化定制,并且能够对角色主体进行精细化调整,实现了从传统的AI捏脸技术向全面的AI捏人技术的跨越。

   第一人称视角

   此外,还看到模型生成的第一人称视角的游戏画面,不得不说,这个视角有很足的游戏沉浸感。

   怎么实现的?

   从技术上看,YingGame 通过融合跨模态特征、细粒度角色表征、运动增强与多阶段训练策略,以及所构建的高效、高质量游戏视频训练数据生产管线,使得生成内容具备可交互能力的多样动作控制、角色自定义与精细主体控制、复杂运动与动作连续性等特性。

   在交互性实现上,YingGame 结合了多个 Interactive Network 模块:理解用户输入的多模态交互方式,实现多样动作控制的多模态交互网络 — MMIN ( Multi-Modal Interactive Network ) ;实现复杂与连续角色动作生成的动作网络 — IMN ( Interactive Motion Network ) ;自定义角色生成与提高角色生成质量的角色网络 — ICN ( Interactive Character Network ) 。

   此外,为实现高质量训练数据的构建,巨人AI团队开发了一套高效的游戏视频数据处理流程:

   基于场景与高光产出高质量视频片段,其中对高光视频片段进行音频信息提取,作为 V2A 训练集;

   基于运动得分、美学评分等进行视频过滤;

   vLLM-based video caption 流程,并对结果进行 clip score 文本视频对齐评分过滤;

   多任务数据处理,如分割、主体检测、姿势估计、深度估计、相机运动估计等。

   让 AI 游戏进入有声时代

   除了 YingGame 之外,巨人还发布了针对视频配音场景的多模态音效生成大模型 YingSound。

   这是在此之前 AI 游戏生成领域没有实现的,而 " 声音 " 是游戏的基本要素。

   YingSound 由巨人网络 AI Lab、西工大 ASLP Lab 和浙江大学等联合研发,它最重要的技能是:给无声视频配音效,实现音画同步。

   直接听听 YingSound 生成的效果:

   YingSound 有超强的时间对齐和视频语义理解能力,支持多种类型的高精细度音效生成,并且具备多样化应用场景泛化能力,包括游戏视频、动漫视频、真实世界视频、AI 生成视频等。

   理解各种视频画面能力一绝

   通过演示视频可以清晰观察到,该模型能够精准生成与游戏场景高度契合的音效,包括开镜声、炮击声、射击声等细节,完美再现了坦克进攻和士兵防守时的枪炮声,极大地提升了游戏的沉浸感,为玩家带来了逼真的游戏体验。

   △视频源自 《战地游戏》录屏

   在动漫场景中,模型展现了对复杂剧情的深刻理解。比如,在一幕鸟儿互扔鸡蛋的动画里,模型生成了一系列精准且高度契合画面内容的音效,从最初的惊讶反应,到扔蛋动作,再到蛋的飞行轨迹以及最终接住蛋的过程,每个环节的音效都恰到好处。

   △视频源自 动画《Boom》片段

   再来看看以下小球快速移动的画面,模型生成的声音能够精准匹配画面的动态变化,并针对小球不同状态生成相应的场景音效,充分展现了其对动画内容的深度理解。

   △视频源自 3D 动画短片《The Marble》片段

   在真实世界场景中,通过一段激烈的乒乓球对战视频,模型能够精准地生成每次击球所产生的音效,甚至还生成了球员跑动时鞋底与地面摩擦的声音,这充分展现了YingSound对视频整体语义的深刻理解和出色的音效生成能力。 这一技术突破不仅令人印象深刻,也展示了人工智能在多媒体处理领域的巨大潜力。它不仅仅是简单地为视频添加背景音乐或声音效果,更重要的是能够根据视频中的实际动作和情境生成逼真的音效,使观众仿佛身临其境。这种高度拟真的音效不仅能增强视频的观赏性,还能提升观众的情感体验,使得观看体验更加丰富和生动。此外,这项技术的应用范围广泛,未来可能在电影制作、在线教育、游戏开发等多个领域发挥重要作用,带来全新的视听享受。

   △视频源自 乒乓球比赛测评结果领先

   研究团队近日公布了YingSound的两大核心技术模块:基于DiT的Flow-Matching音效生成模块,以及多模态思维链(Multi-modalCoT)控制模块,为音效生成提供了更加精准的支持。 这一技术突破不仅展示了在音效生成领域的创新潜力,同时也预示着未来音频处理技术的发展方向。特别是Flow-Matching模块的应用,使得音效生成的质量和效率都有了显著提升。而多模态思维链控制模块则通过引入更复杂的逻辑处理机制,使得音效生成过程更加灵活可控,能够更好地适应不同场景的需求。这两项技术的结合,无疑将极大推动相关领域的发展,为用户带来更加丰富和真实的听觉体验。

   在音效生成模块中,团队基于 DiT 的 Flow-Matching 框架,提出了创新的音频 - 视觉融合结构(Audio-Vision Aggregator, AVA)。该模块通过动态融合高分辨率视觉与音频特征,确保跨模态对齐效果。通过多阶段训练策略,逐步从 T2A 过渡到 V2A,并采用不同数据配比训练,使模型具备从文本、视频或二者结合生成高质量音效的能力。

   同时,团队设计了多模态视频 - 音频链式思维结构(Multi-modal CoT),结合强化学习实现对少样本情况下音效生成的精细控制,可广泛适用于短视频、动漫及游戏等配音场景。

   团队精心构建了符合行业标准的V2A(Video-to-Audio)数据集,覆盖了电影、游戏、广告等多场景、多时长的音视频内容。为了确保数据质量,研究团队设计了一套完善的数据处理流程,涵盖数据收集、标注、过滤和剪辑。针对不同视频类型的复杂性和差异性,团队采用多模态大语言模型(MLLMs)及人工标注相结合的方式,完成了时间戳和声音事件的高质量标注。同时,通过严格筛选,剔除了背景音乐干扰及音视频不同步的内容,最终生成了符合行业标准要求的训练数据,为后续研究与开发提供了坚实的基础。 从目前来看,这项工作的成果不仅为音视频转换领域的研究提供了宝贵的资源,而且在技术层面也展现了很高的专业性和严谨性。特别是采用多模态大语言模型与人工标注结合的方法,既保证了标注的准确性,又提高了工作效率。此外,严格的数据筛选过程也为其他类似项目树立了一个高标准,表明了研究团队对数据质量的高度重视。这不仅有助于推动相关技术的发展,也为未来的研究工作奠定了良好的基础。

   通过客观指标评测显示,YingSound大模型在整体效果、时间对齐以及视频语义理解等方面的客观评测中均达到了业界顶尖水平。

   长期来看,由于在替代游戏引擎方面展现的巨大潜力,视频生成技术必将对游戏行业带来革命性的变革。

   通过文字描述就能创作一个游戏,不再是异想天开。这一领域的飞速发展令人惊叹,AI技术正在推动游戏创作进入一个新时代,它将带来前所未有的创作平权。未来的游戏创作,其唯一限制可能就是创作者们的想象力了。 随着人工智能技术的不断进步,越来越多的非专业背景的人士也能够参与到游戏设计与开发中来。这不仅丰富了游戏文化的多样性,也为游戏产业注入了新的活力。当然,这也对游戏的质量提出了更高的要求,如何在创意无限的同时保证游戏体验的优质,将是未来游戏开发者们需要面对的重要课题。 此外,AI的应用虽然为游戏创作提供了便利,但同时也带来了版权和技术伦理等方面的挑战。如何合理利用AI工具,确保创作过程中的公平性和创新性,也是值得深入探讨的话题。

   今年年初,史玉柱谈到巨人网络在探索打造一个 AI 游戏孵化平台,降低做游戏的门槛,让普通人也能做游戏。这不,年底就交了第一份 " 作业 ",期待他们在 AI 游戏赛道的下一步规划。

IT新闻最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有