4月16日,腾讯正式发布并开源混元3D世界模型2.0(HY-World2.0),这一多模态世界模型的推出,标志着人工智能在3D场景生成领域迈出了重要一步。HY-World2.0具备理解文字、图片、视频等多种输入方式的能力,能够自动生成、重建和模拟3D世界,进一步推动了游戏开发和虚拟现实等行业的创新发展。
在《消费者报道》的实测中,HY-World2.0提供了世界生成、世界重建、360°全景图和实时生成世界四种功能,用户可以通过不同的交互方式体验多样的3D场景。值得注意的是,世界生成功能支持用户通过文本或单视角图像合成可沉浸式探索的三维世界,而当前仅限于获得内测权限的用户进行自主场景生成。这一功能的互动性极高,用户不仅可以生成自己的3D场景,还能选择角色在其中自由探索,行走、跳跃和视角转换均不会影响场景的空间结构。
混元3D模型的世界重建功能,旨在通过多视角输入还原三维特征。《消费者报道》尝试通过视频和照片两种方式录制一个4平方米的空间进行重建,结果显示视频方式能更准确地还原空间特征,而照片方式则存在一定的局限性。这提醒用户在进行空间重建时,采用视频方式会更有效,特别是对于普通用户来说,拍摄角度和数量都对重建结果有显著影响。
HY-World2.0的360°全景图功能,使用户能够通过输入文本或单张图片生成可环绕观看的全景画面,而实时生成世界功能则实现了输入文本或单张图片后,用户可以以第一人称视角探索整个3D场景。这意味着HY-World2.0生成的内容不仅可以用于游戏开发,还可以与现有的游戏工作流无缝对接,快速生成游戏地图和关卡原型,降低了开发成本和时间。
值得关注的是,HY-World2.0的发布恰逢腾讯首席AI科学家姚顺雨加入后,腾讯在AI技术领域的战略布局显著加强。姚顺雨的加入为腾讯带来了新的视角与技术积累,其领导下的AIInfra部、AIData部等多个部门,正全面强化腾讯在大模型研发方面的能力。自去年12月以来,腾讯的多条AI产品线迎来了更新,尤其是“龙虾矩阵”系列智能体的推出,表明腾讯在AI生态系统构建方面的持续发力。
在全球范围内,世界模型正在形成一个不断扩大的细分市场。科技巨头们纷纷投入资源,开发各自的世界模型。例如,谷歌去年推出的通用世界模型Genie3,已向外部开放实验性原型,用户可以通过文字描述生成可交互的3D世界。此外,李飞飞创办的WorldLabs也获得了10亿美元融资,显示出市场对这一领域的强烈兴趣。
总的来看,腾讯混元3D世界模型2.0的发布,不仅展示了AI在3D场景生成中的强大潜力,也为游戏开发、虚拟现实等领域带来了新的可能性。随着技术的不断进步,未来的世界模型市场将迎来更多创新,推动各行各业的数字化转型。返回搜狐,查看更多



