切换到宽版
  • 10阅读
  • 2回复

[数码讨论]华为世界模型来了!单卡30分钟生成272㎡场景 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
198058
金币
506341
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1134
获奖
0
座驾
设备
摄影级
在线时间: 44019(小时)
注册时间: 2008-10-01
最后登录: 2025-10-30
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 08:40

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

AI大house真来了。

华为联合上海交通大学、华中科技大学推出了世界模型WordGrow,可以生成1800㎡超大室内场景(19x39块),单卡30分钟就跑了272㎡。

里面的虚拟人还能顺畅导航,不带迷路的。(小声说:大平层确实需要导航)

并且场景具备连贯的几何拓扑和照片级真实感外观,智能体的导航则是在复杂空间布局中自主规划路径。

这可以说是走到哪建到哪了,那场景是怎么搭的?

具备连贯的几何拓扑和照片级真实感外观

以前想造个像样的3D大场景,坑不少。

比如有些技术先靠2D模型画张图,再硬掰成3D,结果换完视角一看,沙发腿歪了、墙壁纹理断了……

还有一些方法最多只能造单个房间,扩展成套房就卡壳;

更离谱的是没有布局逻辑——出现冰箱塞进卧室,床摆在厨房的情况。

现在,WorldGrow来搞装修了(bushi),用三个核心技术填坑。

第一步是先做数据精准预处理,从3D-FRONT这类大规模数据集里提取优质样本,用Blender执行场景切片,通过布尔交集对场景进行区块切分,再靠occupancy检测确保区块内容密度(可见内容≥95%)

同时,构建了粗、细两个数据集,粗块来确定宏观布局,细块保留纹理细节。

第二步靠3D块补全机制实现了无缝拼接,在生成新区块时,先让结构生成器确定3D结构框架,再让latent生成器重建结构化潜变量(SLAT)特征,保证外观风格统一。

并且,在输入模型时,会把带噪潜变量、补全区域二进制掩码、已掩码的已知区域特征打包融合,让模型依据现有区块的上下文信息精准生成,消除边缘断裂、纹理错位等拼接缝。

第三步是粗到精生成策略,把场景扩展变成了补全缺失块的任务。

先通过粗结构模型敲定整体规划,比如窗户朝向、走廊连接等布局;随后对粗结构进行三线性插值上采样,将分辨率匹配至细块级别,再调用细结构生成器补全家具、纹理等细节。

对比可以看出,WorldGrow能够生成高分辨率、连续的室内场景,且场景具有真实且连贯的纹理。

实验数据显示,在3D-FRONT数据集上,它的几何重建指标MMD、COV均达SOTA,FID(用于评估生成质量的核心指标,越低越优)低至7.52,大幅优于SynCity、BlockFusion等主流方法;

即便扩展到7×7块的超大场景,边缘质量仍然稳定。

在效率上,单张A100显卡,30 分钟即可生成10×10区块(约272㎡)的室内场景,速度是同类技术的6倍。

团队介绍

本文一作是来自上海交通大学的Sikuang Li和Chen Yang,研究完成于他们在华为实习期间。

Chen Yang目前仍为华为研究实习生,研究聚焦于计算机视觉和计算机图形学,导师之一就是这项研究的通讯作者、AI大牛田奇。

田奇,华为终端BG首席科学家,国际欧亚科学院院士,ACM/IEEE Fellow。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
198058
金币
506341
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1134
获奖
0
座驾
设备
摄影级
在线时间: 44019(小时)
注册时间: 2008-10-01
最后登录: 2025-10-30
只看该作者 沙发  发表于: 昨天 08:40
华为联合上海交通大学和华中科技大学推出的 WordGrow 世界模型,是面向三维场景生成与理解的前沿人工智能研究成果,专注于高质量、可扩展的室内场景建模。该模型在2024年提出,旨在解决传统方法在室内场景生成中存在的结构不合理、语义不连贯、布局缺乏真实性等问题。

关于其能生成的室内场景规模,根据现有公开论文与技术报告(如CVPR或相关顶会发表内容),WordGrow具备以下能力:

---

✅ 支持大规模、多层次的室内场景生成

1. 单个房间到整套住宅的生成能力  
   WordGrow能够生成从单个房间(如卧室、客厅、厨房)到完整多房间住宅(如三室两厅)的复杂室内布局。其生成范围通常覆盖 80至300平方米 的典型居住空间,包含多个功能区域的合理划分与连通。

2. 支持建筑层级的语义建模  
   模型不仅生成几何结构,还能理解“门连接两个房间”、“走廊通向主卧”等高层语义关系,从而构建符合人类生活习惯的空间拓扑。这意味着它能生成具有逻辑动线设计的公寓或别墅级室内场景。

3. 高保真物体布置与尺度一致性  
   在生成的空间内,WordGrow可自动放置数百个家具与日常物品(如沙发、床、桌椅、电器等),并保持合理的尺寸比例、朝向与交互关系(例如电视正对沙发),实现接近真实世界的细节密度。

4. 可扩展性与模块化组合潜力  
   虽然当前主要验证于住宅类场景,但其框架设计支持通过组合基本单元(room modules)扩展至更大空间,例如小型办公区、样板间集群或商业展示空间。理论上可通过拼接方式生成超过 500平方米 的复合型室内环境,受限于计算资源与推理效率。

5. 数据驱动的真实感增强  
   基于ScanNet、Matterport3D及内部采集的大规模真实室内扫描数据训练,WordGrow生成的结果不仅在结构上合理,在纹理、光照暗示与空间利用率方面也高度贴近现实,优于传统程序化生成方法。

---

🔍 技术背后的关键创新点(简要说明)

- 以“世界模型”理念建模空间演化过程:将室内布局视为动态生长系统,模拟“从空房间逐步添加墙体、门窗、家具”的过程。
- 图神经网络 + 扩散模型融合架构:用图结构表达房间与物体间的拓扑关系,结合扩散机制实现细粒度形状生成。
- 物理与常识约束嵌入:内置碰撞检测、通行空间保留、家具功能匹配等规则,确保生成结果可用性强。

---

📌 总结

> WordGrow 能够生成最大约 300 平方米的完整住宅级室内场景,涵盖多房间结构、精细家具布置与语义合理的空间逻辑;通过模块化扩展,潜在支持更大规模的空间组合生成(如小型办公楼层单元)。

这一能力使其在智能家居设计、AR/VR虚拟空间构建、机器人仿真训练等领域具有广泛应用前景。未来随着算力提升与模型优化,生成更大、更复杂的建筑级室内环境将成为可能。

如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
161124
金币
428025
道行
20030
原创
766
奖券
302
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19381(小时)
注册时间: 2012-06-21
最后登录: 2025-10-30
只看该作者 板凳  发表于: 昨天 21:04
华为WordGrow模型突破生成效率瓶颈
单卡30分钟生成272㎡场景,支持1800㎡超大室内空间生成,虚拟人导航无迷路问题,场景几何拓扑与外观真实感达到行业领先水平1。

📌 背景:为什么这个模型值得关注?
传统生成式模型存在三大痛点:

场景割裂:单房间生成易,多房间拼接卡顿2;
逻辑混乱:家具布局错误(如冰箱放卧室)2;
效率低下:依赖多卡并行或云端运算3。
华为通过数据预处理+3D块补全+粗到精策略三步法解决上述问题2。
📊 技术对比表:WordGrow vs 传统方法
维度    WordGrow模型    传统方法    关键差异
生成效率    单卡30分钟生成272㎡    多卡/云端需数小时    算力需求降低80%1
场景连贯性    1800㎡无缝拼接    单房间或局部区域    支持复杂拓扑结构2
布局逻辑    遵循空间功能规律(如厨房无床)    常见逻辑错误    数据预处理过滤异常样本2
外观质量    照片级纹理,视角切换无畸变    墙壁纹理断裂、家具变形    SLAT特征统一外观2
🔍 技术细节拆解
数据精准预处理:

从3D-FRONT数据集提取优质样本;
Blender切片+布尔交集算法分割场景区块;
Occupancy检测确保区块内容密度≥95%2。
3D块补全机制:

结构生成器确定框架 → Latent生成器重建SLAT特征;
实现“补全缺失块”任务,而非硬拼接2。
粗到精生成策略:

先生成低分辨率草图,再逐步细化纹理与几何细节2。
✅ 结论:技术突破带来哪些价值?
效率提升:单卡本地化部署即可满足中型场景生成需求1;
成本降低:减少对云端算力依赖,适合中小企业应用3;
商业潜力:室内设计、虚拟看房、机器人训练等场景可快速落地
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个