一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

2023-12-15 阅读 2 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6424 收藏 0

开启3D奇妙之旅

生成无限连贯3D场景要解决的一大难题是：如何在保持元素多样性的同时，生成符合逻辑的场景元素组合。

这当中需要判断将要生成的元素空间位置的合理性，还需要处理好新旧场景的遮挡关系、视差等几何关系。

可以看到WonderJourney在这方面的处理上非常细致：

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

无论什么风格都能轻松驾驭：

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

能够做到这些，关键在于WonderJourney的模块化流程。

总的生成过程分为“确定要生成什么对象”、“把这些对象放在哪里”、“这些场景如何在几何上连接”三步。

需要以下三个模块配合完成：

Scene description generation：使用大语言模型（LLM）根据当前场景生成下一个场景的文本描述。
Visual scene generation：将文本描述转换为3D点云表示的场景。
Visual validation：使用VLM验证生成的场景，检测到不合理的结果启动重新生成。

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

具体来说，在Scene description generation模块，使用预训练好的LLM输入当前场景描述，通过自回归生成下一个场景，其中包含风格、物体、背景三部分的描述。

此外，还要将自然语言描述进行词类过滤，只保留名词和形容词；每生成一个新场景描述，会更新场景描述记忆。

在Visual scene generation模块，先是将当前图像/文本转换为3D点云表示。

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

然后使用depth refinement增强对象边界的depth不连续性，通俗来讲就是让边界两侧的深度对比更加明显，从而使过渡更加逼真。

之后使用text-guided inpainting基于文本描述生成新场景图像。

研究人员还设计了depth consistency loss和re-rendering consistency机制改进新旧场景遮挡和点云对齐。

最后Visual validation模块，使用VLM提示检测生成图像中的不好的结果，比如画框、模糊等，如果检测到则重新生成场景。

值得一提的是，这三个模块都可用最先进的预训练模型实现、替换，所以不需要任何训练。

实验测试

由于连贯3D场景生成是一个没有现有可用数据集的新任务，所以研究人员在实验中使用了自己拍摄的照片、来自在线无版权的照片以及生成的图片进行了评估。

此外，使用了两种最先进的连续视图生成方法作为基准：基于图像的InfiniteNature-Zero和基于文本的SceneScape。

定性结果展示了从不同类型输入生成的连贯3D场景序列效果，表明方法可以从任何输入开始生成：

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

此外，同一输入可生成不同输出，表明方法具有多样性：

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

研究人员还从生成效果多样性、视觉质量、场景复杂度和有趣度这4个方面进行了人类偏好评估。

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

结果WonderJourney方法明显优于InfiniteNature-Zero、SceneScape。

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

作者简介

该篇论文来自斯坦福大学吴佳俊团队和谷歌研究院。

论文一作俞洪兴，斯坦福大学四年级博士生，导师吴佳俊。

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

主要研究领域为物理场景理解和动态建模。

俞洪兴曾在谷歌研究院实习，论文部分工作是在实习期间完成。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室 (SVL)和斯坦福人工智能实验室 (SAIL)。

在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神之一”。

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

论文链接：https://arxiv.org/abs/2312.03884

参考链接：

[1]https://twitter.com/koven_yu/status/1733192368508322080

[2]kovenyu.com/wonderjourney/

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “西风”

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

850 用户在看

AI写作网站自动的生成文章可以用吗？

99 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

49 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

41 用户在看

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

开启3D奇妙之旅

实验测试

作者简介

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “西风”

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

一个智能助手搞定软件开发全流程，从设计到运维统统交给AI

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

850 用户在看

AI写作网站自动的生成文章可以用吗？

99 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

49 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

41 用户在看

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

开启3D奇妙之旅

实验测试

作者简介

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “西风”

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

一个智能助手搞定软件开发全流程，从设计到运维统统交给AI

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿