
借助 NVIDIA 的 3D 引导生成式 AI Blueprint 控制 AI 图像的构图

AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。 即使取得了如此飞跃,仍然存在一个挑战:实现创意掌控。
使用文本创建场景变得更容易,不再需要复杂的描述,模型也改进了针对提示词的一致性。但仅通过文字描述构图、拍摄角度、物体摆放这些精细细节已经很不容易了,要修改调整更是难上加难。虽然使用 ControlNet (通过更好地控制输出来增强图像生成的工具) 的高级工作流提供了解决方案,但其设置复杂,限制了更广泛的使用。
为帮助克服这些挑战并快速获取先进的 AI 功能,NVIDIA 在年初的 CES 展会上发布了面向 RTX PC 的 NVIDIA 3D 引导生成式 AI Blueprint。这个示例工作流包含了全套工具,让你能从头开始生成完全控制构图的图像用户现在就可以体验这个全新的 Blueprint。
利用 3D 控制 AI 生成的图像
NVIDIA 的 3D 引导生成式 AI Blueprint 可控制图像生成,它使用 Blender 中的 3D 场景草稿向图像生成器 (Black Forest Labs 的 FLUX.1-dev) 提供深度图,与用户的提示词一起生成所需的图像。
深度图帮助图像模型理解物体应该如何放置。这项技术的优势在于,它不需要高度细节化的物体或高质量纹理,因为它们将被转换为灰度。此外,由于场景是 3D 的,用户可以轻松移动物体并更改相机角度。
Blueprint 的底层是 ComfyUI,这是一个功能强大的工具,允许创作者以有趣的方式链接生成式 AI 模型。例如,用户可以通过 ComfyUI Node Editor Blender 插件将 Blender 连接到 ComfyUI。此外,用户可以使用 NVIDIA NIM 微服务在 GeForce RTX GPU 上部署 FLUX.1-dev 模型并以最佳性能运行,充分利用 NVIDIA TensorRT 软件开发套件以及 FP4 和 FP8 等优化的精度格式。3D 引导的生成式 AI Blueprint 需要 NVIDIA GeForce RTX 4080 及以上 GPU。
生成式 AI 工作流的预构建基础
3D 引导的生成式 AI Blueprint 包括开始使用高级图像生成工作流所需的一切:Blender、ComfyUI、连接两者的 Blender 插件、FLUX.1-dev NIM 微服务以及运行该微服务所需的 ComfyUI 节点。对于 AI 艺术家,还附带了安装程序和详细的部署说明。
该 Blueprint 采用一种结构化的方式来深入图像生成,提供了可根据特定需求量身定制的工作流。这套方案包含了手把手教程、现成素材和开箱即用的环境配置,让你创作更轻松,效果更惊艳。
对于 AI 开发者,该 Blueprint 可以作为构建类似工作流或扩展现有工作流的基础。它附带源代码、示例数据、文档和入门工作示例。
RTX AI 提供支持的实时生成
AI Blueprint 在 NVIDIA RTX AI PC 和工作站上运行,充分利用了 NVIDIA Blackwell 架构的最新性能突破。
3D 引导的生成式 AI Blueprint 中包含的 FLUX.1-dev NIM 微服务经过 TensorRT 优化,并量化为 FP4 精度以适用于 Blackwell GPU,推理速度比原生 PyTorch FP16 提升了一倍以上。
对于使用 NVIDIA Ada Lovelace 架构 GPU 的用户,FLUX.1-dev NIM 微服务附带 FP8 精度,同样由 TensorRT 加速。这些改进使高性能工作流更容易实现,从而能够进行快速迭代和实验。量化还有助于减少模型运行所需的显存。使用 FP4 量化时,模型体积直接比 FP16 小了一半还多。
使用 RTX AI 进行定制和创建
目前有 10 个 NIM 微服务可用于 RTX,支持从图像和文本生成到语音 AI 和计算机视觉的用例,更多 Blueprint 和服务即将推出。
AI Blueprint 和 NIM 微服务现已在 推出,为准备在 RTX PC 和工作站上创建、定制和突破生成式 AI 界限的用户提供了强大的基础。
每周,RTX AI Garage 系列博客都会为那些希望详细了解 NIM 微服务和 AI Blueprint 以及在 AI PC 和工作站上构建 AI 智能体、创意工作流、数字人、生产力应用等的用户提供社区驱动的 AI 创新和内容。
请参阅有关软件产品信息的通知。