英伟达基于Cosmos 3的智能体技能瞄准自动驾驶与机器人领域

英伟达推出了一套基于其Cosmos 3平台的新智能体技能，旨在加速自动驾驶、机器人和视觉AI领域的开发。该公司表示，这些技能为开发者提供了预构建能力，让AI智能体能够在复杂的真实环境中处理特定任务。

智能体技能提供哪些功能

这些智能体技能覆盖了自动驾驶系统所需的核心功能——感知、导航、物体操作和场景理解。开发者无需从头构建这些能力，而是可以直接使用现成的技能。英伟达表示，这种方法可减少训练和部署汽车、机器人及摄像头AI模型所需的时间。

这些技能针对三个主要领域进行了定制。对于自动驾驶汽车，它们有助于车道检测、行人跟踪以及十字路口的决策制定。对于机器人，它们专注于抓取物体、在仓库中移动以及响应人类指令。对于视觉AI，它们改善了视频流中的物体识别和异常检测。

在底层，Cosmos 3提供了模拟和训练支撑。该平台处理真实世界场景的多样性——不同的光照、天气和地形——使得智能体技能可以在没有物理原型的情况下进行测试和优化。英伟达将Cosmos 3描述为一个数字孪生环境，可在几天内模拟数百万小时的驾驶或步行时间。

由于Cosmos 3会持续从其生成的数据中学习，智能体技能会随时间不断更新。这意味着使用这些技能的机器人无需手动修改代码，就能改善对光滑物体的抓取能力。同样，自动驾驶汽车在遇到新型施工区域时也能做出更好应对。

对于那些从事自动驾驶汽车开发的公司来说，这些新工具可能会简化一个众所周知的复杂流程。教一辆车识别停下的校车或雨中的行人通常需要数月的数据收集和标注。英伟达的智能体技能已在诸如此类的边缘案例上进行了预训练，让开发者可以从更高的起点开始工作。

这些技能还旨在减少对昂贵硬件改装的依赖。它们能够在英伟达现有的汽车芯片上运行，并且可以适配不同的传感器配置。这为汽车制造商提供了灵活性，无需等待完整的平台重新设计。

在机器人方面，这些智能体技能针对工业机器人和服务机器人。例如，仓库机器人可以使用导航技能在货架间穿梭，同时使用操作技能处理各种形状和尺寸的物品。英伟达表示，这些技能可与常见的机器人操作系统配合使用，因此集成非常简单。

对于视觉AI，这些技能有助于安防摄像头、医学影像和制造检测。物体识别技能可以标记装配线上的缺陷，或者识别禁区的入侵者。由于它们运行在同一个Cosmos 3平台上，随着更多视频数据的流入，它们会不断改进。

此次发布标志着英伟达将其AI生态系统从数据中心扩展到物理世界的最新举措。这些智能体技能现已纳入公司的开发者工具包。开发者可通过英伟达开发者门户访问，该公司计划在即将举行的行业活动中展示相关用例。