英伟达最新研究成果！开辟机器人导航更多可能无需地图可实时感知

首页 > AI资讯 > 最新资讯 > 英伟达最新研究成果！开辟机器人导航更多可能无需地图可实时感知

英伟达最新研究成果！开辟机器人导航更多可能无需地图可实时感知

科创板日报 2024-12-12

　　日前，加州大学研究人员和英伟达共同发布了新的视觉语言模型“NaVILA”。亮点在于，NaVILA模型为机器人导航提供了一种新方案。

　　NaVILA模型的相关论文

　　视觉语言模型（VLM）是一种多模态生成式AI模型，能够对文本、图像和视频提示进行推理。它通过将大语言模型（LLM）与视觉编码器相结合，使LLM具有“看”的能力。

　　传统的机器人行动往往依赖于预先绘制的地图和复杂的传感器系统。而NaVILA模型不需要预先的地图，机器人只需“听懂”人类的自然语言指令，结合实时的视觉图像和激光雷达信息，实时感知环境中的路径、障碍物和动态目标，就可以自主导航到指定位置。

　　不仅摆脱了对地图的依赖，NaVILA还进一步将导航技术从轮式扩展到了足式机器人，希望让机器人应付更多复杂场景，使其具备跨越障碍和自适应路径规划的能力。

　　在论文中，加州大学研究人员使用宇树Go2机器狗和G1人形机器人进行了实测。根据团队统计的实测结论，在家庭、户外和工作区等真实环境中，NaVILA的导航成功率高达88%，在复杂任务中的成功率也达到了75%。

　　Go2机器狗接受行动指令：向左转一点，朝着肖像海报走，你会看到一扇敞开的门

　　G1人形机器人接受行动指令：立即左转并直行，踩上垫子继续前进，直到接近垃圾桶时停下来

　　据介绍，NaVILA模型的特点在于：

　　优化准确性与效率：NVILA模型在训练成本上降低了4.5倍，微调所需内存减少了3.4倍。在预填充和解码的延迟上几乎降低了2倍（这些数据是与另一个大型视觉模型LLaVa OneVision进行比较得出的）。

　　高分辨率输入：NVILA模型并不通过降低照片和视频的大小来优化输入，而是使用高分辨率图像和视频中的多个帧，以确保不丢失任何细节。

　　压缩技术：英伟达指出，训练视觉语言模型的成本非常高，同时，微调这样的模型也非常耗费内存，7B参数的模型需要超过64GB的GPU内存。因此英伟达采用了一种名为“先扩展后压缩”的技术，通过将视觉信息压缩为更少的token，来减少输入数据的大小，并将像素进行分组，以保留重要信息，平衡模型的准确性与效率。

　　多模态推理能力：NVILA模型能够根据一张图片或一段视频回答多个查询，具有强大的多模态推理能力。

　　在视频基准测试中，NVILA的表现超过了GPT-4o Mini，并且在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比较中也表现出色。NVILA还在与Llama 3.2的对比中取得了微弱胜利。

　　英伟达表示，目前尚未将该模型发布到Hugging Face平台上，其承诺会很快发布代码和模型，以促进模型的可复现性。

（文章来源：科创板日报）

Tags:

自然语言处理英伟研究成果

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

英伟达最新研究成果！开辟机器人导航更多可能无需地图可实时感知

人工智能接入电信网络意味着什么？英伟达称最早明年下半年商用

深度思维AI模型表现超越现有天气预报

AI赛道继续上演资本繁荣：面壁智能获新一轮数亿元融资取道“端侧”走差异化路线

英伟达加强在华招聘力度以发展自动驾驶技术

机器人概念股高潮后警惕短线分歧AI、大消费或仍存轮动性机会

热门文章

宇树人形机器人再升级！跑起来更有“人味”轻松驾驭各种地形

打磨五年，三星智能机器人官宣今年上市，能帮你挑红酒，还能变身家庭投影仪|CES2025

超3.8亿元！全国最大单笔人工智能大语言模型数据资产估值全省首张大语言模型数据产权登记证书诞生

青海：电缆隧道实现智能机器人巡检

神舟十九号乘组开展“智慧助手”在轨验证，飞行机器人成为航天员小帮手

方向已定！地方“两会”热议新能源汽车、低空经济全产业链提质增效按下“加速键”

AI革命：风起云涌又一年

欧洲AI“全村希望”Mistral目标上市展望行业风向已从模型转向系统

近一个月这些上市公司被“踏破门槛”！小红书概念股获机构组团调研，机构来访接待量居前的个股名单一览