配资平台查询 研究人员使用大型语言模型来帮助机器人导航

发布日期:2024-07-07 22:46    点击次数:127

5月乘用车召回5.1万辆降入低点 德系延续高频召回

5月31日,中共中央政治局召开会议,提出实施一对夫妻可以生育三个子女政策及配套支持措施。会议提到要加强税收、住房等支持政策,可以预计针对多孩家庭的住房支持政策已经“在路上”。

该方法使用基于语言的输入而不是昂贵的视觉数据,来指导机器人完成多步导航任务。

有一天,你可能希望你的家用机器人把一大堆脏衣服搬到楼下,并把它们放在地下室最左边角落的洗衣机里。机器人需要将你的指令与它的视觉观察结合起来,以确定完成这项任务应该采取的步骤。

对于人工智能代理来说,这说起来容易做起来难。目前的方法通常利用多个手工创建的机器学习模型来处理任务的不同部分,这些任务需要大量的人力和专业知识来构建。这些方法使用视觉表示来直接做出导航决策,需要大量的视觉数据来进行训练,而这些数据往往很难获得。

为了克服这些挑战,麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员设计了一种导航方法,将视觉表示转换为语言片段,然后将其输入一个大型语言模型,以实现多步骤导航任务的所有部分。

他们的方法不是将机器人周围图像的视觉特征编码为视觉表征,而是创建描述机器人视角的文本标题,这是计算密集型的。一个大型语言模型使用字幕来预测机器人应该采取的行动,以完成用户基于语言的指令。

因为他们的方法使用纯粹基于语言的表示,他们可以使用一个大的语言模型来有效地生成大量的合成训练数据。

虽然这种方法并不优于使用视觉特征的技术,但它在缺乏足够的视觉数据进行训练的情况下表现良好。研究人员发现,将基于语言的输入与视觉信号相结合,可以提高导航性能。

“通过纯粹使用语言作为感知表征,我们的方法更直接。由于所有输入都可以编码为语言,我们可以生成人类可理解的轨迹,”电子工程和计算机科学(EECS)研究生、该方法论文的主要作者潘博文(Bowen Pan)说。

潘博文的合著者包括他的顾问奥德·奥利瓦,麻省理工学院施瓦茨曼计算学院战略产业参与主任,麻省理工大沃森人工智能实验室主任,以及计算机科学与人工智能实验室(CSAIL)的高级研究科学家;菲利普·伊索拉,EECS副教授,CSAIL成员;资深作者Yoon Kim,EECS助理教授,CSAIL成员;以及麻省理工学院沃森人工智能实验室和达特茅斯学院的其他人。这项研究将在计算语言学协会北美分会会议上发表。

用语言解决视觉问题

潘博文说,由于大型语言模型是最强大的机器学习模型,研究人员试图将它们整合到称为视觉和语言导航的复杂任务中。

但这类模型接受基于文本的输入,无法处理来自机器人摄像头的视觉数据。因此,该团队需要找到一种使用语言的方法。

他们的技术利用一个简单的字幕模型来获取机器人视觉观察的文本描述。这些字幕与基于语言的指令相结合,并输入到一个大型语言模型中,该模型决定机器人下一步应该采取的导航步骤。

大型语言模型输出机器人在完成该步骤后应该看到的场景的标题。这是用来更新轨迹历史的,这样机器人就可以跟踪它去过的地方。

该模型重复这些过程,生成引导机器人一步一步到达目标的轨迹。

为了简化这一过程,研究人员设计了模板,使观察信息以标准形式呈现给模型 —— 作为机器人可以根据周围环境做出的一系列选择。

例如,一个标题可能会说“在你的左边30度是一扇门,旁边有一盆植物,在你的背后是一个小办公室,有一张桌子和一台电脑,”等等。该模型选择机器人是向门还是向办公室移动。

“最大的挑战之一是弄清楚如何以适当的方式将这种信息编码成语言,使代理理解任务是什么,以及它们应该如何回应,”潘博文说。

语言的优势

当他们测试这种方法时,虽然它不能胜过基于视觉的技术,但他们发现它有几个优点。

首先,由于文本合成比复杂的图像数据需要更少的计算资源,因此他们的方法可以用于快速生成合成训练数据。在一项测试中,他们根据10个真实世界的视觉轨迹生成了10000个合成轨迹。

该技术还可以弥补在模拟环境中训练的智能体在现实世界中表现不佳的问题。这种差距经常发生,因为计算机生成的图像可能会由于光线或颜色等因素而与现实世界的场景截然不同。但是,描述合成图像和真实图像的语言将很难区分。

此外,他们的模型使用的表示对人类来说更容易理解,因为它们是用自然语言编写的。

“如果代理未能达到目标,我们可以更容易地确定它失败的地方以及失败的原因。也许历史信息不够清晰,或者观察忽略了一些重要的细节。”

此外,他们的方法可以更容易地应用于各种任务和环境,因为它只使用一种类型的输入。只要数据可以编码为语言,它们就可以使用相同的模型而不做任何修改。

但缺点是,这种方法自然会丢失一些信息,而这些信息是基于视觉的模型可以捕捉到的,比如深度信息。

然而,研究人员惊讶地发现,将基于语言的表示与基于视觉的方法结合起来,可以提高智能体的导航能力。

他们说:“也许这意味着语言可以捕捉到一些高层次的信息,而不是单纯的视觉特征所不能捕捉到的。”

这是研究人员想要继续探索的一个领域。他们还想开发一种导航导向的捕获器,以提高该方法的性能。此外,他们还想探索大型语言模型展示空间意识的能力,并看看这如何有助于基于语言的导航。

这项研究的部分资金由麻省理工学院-IBM沃森人工智能实验室提供配资平台查询。



热点资讯

配资网排名 AI赋能民营经济产业创新发展主题论坛在沪举行

腾讯打造保险版图:控股FuSure公司获香港再保险牌照 金融科技成腾讯营收第二增长极 特别是现在是夏季,正值装修旺季,对于不少业主、租客及商户而言,如何处理体积庞大的废旧家具实在是让人头疼。 中新网上海7月4日电(范宇斌)2024世界人工智能大会——“AI赋能民营经济产业创新发展主题论坛”4日在上海举行,上海市民营企业人工智能赋能创新中心发布“AI场景应用典型案例”,为期三天的民营企业开放日活动同步与社会公众见面。 “AI场景应用典型案例”围绕智慧工业、医疗健康、智慧城市、科教文娱、专业服务五...

相关资讯