Google发表具5,620亿参数的多模态语言模型PaLM-E,实体机器人更能解决复杂长任务

Google发表视觉语言模型PaLM-E,这是一个可用於机器人的嵌入式多模态语言模型,PaLM-E由视觉模型ViT以及语言模型PaLM相结合而成,综合了语言、视觉和视觉语言的训练,使机器人可以理解人类的指令,解决需要多种推理能力的长时间指令(Long-Horizon Instruction)。

虽然大型语言模型已被证明足够强大,可以解决复杂的任务,但是要用於真实世界的一般性推理,像是要让一个实体机器人听懂人类语言并且完成任务,仍有一大段距离需要努力,Google提出了实体(Embodied)语言模型,使得语言模型能接受连续的感测器讯号,将文字和感知连结起来。

实体语言模型的输入是多模态的语句,综合视觉、连续状态评估和文字输入编码,研究人员端到端训练这些编码,结合预训练的大型语言模型,便能用来完成各种实体任务,诸如机器人操作、视觉问答和产生字幕等。

PaLM-E结合具220亿参数的ViT视觉模型,以及5,400亿参数的PaLM语言模型,因此PaLM-E总共拥有5,620亿个参数。具220亿参数的ViT视觉模型是Google在今年发表的大型视觉Transformer模型,ViT使用了在自然语言处理领域中,已经非常成功的视觉Transformer模型,影像讯号会被编码成序列画素或是影格,透过Transformer网路进行处理。

而PaLM则是Google研究院在2022年发表的模型,建立在Pathways人工智慧架构之上,运用分散式机器学习加速器,训练出高达5,400亿参数的PaLM语言模型,在语言、推理和程式码任务都具有良好的表现。

PaLM-E可说是集语言模型技术大成的实体多模态模型,在多种实体装置上以多种观察模式,解决各式各样推理任务,且由於PaLM-E的训练资料集包括语言、视觉和视觉语言类型,该模型经多样化资料联合训练,因此能够表现出正迁移的特性,也就是在执行任务时,能够因为不同的学习经验而获得正向影响。

研究人员解释,Palm-E的主要架构思路是持续注入实体观察,将图像、状态评估和各种感测器模式,输入到语言模型的语言嵌入空间中。由於图像、状态和感测器等观测资料,都会编码成和语言权杖嵌入空间相同维度的向量序列,因此语言模型也能够处理图像、感测器数值等这类非语言资料,而这些连续资料也以类似语言权杖的方式,持续注入到语言模型中。

Google展示PaLM-E的范例之一是一个长时间指令「从抽屉拿玉米片给我」,在人工智慧领域的长时间指令,是要求机器人执行一个需要执行多个子任务,才能完成的长任务,而「从抽屉拿玉米片给我」的这项指令,机器人需要听懂人类的指令,辅以电脑视觉的回馈,移动到柜子前拿起玉米片,并克服其他研究人员的干扰,将玉米片取回给发出指令的人。

PaLM-E还表现出独特的泛化能力,即便是指令中包含过去没有见过的物体,PaLM-E也能驱动机器人完成任务,像是「将绿色积木推给乌龟」的这项范例指令,即便PaLM-E没有看过乌龟,也能成功执行任务。

除了赋予机器人更强大的能力之外,PaLM-E本身就是一个优秀的视觉语言模型,可以看图说故事,或是依据图片内容回答提问。

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x