Alter3：GPT-4 为人形机器人运动和对话控制提供动力

东京大学的科学家将 Openai 的 GPT-4 大型语言模型（LLM）与人形机器人联系起来。正如一篇新发表的论文所解释的那样，这个名为Alter3的机器人可以很好地理解对话提示，从而控制机器人的运动和手势。

Alter3项目地址：https://tnoinkwms.github.io/ALTER-LLM/

东京大学团队演示了 Alter3 在用自然语言指导时采用自拍、弹吉他或假装成鬼魂等姿势，而无需对每个动作进行显式编程。GPT-4 也为 ChatGPT 提供动力，它能够理解人们用他们喜欢的任何术语描述的内容、做出实物回应或生成与 DALL-E 3 相关的图像的方式大致相同。

科学家们的这一突破弥合了与物理机器人的对话交互的差距，这通常需要使用专门的基于硬件的代码进行精细的运动控制。研究人员将高级命令转换为Alter3可以执行的指令。机器人可以像人类直观地拾取动作一样学习动作——从基本的洗牌到更协调的动作。用户可以引导 Alter3 的姿势并帮助它区分细微差别，例如不同的舞蹈动作。

这是一种能够使用大型语言模型（LLM）生成自发运动的人形机器人，特别是 GPT-4。这一成就是通过将 GPT-4 集成到我们专有的机器人 Alter3 中来实现的，从而有效地将 LLM 与 Alter 的身体运动联系起来。通常，低级机器人控制依赖于硬件，不属于 LLM 语料库的范围，这给基于 LLM 的直接机器人控制带来了挑战。

然而，在像 Alter3 这样的人形机器人的情况下，通过程序代码将人类动作的语言表达映射到机器人的身体上，直接控制是可行的。值得注意的是，这种方法使 Alter3 能够采用各种姿势，例如“自拍”姿势或“假装成幽灵”，并随着时间的推移生成一系列动作，而无需对每个身体部位进行显式编程。

这证明了机器人的零样本学习能力。此外，口头反馈可以调整姿势，无需微调。