RobotGPT被问爆了!带你了解什么是机器人多模态大模型
2023-07-28 14:17:07

你是否曾经想过,如果机器人能像人一样听懂我们的语言,自动分解、规划和执行任务,那将会是多么神奇的事情?

这一切,现在已经成为现实。达闼推出了机器人行业的多模态人工智能大模型——RobotGPT,让机器人真正听懂你的话语。那么,什么是多模态大模型?RobotGPT大模型具体是什么,能干什么?这些热知识,一文带你看懂,手指下滑,一起来GET!

什么是RobotGPT?机器人多模态大模型!

RobotGPT是为实现机器人在复杂应用场景下的多模态行为而提供的交互生成型AI(Generative AI)模型。它以Transformer为基础,具备多模态(文本、语音、图片、视觉、运动、点云等)融合感知、认知、决策和行为生成能力。简单来说,RobotGPT就像一个全能的机器人大脑,可以理解和处理各种类型的信息,然后做出相应的决策和行动。

642a745a58037.png

RobotGPT是达闼为机器人设计的多模态大模型,※帮你划重点:RobotGPT不是应用,它是大模型!

小知识:什么是多模态大模型?

目前常见的AI大模型有NLP(自然语言处理)大模型、CV计算机视觉大模型、多模态大模型等。NLP大模型具备超强语言理解能力以及对话生成、文学创作等能力,比如ChatGPT。CV计算机视觉大模型,可以对海量图片进行识别。这两种大模型基本都是单模态的。多模态大模型是指能够处理和理解多种类型数据(如文本、图像、声音等)的大模型。

未来的通用人工智能(AGI)将迈向两个不同的方向:一是走向多模态,大模型不仅限于文本和视觉,还可能扩展到嗅觉和触觉等感官领域;二是走向具身智能,涵盖机器人、机械臂、无人车等物理实体,使通用人工智能进入物理世界。人类的生存环境和思考过程都是多模态的(图、文、声、光、电、影等),因此,未来真正的AGI必然是与人类相仿的,高效的多模态智能处理机,RobotGPT就是一个多模大模型,它具备高效的多模态信息处理能力和人性化的行为表达能力,可以对文本、语音、图片、视觉、运动、点云等多种信息来源进行理解和处理,支持语言、视觉和运动的多模态行为表达,使得人机交互更加自然、富有情感。

RobotGPT核心功能:更贴近人的交互方式、更智能的行为决策

RobotGPT发布后还有一个被大家问爆了的问题是它能干什么,现在一起来看下吧。

目前RobotGPT拥有多模态交互、生成式AI、自主感知和认知、智能决策等强大功能。其中,多模态交互和多模态融合智能,为机器人提供更多元全面的感知和认知能力,从而提高人机交互的效果和体验。大模型结合具身智能和AIGC,让机器人对话理解能力大幅提升,能像人一样去理解材料和对话,生成符合人类价值观的回答,自动任务分解和自主行为决策可以让机器人作出自主决策和动作。智能语音、图片视频理解,让机器人能听、能看、能懂,全方位理解人的需求。情感分析、表情动作生成,让机器人更有情感,更有温度。AI变声、声纹识别,让机器人更有个性,更有安全感。行业问答、多轮对话,无论你有任何问题,机器人都能对答如流。

微信图片_20230725111558.png

这是RobotGPT的AIGC对话生成效果展示,回答流畅自然有逻辑,有大量知识储备。还有一个很炸裂的能力是,你不需要花费心思给AI编造完整的人设和个性,目前后台有近百种AI人设,还有通过预设任务选择,就可完成上百种典型场景的精准问答。

微信图片_20230719150805.png

当然,“Chat”只是RobotGPT其中一项能力,只靠闲聊、写诗、作画无法重构人类社会。RobotGPT最重要的是为机器人带来了更加先进的多模态感知和自主认知能力、复杂逻辑推理和智能决策能力以及多模态行为表达能力,通过强化学习、视觉语言导航、视觉语言操作、运动控制等前沿技术,大模型能够高效处理和分析海量数据,让机器人更加深入地理解周围环境,自主的去灵活应对各种任务和挑战。

举个例子,当你对一个集成了RobotGPT的机器人说“我口渴了”, 这个指令并没有明确包含具体的对象“水”,而是隐含了“去接一杯水”的需求,机器人会通过常识推理、场景感知、用户画像信息决策去哪里取水,用何种工具接水,取水后如何返回,以及如何将水递给你。然后,利用视觉语言导航、位姿估计、抓取检测、运动控制等技术去完成倒水任务,这一系列过程是完全自主决策的,不需要人为的干预。随着大模型规模增大到一定程度,机器人将能够像人一样使用经验来穿越复杂环境。

RobotGPT重心在于解决行业侧需求 推动产业升级和变革

一个业界共识是,大模型扎根行业,与行业深度结合,才能做的深,走得远。

相较通用大模型,更有针对性、更专业化的行业大模型在金融、医疗、政务、教育等多个行业拥有广泛的应用和商业创新潜力。RobotGPT是机器人大模型,它构建在基础大模型的能力之上,具备一定的通用能力,同时能覆盖多任务使用场景,能更好地理解和处理行业特定的问题和任务。无论是在能源电力、医疗健康、金融保险、交通枢纽、教育咨询、高端制造还是其他领域,RobotGPT都能发挥其强大的能力。基于多年在云端机器人领域的深耕和积累,达闼已联合行业头部企业,对超过10个的典型行业的100多个业务场景进行了大模型的支持和应用,并且在多个领域沉淀了完整的项目解决方案。

这是经过定制化训练后,RobotGPT对于垂直领域的实际对话效果展示,比如做一个专业的政务服务问答,在医院协助患者问诊等,可以看出,RobotGPT能针对特定场景、解决特定问题,让机器人迅速做出适配指令的合适行动。

屏幕截图(28).png

屏幕截图(30).png

目前市场上的大模型大多依赖公开数据集或网络数据进行训练,这导致其产生的结果在专业性和精确性上有所不足。在商业领域,大模型达到95%的精度是必要的门槛。在回答精度方面,RobotGPT也没输过,它能精准理解业务场景,回答准确率超过95%,远高于行业平均水平。

说到训练,RobotGPT是怎么训练的呢?

RobotGPT最佳训练平台:海睿OS

在AI领域,大模型是具有庞大的参数规模和复杂程度的机器学习模型,通常需要大量的数据进行训练,以便学习到足够复杂的模式。训练一个AI模型,技术复杂度并不比训练一个国家队运动员低,海睿OS操作系统为RobotGPT提供了理想的训练平台。在这里,我们构建了一个超级真实、虚实同步的"海元世界",这就是"机器人元宇宙",通过数字孪生训练和强化学习等技术,可以让机器人在视觉、语音、情绪、动作等方面进行无数次的"锻炼",不断进化。

屏幕截图(26).png

前面我们提到,仅靠公开数据集或网络数据来训练大模型是不够的,海睿OS不仅支持吸收大量来自真实环境下的机器人行为数据,还支持合成海量高质量的合成数据,这是多模态机器人大模型训练的基础,通过自动创建、生成现实世界中难以或者无法采集的数据场景,可以模拟各种可能的情况、提供更多的训练样本,从而提高模型的精确性、可靠性、安全性。

此外,海睿OS还提供了一个基于数字孪生的可视化机器人应用开发套件(HARIX RDK),开发者可以建立仿真环境,模拟现实世界的目标场景,进行机器人多模态技能训练。同时,RobotGPT还有基于大模型的示范学习技术,通过视觉、语音、思维链和原子技能组合示教,开发者可以像教孩子学习一样,教授机器人各种技能。

RobotGPT两种形态:服务平台和一体机随心选

RobotGPT的产品形态有服务平台和一体机两种可选,服务平台提供RobotGPT多模态大模型的在线服务,一体机则为软硬一体机,是为解决企业在业务中面向特定行业的生成式大模型推理、训练或混合推训及应用私有化部署等刚性需求而设计的行业多模态大模型尖端产品。

AI奇点在即,人机交互方式发生了根本性变化,大模型将成为每位工作者无处不在的得力助手。

AI不会直接取代人类,而是[会使用AI的人]替代[不会使用AI的人],何不先于他人拥有机器人领域大模型「RobotGPT」?你更可以基于RobotGPT多模态大模型,利用私域数据进行训练调优,打造属于自己的行业大模型。

RobotGPT赋能千行百业、引领具身智能,达闼希望通过RobotGPT帮助更多产业伙伴,来完成数字化转型和降本增效,为产业和社会创造更大价值!