RobotGPT被問爆了！帶你了解什麼是機器人多模態大模型

2023-07-28 14:17:07

你是否曾經想過，如果機器人能像人一樣聽懂我們的語言，自動分解、規劃和執行任務，那將會是多麼神奇的事情？

這一切，現在已經成為現實。達闥推出了機器人行業的多模態人工智能大模型——RobotGPT，讓機器人真正聽懂你的話語。那麼，什麼是多模態大模型？RobotGPT大模型具體是什麼，能幹什麼？這些熱知識，一文帶你看懂，手指下滑，一起來GET！

什麼是RobotGPT？機器人多模態大模型！

RobotGPT是為實現機器人在複雜應用場景下的多模態行為而提供的交互生成型AI（Generative AI）模型。它以Transformer為基礎，具備多模態（文本、語音、圖片、視覺、運動、點雲等）融合感知、認知、決策和行為生成能力。簡單來說，RobotGPT就像一個全能的機器人大腦，可以理解和處理各種類型的信息，然後做出相應的決策和行動。

RobotGPT是達闥為機器人設計的多模態大模型，※幫你划重點：RobotGPT不是應用，它是大模型！

小知識：什麼是多模態大模型？

目前常見的AI大模型有NLP（自然語言處理）大模型、CV計算機視覺大模型、多模態大模型等。NLP大模型具備超強語言理解能力以及對話生成、文學創作等能力，比如ChatGPT。CV計算機視覺大模型，可以對海量圖片進行識別。這兩種大模型基本都是單模態的。多模態大模型是指能夠處理和理解多種類型數據（如文本、圖像、聲音等）的大模型。

未來的通用人工智能（AGI）將邁向兩個不同的方向：一是走向多模態，大模型不僅限於文本和視覺，還可能擴展到嗅覺和觸覺等感官領域；二是走向具身智能，涵蓋機器人、機械臂、無人車等物理實體，使通用人工智能進入物理世界。人類的生存環境和思考過程都是多模態的（圖、文、聲、光、電、影等），因此，未來真正的AGI必然是與人類相仿的，高效的多模態智能處理機，RobotGPT就是一個多模大模型，它具備高效的多模態信息處理能力和人性化的行為表達能力，可以對文本、語音、圖片、視覺、運動、點雲等多種信息來源進行理解和處理，支持語言、視覺和運動的多模態行為表達，使得人機交互更加自然、富有情感。

RobotGPT核心功能：更貼近人的交互方式、更智能的行為決策

RobotGPT發佈后還有一個被大家問爆了的問題是它能幹什麼，現在一起來看下吧。

目前RobotGPT擁有多模態交互、生成式AI、自主感知和認知、智能決策等強大功能。其中，多模態交互和多模態融合智能，為機器人提供更多元全面的感知和認知能力，從而提高人機交互的效果和體驗。大模型結合具身智能和AIGC，讓機器人對話理解能力大幅提升，能像人一樣去理解材料和對話，生成符合人類價值觀的回答，自動任務分解和自主行為決策可以讓機器人作出自主決策和動作。智能語音、圖片視頻理解，讓機器人能聽、能看、能懂，全方位理解人的需求。情感分析、表情動作生成，讓機器人更有情感，更有溫度。AI變聲、聲紋識別，讓機器人更有個性，更有安全感。行業問答、多輪對話，無論你有任何問題，機器人都能對答如流。

微信圖片_20230725111558.png

這是RobotGPT的AIGC對話生成效果展示，回答流暢自然有邏輯，有大量知識儲備。還有一個很炸裂的能力是，你不需要花費心思給AI編造完整的人設和個性，目前後台有近百種AI人設，還有通過預設任務選擇，就可完成上百種典型場景的精準問答。

微信圖片_20230719150805.png

當然，「Chat」只是RobotGPT其中一項能力，只靠閑聊、寫詩、作畫無法重構人類社會。RobotGPT最重要的是為機器人帶來了更加先進的多模態感知和自主認知能力、複雜邏輯推理和智能決策能力以及多模態行為表達能力，通過強化學習、視覺語言導航、視覺語言操作、運動控制等前沿技術，大模型能夠高效處理和分析海量數據，讓機器人更加深入地理解周圍環境，自主的去靈活應對各種任務和挑戰。

舉個例子，當你對一個集成了RobotGPT的機器人說「我口渴了」，這個指令並沒有明確包含具體的對象「水」，而是隱含了「去接一杯水」的需求，機器人會通過常識推理、場景感知、用戶畫像信息決策去哪裡取水，用何種工具接水，取水后如何返回，以及如何將水遞給你。然後，利用視覺語言導航、位姿估計、抓取檢測、運動控制等技術去完成倒水任務，這一系列過程是完全自主決策的，不需要人為的干預。隨着大模型規模增大到一定程度，機器人將能夠像人一樣使用經驗來穿越複雜環境。

RobotGPT重心在於解決行業側需求推動產業升級和變革

一個業界共識是，大模型紮根行業，與行業深度結合，才能做的深，走得遠。

相較通用大模型，更有針對性、更專業化的行業大模型在金融、醫療、政務、教育等多個行業擁有廣泛的應用和商業創新潛力。RobotGPT是機器人大模型，它構建在基礎大模型的能力之上，具備一定的通用能力，同時能覆蓋多任務使用場景，能更好地理解和處理行業特定的問題和任務。無論是在能源電力、醫療健康、金融保險、交通樞紐、教育諮詢、高端製造還是其他領域，RobotGPT都能發揮其強大的能力。基於多年在雲端機器人領域的深耕和積累，達闥已聯合行業頭部企業，對超過10個的典型行業的100多個業務場景進行了大模型的支持和應用，並且在多個領域沉澱了完整的項目解決方案。

這是經過定製化訓練后，RobotGPT對於垂直領域的實際對話效果展示，比如做一個專業的政務服務問答，在醫院協助患者問診等，可以看出，RobotGPT能針對特定場景、解決特定問題，讓機器人迅速做出適配指令的合適行動。

屏幕截圖(28).png

屏幕截圖(30).png

目前市場上的大模型大多依賴公開數據集或網絡數據進行訓練，這導致其產生的結果在專業性和精確性上有所不足。在商業領域，大模型達到95%的精度是必要的門檻。在回答精度方面，RobotGPT也沒輸過，它能精準理解業務場景，回答準確率超過95%，遠高於行業平均水平。

說到訓練，RobotGPT是怎麼訓練的呢？

RobotGPT最佳訓練平台：海睿OS

在AI領域，大模型是具有龐大的參數規模和複雜程度的機器學習模型，通常需要大量的數據進行訓練，以便學習到足夠複雜的模式。訓練一個AI模型，技術複雜度並不比訓練一個國家隊運動員低，海睿OS操作系統為RobotGPT提供了理想的訓練平台。在這裏，我們構建了一個超級真實、虛實同步的"海元世界"，這就是"機器人元宇宙"，通過數字孿生訓練和強化學習等技術，可以讓機器人在視覺、語音、情緒、動作等方面進行無數次的"鍛煉"，不斷進化。

屏幕截圖(26).png

前面我們提到，僅靠公開數據集或網絡數據來訓練大模型是不夠的，海睿OS不僅支持吸收大量來自真實環境下的機器人行為數據，還支持合成海量高質量的合成數據，這是多模態機器人大模型訓練的基礎，通過自動創建、生成現實世界中難以或者無法採集的數據場景，可以模擬各種可能的情況、提供更多的訓練樣本，從而提高模型的精確性、可靠性、安全性。

此外，海睿OS還提供了一個基於數字孿生的可視化機器人應用開發套件（HARIX RDK），開發者可以建立仿真環境，模擬現實世界的目標場景，進行機器人多模態技能訓練。同時，RobotGPT還有基於大模型的示範學習技術，通過視覺、語音、思維鏈和原子技能組合示教，開發者可以像教孩子學習一樣，教授機器人各種技能。

RobotGPT兩種形態：服務平台和一體機隨心選

RobotGPT的產品形態有服務平台和一體機兩種可選，服務平台提供RobotGPT多模態大模型的在線服務，一體機則為軟硬一體機，是為解決企業在業務中面向特定行業的生成式大模型推理、訓練或混合推訓及應用私有化部署等剛性需求而設計的行業多模態大模型尖端產品。

AI奇點在即，人機交互方式發生了根本性變化，大模型將成為每位工作者無處不在的得力助手。

AI不會直接取代人類，而是[會使用AI的人]替代[不會使用AI的人]，何不先於他人擁有機器人領域大模型「RobotGPT」？你更可以基於RobotGPT多模態大模型，利用私域數據進行訓練調優，打造屬於自己的行業大模型。

RobotGPT賦能千行百業、引領具身智能，達闥希望通過RobotGPT幫助更多產業夥伴，來完成數字化轉型和降本增效，為產業和社會創造更大價值！