宇樹科技開啟大門:UnifoLM-WBT-Dataset 改寫人形機器人訓練資料規則
2026 年 3 月 5 日,宇樹科技 (Unitree Robotics) 發布了全球最全面的真實世界人形機器人「全身遙操作 (Whole-Body Teleoperation)」開源資料集——且規模仍在持續擴大。為什麼研究人員、開發者與整個 AI 陪伴產業都應密切關注?
什麼是 UnifoLM-WBT-Dataset?為何它如此重要?
2026 年 3 月 5 日,總部位於杭州、廣泛部署的 G1 人形機器人製造商宇樹科技 (Unitree Robotics),在 Hugging Face 平台上公開發布了 UnifoLM-WBT-Dataset。縮寫 WBT 代表全身遙操作 (Whole-Body Teleoperation),它描述了一種被機器人社群長期視為實現通用人形智能「關鍵缺失拼圖」的訓練資料類別:不僅是在孤立狀態下,而是作為一個完整、協調的系統所捕捉的高品質、真實世界人形機器人全身運動記錄。
傳統的機器人資料集通常將手臂的動作與腿部動作分開記錄,或是在受控的實驗室環境中捕捉腳本化行為。相比之下,UnifoLM-WBT-Dataset 將整台機器人——從雙足移動、平衡到手指級別的靈巧操作——記錄為真實開放環境中單一的統一行為流。這產生了一種根本不同的訓練訊號:一種真正反映人類如何在世界中移動並與之互動的方式。
此資料集在 Hugging Face 上的公開發布——供全球研究人員、開發者與機構免費存取——代表了宇樹科技的一項重大戰略舉措。截至 2026 年初,G1 的出貨量已超過 5,500 台,並擁有一個快速增長的開源生態系,該公司正將自己的定位從單純的硬體製造商,提升為下一代人形 AI 的基礎設施層。
全身遙操作:資料背後的技術突破
要理解這個資料集在技術上的重要性,必須先了解「全身遙操作」到底涉及什麼。在傳統的機器人遙操作中,人類操作員使用搖桿、數據手套或遠端介面控制機器人的手臂或機械夾爪。而機器人的移動系統——如何行走、重心轉移或保持平衡——通常由預先編寫的控制器分開處理,與操作任務完全脫鉤。
全身遙操作徹底打破了這個架構假設。每一個動作——從行走到抓取——都被記錄為一個完整的系統,而非孤立的動作。操作員的全身意圖會實時映射到機器人上,機器人必須將平衡、移動與靈巧手部控制整合成單一行為來同步協調。如資料集所捕捉的,最終的結果是流暢且逼真的,而非僵硬與預先編寫的——機器人能實時跟隨人類的意圖。
促成此資料收集的硬體同樣值得關注。宇樹科技開發了使用 XR 裝置(包括 Apple Vision Pro、PICO 和 Meta Quest)以及動態捕捉 (MoCap) 系統與可穿戴外骨骼式控制器的遙操作路徑。這些輸入系統將人體運動學直接轉譯為 G1 機器人 29 至 43 個自由度 (DOF) 的關節空間指令。
每個資料集片段 (Episode) 包含完整的關節狀態觀察(覆蓋肩部俯仰/翻滾/偏航、手肘、手腕軸線、臀部、膝蓋和腳踝關節的 float32 陣列)、動作向量,以及 256×256 或 128×128 解析度的同步多鏡頭影片流。每個片段平均約 30 秒,並以 RLDS 格式儲存。
深入資料集:任務、規模與持續滾動更新
UnifoLM-WBT-Dataset 並非單一的龐大檔案,而是一個不斷增長的特定任務子資料集集合,每一個都捕捉了宇樹 G1 機器人在真實世界中執行的不同操作或移動場景。截至 2026 年 3 月底,該集合開放下載的幀數範圍已達數萬至數十萬幀。
| 資料集名稱 | 任務描述 | 幀數 (Frame Count) |
|---|---|---|
| G1_WB_Dex5_Collect_Clothes | 全身操作:收集散落的衣物 | ~89,100 |
| G1_WB_Dex5_Pickup_Pillow | 全身操作:尋找並拿起枕頭 | ~157,000 |
| G1_WB_Dex5_Put_Clothes_into_Washing_Machine | 全身操作:將待洗衣物放入洗衣機 | ~119,000 |
| G1_WBT_Brainco_Pickup_Pillow | 搭配 Brainco 仿生手的 WBT 變體任務 | ~178,000 |
| G1_WBT_Brainco_Collect_Plates_Into_Dishwasher | WBT 變體任務:收集餐盤並放入洗碗機 | ~486,000 |
該資料集的一個決定性特徵是其「持續成長的架構 (living architecture)」。該資料集將持續接收高頻率的滾動更新,旨在建立在場景覆蓋率、任務複雜度與資料量上,全球最全面的真實世界人形機器人資料集。
更宏觀的視角:UnifoLM 生態系——VLA、WMA 與 AI 軟體堆疊
WBT 資料集並非孤立存在。它是宇樹科技在過去 12 個月內,於 UnifoLM 家族保護傘下系統性組建、日益完整的開源 AI 軟體堆疊的其中一層。
視覺-語言-動作 (Vision-Language-Action) 模型,發布於 2026 年 1 月 29 日。基於 Qwen2.5-VL-7B 構建。能夠從自然語言指令執行 12 類複雜的靈巧操作。基於宇樹的開源資料集進行微調。
世界模型-動作 (World-Model-Action) 框架,發布於 2025 年 9 月。包含一個具備雙重功能的世界模型:作為用於合成資料生成的互動式模擬引擎,以及作為預測未來環境狀態的策略增強模組。
這些支柱共同構成了具身智能 (Embodied AI) 領域中真正新穎的事物:一個垂直整合、完全開源的通用人形機器人訓練軟體堆疊,只要有網路,任何研究人員或開發者都可以存取使用。
編輯部分析:這對人形 AI 與陪伴機器人意味著什麼
UnifoLM-WBT-Dataset 的發布在多個層面上都具有重大意義,其影響深遠,遠超出單純的機器人研究社群。
資料稀缺問題正被直接解決。 多年來,訓練通用人形機器人的主要瓶頸並非算力——而是缺乏高品質、多樣化、真實世界的訓練資料。WBT 資料集直接攻克了這個基礎障礙。
人形 AI 的民主化正在加速。 隨著 UnifoLM-WBT-Dataset 在 Hugging Face 上免費提供,獨立開發者或新創公司現在可以獲取與宇樹工程師內部使用的相同訓練資料。競爭環境的規則已被徹底改變。
陪伴應用的發展路徑已清晰可見。 目前 WBT 資料集中呈現的任務——收集衣物、將衣物放入洗衣機、撿起家用品——正是家庭服務機器人與 AI 陪伴系統能夠在日常生活中提供實質協助所需的核心行為。這個資料集正實質地勾勒出最終將進入消費者家中的陪伴機器人雛形。
