10万小时。这是中国创业公司灵初智能用来训练机器人的数据集规模——相当于一个人不眠不休连续工作11年以上。如今,这个数据集让这家成立不到两年的团队登上了全球机器人学习的榜首位置。
灵初智能由00后创业者创立,核心技术路径却异常清晰:让真人拍摄大量日常任务操作视频,然后直接用这些人类演示数据训练机器人。相比传统方法需要工程师逐条编写规则、反复调试控制策略,灵初选择了截然不同的路径——用规模换泛化能力,用真实人类动作数据替代模拟器生成的合成数据。
在全球权威机器人能力评测中,灵初智能击败了多支资金雄厚、积淀深厚的竞争团队登上榜首。评测考察的是机器人将已学技能迁移到陌生场景的能力——这正是工业落地和家庭应用最核心的需求,也是具身智能长期难以突破的关键瓶颈。
数据瓶颈曾是具身智能的阿喀琉斯之踵。语言模型可以从互联网海量文本中学习,而机器人要学会搬运、装配、操作物体,只能依赖真实场景中人类执行动作的影像数据。这类数据采集成本高、处理周期长、规模扩展困难。灵初的核心突破在于证明:当真人演示数据达到10万小时量级时,机器人能够实现跨任务、跨场景的泛化,而不是只能在训练过的特定场景中机械重复。
10万小时意味着什么?意味着具身智能的数据飞轮已经找到可行的启动方式。对于工厂、物流、医疗设备等需要大量机器人物理操作替代人力的行业,这意味着一个新的技术范式已经验证通过。这支00后团队用行动证明:具身智能的ImageNet时刻或许不在硅谷,而在中国的创业车库里悄然到来。