模型发布 综合自 2 个来源

苹果发布多语言AI训练数据集

要点

  • 多语言推理训练场覆盖14种语言94个验证任务
  • mAceReason-Math专为跨语言RLVR训练设计
  • 母语者验证确保语言准确性
  • 数据集解决多语言数学推理数据缺乏问题
  • 程序化生成实现可扩展训练数据
  • 均于2026年3月13日通过苹果ML研究发布
参考来源 (2)
  1. [1] 苹果ML团队发布覆盖14种语言的多语言推理训练场 — Apple Machine Learning Research
  2. [2] 苹果发布mAceReason-Math: 用于RLVR训练的多语言数学数据集 — Apple Machine Learning Research

苹果发布两款多语言AI训练数据集

苹果机器学习研究团队发布了两个开创性的多语言数据集,旨在提升AI模型在14种语言中的推理能力。这两个发布——多语言推理训练场(Multilingual Reasoning Gym)和mAceReason-Math——解决了AI领域的一个关键问题:缺乏高质量的多语言强化学习训练数据。

多语言推理训练场能够程序化生成14种语言的可验证推理问题,保持了原始推理训练场的可扩展生成和可调节难度特性。每个数据集都包含94个任务的母语者验证翻译,确保语言准确性和文化相关性。这种方法允许研究人员在多种语言中同时训练AI模型的逻辑、数学和解决问题能力。

第二个发布mAceReason-Math专门针对可验证奖励强化学习(RLVR)训练。与以往以英语为中心的数学数据集不同,mAceReason-Math为当前最先进模型提供了适当的难度级别,实现了跨语言的有效数学和逻辑推理训练。这一发布意义重大,因为大多数高级数学推理数据集都是用英语开发的,限制了开发多语言AI系统的能力。

技术细节

多语言推理训练场建立在苹果此前推理训练数据工作的基础上,扩展到多语言支持。它保持了原始版本的关键特性:每个问题都有可验证的正确答案,难度可调节,生成可以扩展以满足训练需求。

mAceReason-Math专注于数学推理,提供能够挑战当前最先进模型同时又能通过适当训练解决的问题。这确保研究人员可以使用该数据集推动多语言AI系统在数学推理方面的能力边界。

这两个数据集现已通过苹果机器学习研究网站向AI研究社区提供,为开发更强大的多语言AI系统提供了宝贵工具。

0:00