模型发布综合自 2 个来源

苹果发布多语言AI训练数据集

要点

• 多语言推理训练场覆盖14种语言94个验证任务
• mAceReason-Math专为跨语言RLVR训练设计
• 母语者验证确保语言准确性
• 数据集解决多语言数学推理数据缺乏问题
• 程序化生成实现可扩展训练数据
• 均于2026年3月13日通过苹果ML研究发布

参考来源 (2)

[1] 苹果ML团队发布覆盖14种语言的多语言推理训练场 — Apple Machine Learning Research ↗
[2] 苹果发布mAceReason-Math: 用于RLVR训练的多语言数学数据集 — Apple Machine Learning Research ↗

苹果发布两款多语言AI训练数据集

苹果机器学习研究团队发布了两个开创性的多语言数据集，旨在提升AI模型在14种语言中的推理能力。这两个发布——多语言推理训练场（Multilingual Reasoning Gym）和mAceReason-Math——解决了AI领域的一个关键问题：缺乏高质量的多语言强化学习训练数据。

多语言推理训练场能够程序化生成14种语言的可验证推理问题，保持了原始推理训练场的可扩展生成和可调节难度特性。每个数据集都包含94个任务的母语者验证翻译，确保语言准确性和文化相关性。这种方法允许研究人员在多种语言中同时训练AI模型的逻辑、数学和解决问题能力。

第二个发布mAceReason-Math专门针对可验证奖励强化学习（RLVR）训练。与以往以英语为中心的数学数据集不同，mAceReason-Math为当前最先进模型提供了适当的难度级别，实现了跨语言的有效数学和逻辑推理训练。这一发布意义重大，因为大多数高级数学推理数据集都是用英语开发的，限制了开发多语言AI系统的能力。

技术细节

多语言推理训练场建立在苹果此前推理训练数据工作的基础上，扩展到多语言支持。它保持了原始版本的关键特性：每个问题都有可验证的正确答案，难度可调节，生成可以扩展以满足训练需求。

mAceReason-Math专注于数学推理，提供能够挑战当前最先进模型同时又能通过适当训练解决的问题。这确保研究人员可以使用该数据集推动多语言AI系统在数学推理方面的能力边界。

这两个数据集现已通过苹果机器学习研究网站向AI研究社区提供，为开发更强大的多语言AI系统提供了宝贵工具。