OpenAI给出了答案:五十。这个数字是理解GPT-Rosalind的关键——这是一款专门为生命科学研究工作流训练的大语言模型,而非通用科学助手穿上生物学外衣。
以 Rosalind Franklin 命名的 GPT-Rosalind 于本周正式发布,标志着垂直领域AI战略的重大升级。根据 OpenAI 官方公告,这款模型针对的是现代生物学研究中的两大核心痛点:数十年来积累的基因组和蛋白质生物化学数据集规模庞大,以及生物学各子领域的高度专业化导致的知识孤岛。
技术实现上,OpenAI 没有采用传统的海量科学文献预训练方式,而是聚焦于50个最常用的生物研究工作流,并针对如何访问主要公共生物数据库进行专项训练。产品负责人王云云在媒体简报中表示:「我们正在通过已知通路和调控机制连接基因型与表型,推断蛋白质可能的结构或功能特性,真正利用这种机械性理解来加速药物发现。」
这与主流科技公司的通用科学模型形成鲜明对比。谷歌、Meta等厂商推出的科学助手覆盖面广,但在处理特定领域工作流时深度不足。GPT-Rosalind 则针对药物发现团队日常使用的特定数据结构、通路分析方法和高置信度靶点排序标准进行优化。
对于制药和生物技术公司而言,这意味着研究周期的实质性缩短。传统上,遗传学家研究一个脑细胞活性基因时,需要手动检索大量神经生物学文献,这个过程可能耗时数天。GPT-Rosalind 能帮助研究人员跨越分子生物学、神经科学和生物化学之间的术语壁垒,快速定位关键通路和候选靶点。
更深层的战略意图在于垂直领域护城河的构建。OpenAI 的目标并非在通用推理基准测试中击败 Claude 或 Gemini,而是在高价值专业领域建立不可复制的优势。生物学的五十个工作流训练模式若被验证,下一个目标很可能是材料科学、气候模拟等数据密集型学科。
GPT-Rosalind 即日起向药物发现、基因组分析和蛋白质推理相关机构开放,企业级定价尚未披露。