Free stuff

OpenAI 推出 GeneBench-Pro 基准测试,用于评估 AI 模型生物学计算能力 - 九游游戏

2026-07-01by Brandon Hanson

与以往的基准测试主要关注模型是否能记住信息或遵循固定步骤不同,GeneBench-Pro 侧重于模型在实际科研场景下的应用能力。它旨在评估模型在面对不精确、不完整甚至含有干扰的真实数据时,能否进行有效的判断和分析以得出结论。

GeneBench-Pro 涵盖了基因组学、定量生物学和转化医学等多个领域,共设计了 129 道测试题目。这些题目被划分为 10 个主要领域和 21 个子领域,包括统计遗传学、群体遗传学、功能基因组学和蛋白质组学等。每道题目都为模型提供了一个接近真实科研环境的数据集,并附有简要的实验背景介绍和一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择分析方法,并在此过程中不断调整策略,最终给出解答。

为了解决传统长流程基准测试中常见的评分不准确问题,OpenAI 在开发 GeneBench-Pro 时采用了合成数据作为核心。这是因为使用真实历史数据出题时,可能存在多条有效的分析路径,导致模型即使采用了错误的方法也可能偶然获得正确答案。

通过使用合成数据,OpenAI 可以完全控制底层因果关系和数据生成过程,从而更精确地评估模型是否真正理解了问题,而非仅仅走了“捷径”。

目前,OpenAI 已在 Hugging Face 上公开了 10 道 GeneBench-Pro 的示例题目,并提供了一个可供外部研究人员交互体验的界面。未来,OpenAI 计划开放其中的 50 道题目,以便 Artificial Analysis 进行独立的第三方评估,从而验证不同模型在这一基准测试下的实际表现。

电话:+86 151 4805 4877邮箱:[email protected]微信:portal9game_490