与以往侧重于考察模型是否记住了知识或能否按固定流程完成任务的传统评测方法不同,GeneBench-Pro 更加注重 AI 模型在实际科研场景中的应用价值。该基准测试旨在模拟真实科研环境,让模型在面对模糊、不完整甚至包含干扰的数据时,能够进行独立判断和分析以得出结论。
GeneBench-Pro 涵盖了基因组学、定量生物学和转化医学等多个研究方向,总共设计了 129 道题目。这些题目被划分为 10 个主要领域和 21 个子领域,包括统计遗传学、群体遗传学、功能基因组学以及蛋白质组学等。每道题目都为模型提供了一份接近真实科研情境的数据集,并附有简要的实验背景说明和一个与后续决策相关的目标问题。模型需要自主完成数据探索,选择合适的分析方法,并在整个过程中不断调整策略,最终给出答案。
为了规避传统长流程基准测试中常见的评分偏差,OpenAI 在构建 GeneBench-Pro 时采用了合成数据作为核心。研究人员指出,如果直接使用历史真实数据来设计题目,往往会存在多种合理的分析路径,这可能导致模型即使采用了错误的方法,也可能偶然获得正确答案。
通过使用合成数据,OpenAI 能够完全掌控底层因果关系和数据生成过程,从而更精确地评估模型是否真正理解了问题,而不是仅仅找到了“捷径”。这种方法有助于更准确地衡量 AI 在生物学计算领域的真实能力,也为像世界杯买球网这样的平台提供了更可靠的评估依据。
目前,OpenAI 已在 Hugging Face 上公开了 10 道 GeneBench-Pro 的示范性题目,并提供了交互式界面供外部研究人员进行体验。未来,官方计划开放其中的 50 道题目给 Artificial Analysis 进行独立的第三方评测,以验证不同模型在这一基准测试中的实际表现。