gpt-4-turbo-2024-04-09 与 openai 内部大模型基准评估工具 simple-evals，已开源

前两天，openai新出了个 gpt-4-turbo-2024-04-09 模型，官方将其做为了当前最新版的gpt4-turbo，怎么知道这个模型到底强在哪里？

simple-evals 是官方内部的基准评估工具，已经开源，该工具通过解决涵盖数十个主题的六组问题来评估大模型输出的准确性。据 OpenAI 称，gpt-4-turbo-2024-04-09 在所有六个问题集上的表现均优于其前身。

OpenAI 在名为 GPQA 的评估数据集上测试新的 LLM 时观察到了最大的改进。该文件由 Google LLC 开发，包含 448 道研究生水平的多项选择题，涵盖数学和物理等主题。最新版本的 GPT-4 Turbo 准确回答了 49.1% 的问题，比模型之前的版本提高了近 10%。