2025OpenAI发布GDPval评估基准衡量AI真实经济价值表现

OpenAI近日推出名为GDPval的新型AI评估体系，旨在衡量前沿模型在真实经济任务中的实际表现，弥补学术测试与现实应用间的鸿沟。该基准覆盖美国九大高贡献行业中的44个职业，涵盖1320项由资深专业人士设计的具体任务，并要求模型输出文件、幻灯片等多模态成果，提升评测真实性。首轮测试显示，Claude Opus 4.1综合表现最佳，GPT-5在专业准确性上领先。研究还发现，前沿模型完成任务速度较人类快约100倍，成本仅为百分之一。但OpenAI指出，当前版本尚未涵盖需反复迭代或高度交互的复杂场景，未来将扩展覆盖范围并开放部分数据集。

2025OpenAI发布GDPval评估基准 衡量AI真实经济价值表现

发表回复

2025OpenAI发布GDPval评估基准衡量AI真实经济价值表现