2025OpenAI发布GDPval评估基准 衡量AI真实经济价值表现

OpenAI近日推出名为GDPval的新型AI评估体系,旨在衡量前沿模型在真实经济任务中的实际表现,弥补学术测试与现实应用间的鸿沟。该基准覆盖美国九大高贡献行业中的44个职业,涵盖1320项由资深专业人士设计的具体任务,并要求模型输出文件、幻灯片等多模态成果,提升评测真实性。首轮测试显示,Claude Opus 4.1综合表现最佳,GPT-5在专业准确性上领先。研究还发现,前沿模型完成任务速度较人类快约100倍,成本仅为百分之一。但OpenAI指出,当前版本尚未涵盖需反复迭代或高度交互的复杂场景,未来将扩展覆盖范围并开放部分数据集。

上一篇:

下一篇:

公众号
公众号
新媒体群
新媒体群
联系邮箱

1284674160@qq.com

分享本页
返回顶部
新媒体之家(狐呼网)免费入驻互联网领域个人自媒体,企业自媒体,媒体网站等。入驻合作可以联系:m1284674160