给ai一场面试:为什么传统测试正在失效?
给AI一场面试:为什么传统测试正在失效?
引入:当AI刷题超越人类
2025年底,GPT-4在律师资格考试中得分超过90%的人类考生。但有趣的是,当研究人员让它处理真实的客户咨询时,表现却远不如预期。这个反差揭示了一个被忽视的问题:我们正在用错误的方式评估AI。
宾夕法尼亚大学沃顿商学院的Ethan Mollick教授提出了一个尖锐的观察:大多数AI基准测试就像让应聘者做一份标准试卷,而真正的能力只有在面试中才能显现。
分析:传统AI测试的三大盲区
1. 数据污染:AI在背答案
MMLU-Pro...
blog.xuepilot.com1 min read