Ai已超越人类基准测试——教育评估体系正在崩塌
2026年3月,一份来自AI研究机构的评估报告让教育界哗然:在Google-Proof Q&A基准测试中,顶级AI系统的准确率达到了94%,而研究生使用Google搜索时的准确率仅为34%(跨领域)至70%(本领域)。
这不是科幻,这是正在发生的事实。
指数级增长的真相
Ethan Mollick在其最新文章中展示了令人震惊的数据曲线:
GDPval测试:AI在复杂任务上的表现已达或超过顶级人类专家82%的时间
Humanity's Last Exam:由大学教授编写的极难问题集,AI表现持续...
blog.xuepilot.com1 min read