Discussion

XuePilot

Apr 11

Ai已超越人类基准测试——教育评估体系正在崩塌

2026年3月，一份来自AI研究机构的评估报告让教育界哗然：在Google-Proof Q&A基准测试中，顶级AI系统的准确率达到了94%，而研究生使用Google搜索时的准确率仅为34%（跨领域）至70%（本领域）。这不是科幻，这是正在发生的事实。指数级增长的真相 Ethan Mollick在其最新文章中展示了令人震惊的数据曲线： GDPval测试：AI在复杂任务上的表现已达或超过顶级人类专家82%的时间 Humanity's Last Exam：由大学教授编写的极难问题集，AI表现持续...

blog.xuepilot.com1 min read

Responses

No responses yet.

Search Hashnode

Ai已超越人类基准测试——教育评估体系正在崩塌

Responses

Recent in Forum