AI代理基准测试体系存在系统性缺陷

普林斯顿大学最新研究显示,当前AI代理的基准测试体系存在系统性缺陷,部分"突破性成果"实为精心设计的数字魔术。 阅读全文