首页  »   AI代理

AI代理基准测试体系存在系统性缺陷

普林斯顿大学最新研究显示,当前AI代理的基准测试体系存在系统性缺陷,部分"突破性成果"实为精心设计的数字魔术。 阅读全文

AI基准测试的陷阱:代理性能评估存在误导

普林斯顿大学的研究人员最近的一项分析揭露了当前AI代理基准测试和评估实践中的一些缺陷,这些缺陷阻碍了它们在现实世界中的应用。 阅读全文