首页  »   大模型

AI基准测试的陷阱:代理性能评估存在误导

普林斯顿大学的研究人员最近的一项分析揭露了当前AI代理基准测试和评估实践中的一些缺陷,这些缺陷阻碍了它们在现实世界中的应用。 阅读全文