AI基准测试的陷阱:代理性能评估存在误导

人工智能代理正成为一个颇具前景的新研究方向,有望让AI在现实世界中发挥作用。这些AI代理利用基础模型(例如大语言模型和视觉语言模型)来理解自然语言指令,并自主或半自主地实现复杂目标。AI代理还可以使用浏览器、搜索引擎和代码编译器等各种工具来验证其行为并推理其目标。

然而,普林斯顿大学的研究人员最近的一项分析揭露了当前AI代理基准测试和评估实践中的一些缺陷,这些缺陷阻碍了它们在现实世界中的应用。

他们的研究结果强调,代理基准测试面临着独特的挑战,我们无法像基准测试基础模型那样评估代理人。

成本与准确性之间的权衡

研究人员在其研究中强调的一个主要问题是代理人评估缺乏成本控制。运行人工智能代理人比单独调用模型要昂贵得多,因为代理人经常依赖随机语言模型,这些模型在多次给定相同查询时可能会产生不同的结果。

为了提高准确性,一些代理系统会生成多个响应,并使用投票或外部验证工具等机制来选择最佳答案。有时,对数百或数千个响应进行采样可以提高代理人的准确性。虽然这种方法可以提高性能,但会带来巨大的计算成本。在研究环境中,推理成本并不总是问题,因为研究目标是最大化准确性。

然而,在实际应用中,每个查询的预算都是有限的,因此代理人评估必须进行成本控制。如果不这样做,可能会鼓励研究人员开发极其昂贵的代理人,仅仅是为了登上排行榜榜首。普林斯顿大学的研究人员建议将评估结果可视化为准确性和推理成本的帕累托曲线,并使用可以针对这两个指标联合优化代理人的技术。

研究人员评估了不同论文中引入的不同提示技术和代理模式的准确性-成本权衡。

研究人员写道:“对于大体相同的准确性,成本可能会相差近两个数量级。然而,运行这些代理人的成本并不是任何论文中报告的主要指标。”

研究人员认为,针对这两个指标进行优化可以带来“成本更低但保持准确性的代理人”。联合优化还可以使研究人员和开发人员能够权衡运行代理人的固定成本和可变成本。例如,他们可以花费更多资金优化代理人的设计,但通过减少代理人提示中的上下文学习示例来降低可变成本。

研究人员在 HotpotQA(一个流行的问答基准测试)上测试了联合优化。他们的结果表明,联合优化方法提供了一种在准确性和推理成本之间取得最佳平衡的方法。

研究人员写道:“即使我们最终不在乎成本,只关心识别创新的代理人设计,那么实用的代理人评估也必须控制成本。仅靠准确性无法识别进步,因为它可以通过诸如重试等缺乏科学意义的方法来提高。”

模型开发 vs 下游应用

研究人员强调的另一个问题是评估模型用于研究目的和开发下游应用程序之间的区别。在研究中,准确性往往是主要关注点,推理成本则被 largely ignored( weitgehend忽略)。然而,在人工智能代理人上开发真实世界应用时,推理成本在决定使用哪种模型和技术方面起着至关重要的作用。

评估人工智能代理人的推理成本具有挑战性。例如,不同的模型提供商可能对相同的模型收取不同的费用。同时,API 调用的成本会定期变化,并且可能因开发人员的决策而异。例如,在一些平台上,批量 API 调用会收取不同的费用。

为了解决这个问题,研究人员创建了一个网站,可以根据标记价格调整模型比较。

他们还对 NovelQA(用于超长文本问答任务的基准测试)进行了案例研究。他们发现,用于模型评估的基准测试在用于下游评估时可能会产生误导。例如,原始的 NovelQA 研究使检索增强生成 (RAG) 看起来比长上下文模型在真实世界场景中更差。他们的研究结果表明,RAG 和长上下文模型的准确性大致相同,但长上下文模型的成本要高出 20 倍。

过拟合是一个问题

机器学习 (ML) 模型在学习新任务时,经常会找到捷径来提高自己在基准测试中的得分。一种突出的捷径是“过度拟合”,即模型找到欺骗基准测试的方法,并提供无法转化为现实世界的结果。研究人员发现,过度拟合是代理基准测试的一个严重问题,因为它们往往规模较小,通常只有几百个样本。这个问题比训练基础模型中的数据污染更严重,因为测试样本的知识可以直接编程到代理中。

为了解决这个问题,研究人员建议基准测试开发人员:

  • 创建并保留隔离测试集,该测试集由在训练期间无法记忆只能通过正确理解目标任务才能解决的示例组成。
  • 在基准测试中包含多种类型的隔离样本,以评估代理对不同任务的一般性。
  • 保密隔离测试集,以防止 LLM 污染或代理过度拟合。

研究人员还建议AI代理开发人员:

  • 仔细检查他们的代理是否使用了捷径。
  • 在基准测试和现实世界场景中测试他们的代理。
  • 报道他们的代理的成本和准确性。

总而言之,人工智能代理是一个有前途的新领域,但评估它们的方法需要改进。通过更好地控制成本、防止过度拟合并考虑实际应用,我们可以确保人工智能代理真正为现实世界带来益处。

以下是一些额外的建议:

  • 更多地关注人工智能代理的安全性和鲁棒性。
  • 制定人工智能代理的道德准则。
  • 提高公众对人工智能代理的认识。

参考文献:

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸