顶尖大语言模型横向评测,ChatGPT完胜

顶尖大语言模型哪家强?近日Poe与@SurgeAI合作,对大语言模型的四大功能属性进行了系统评估:推理、写作、创造力和非英语流利程度,结果如下:

评测结论如下:

1.GPT4在所有评测项目中都胜出(不考虑速度和成本),但是各项的第二名都各不相同,说明除ChatGPT之外的大语言模型普遍“偏科”。

2.谷歌的PaLM在非英语语言能力方面击败了除GPT4之外的所有其他模型,与GPT4得分非常接近。

3.Claude2在推理能力中排名第二,测试内容涵盖了数学问题和编程挑战等任务。

4.Llama 2 70b在写作和创意方面表现出色,仅次于GPT4和3.5。

参考链接:https://poe.com/bot_rankings

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸