顶尖大语言模型横向评测,ChatGPT完胜
顶尖大语言模型哪家强?近日Poe与@SurgeAI合作,对大语言模型的四大功能属性进行了系统评估:推理、写作、创造力和非英语流利程度,结果如下:
评测结论如下:
1.GPT4在所有评测项目中都胜出(不考虑速度和成本),但是各项的第二名都各不相同,说明除ChatGPT之外的大语言模型普遍“偏科”。
2.谷歌的PaLM在非英语语言能力方面击败了除GPT4之外的所有其他模型,与GPT4得分非常接近。
3.Claude2在推理能力中排名第二,测试内容涵盖了数学问题和编程挑战等任务。
4.Llama 2 70b在写作和创意方面表现出色,仅次于GPT4和3.5。
参考链接:https://poe.com/bot_rankings
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: