主页>商界> 正文>

Llama-2首个全方位评测，国内外开源模型大比拼

2023-07-25 14:08 | 来源:IT之家 | 编辑：杜玉梅 | 阅读量：16025 |

进入 2023 年 7 月，大语言模型的发展进入了新阶段，开源成为一个火热的主题。

7 月 6 日，上海人工智能实验室与商汤科技等联合发布了书生?浦语开源体系，不仅开源了书生?浦语的轻量版本(InternLM-7B)，还率先开源了从数据、训练到评测的全链条工具体系，并提供完全免费的商用许可；

7 月 14 日，智谱科技开放 ChatGLM2-6B 免费商用；

7 月 19 日，Meta 开源了性能更强的 Llama-2，也提供了更加宽松的商用许可。

面对语言模型的新一波开源浪潮，图灵奖得主 Yann Lecun 在推特上评价:

This is going to change the landscape of the LLM market.

可是，开源模型的表现是否可以当得起业界的热切期待？

我们在拿到 Llama-2 的系列开源模型后，通过 OpenCompass 对它进行了全方位的评测。

Llama-2 有多强

Llama-2 相比 Llama-1 有不少技术层面的改进，从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言，重要的改进有以下几点:

模型架构上使用 Group-Query-Attention 来提高模型推理效率，语境长度从 2K 增加一倍到 4K。
预训练语料从 1.4T tokens 增加到 2T tokens。
在监督微调阶段更加注重数据集质量，使用更少但质量更高的 SFT 数据相比使用百万量级的公开 SFT 数据，效果显著提升。
引入了三项安全训练技术 Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增，仍难媲美 ChatGPT

那么，Llama-2 的整体能力究竟如何呢？

虽然在官方技术报告中已经展示了在 20 个左右数据集上的测试结果，但评价能力维度仍然有限，对比的模型也还不够全面。

这里我们借助开源评测工具 OpenCompass，对 Llama-2 发布的各个模型在 40 多个评测集上进行了全方位的评测，从学科、语言、知识、理解、推理五大维度综合衡量大模型的能力。

结果可以总结为以下的雷达图:

下表列出 Llama、Llama-2、以及 ChatGPT 在几个有代表性评测集上的表现:

相比上代模型全面提升:

从综合能力角度，Llama-2-70B相比于 Llama-1-65B(紫色)更胜一筹，在语言、知识、推理、理解、学科等各个能力维度相比 Llama-1 都有明显提升。比如综合考试集 MMLU 上从 63.71 提升到 69.75，GSM8K 上从 54.51 提升到 63.46。

对话和基座模型基本持平:

经过微调和对齐的模型 Llama-2-70B-Chat相比基座模型 Llama-2-70B(绿色)，综合能力基本持平，在语言、推理和理解上相比基座有性能提升，在学科综合能力和知识能力上略有下降。比如翻译评测集 Flores 和代码评测集 HumanEval 上，Chat 模型分别有超过 40% 和 20% 的相对提升，而在 MMLU 和 TrivialQA 上则有大约 10% 的相对降低。

离 ChatGPT 仍有较大差距:

相比 ChatGPT-0613，Llama-2-70B-Chat(黄色)仍需继续追赶，尤其在推理能力、理解能力、和学科综合能力上差距还比较明显。其中数学评测集 MATH 和代码评测集 HumanEval 的差距都超过了一倍。

中文能力短板明显

在 Llama 的训练语料中，中文占比较小，微调阶段也没有针对中文进行调优，所以当前 Llama-2-Chat 在中文问题上仍显不足。

一个典型的表现就是给定中文问题时，模型还是会以英文回答。

为了对 Llama-2 的中英文能力有更深入的理解，我们选取了 OpenCompass 中的中英文数据集进行分别分析。

结果显示:

Llama-2 在英语语言能力、知识水平和理解能力上已经较为接近 ChatGPT。
Llama-2 在中文能力上全方位逊色于 ChatGPT。这一结果表明，Llama-2 本身作为基座模型直接支持中文应用并不是一个特别优秀的选择。
推理能力上，不管中英文，Llama-2 距离 ChatGPT 仍然存在较大差距。由此可见，对于大模型来说，推理能力提升的难度比基础语言能力提升的难度要高得多。

安全对齐让模型过度谨慎

Llama-2 的一大特色是它在训练过程中采用了比较完善的安全对齐方案，在价值对齐和安全性上有较大提升。

但在测试中我们也发现，Llama-2 的安全性和模型能力的平衡没有做得特别好，模型非常谨小慎微，对于很多常见问题都拒绝回复。

国内模型不落下风

近几个月，国内大模型发展迅速，多个企业和科研机构都发布了各自的大模型，其中不乏千亿参数的大模型。

那么国内大模型和 Llama-2 相比，究竟表现如何呢？很多朋友都关心这个问题。

重量级模型的对比

国内机构发布的 70B 或者更高量级的模型普遍尚未开源，很多模型只通过内测 API 提供有限服务，因此我们还很难获得对很多国产模型的全量评测数据。

在 OpenCompass 上，由上海人工智能实验室和商汤科技联合多所高校发布的千亿参数书生?浦语模型已经有了全面的评测结果。

基于这个结果，我们比较了书生?浦语和 ChatGPT 与 Llama-2 的性能:

在重量级模型的对比中，书生?浦语表现优秀，在大部分主流评测集上领先于 Llama-2 以及 ChatGPT。具体而言，在 43 个评测集中，InternLM-104B 在 34 个评测集中超越 ChatGPT，在 41 个评测集上超越 Llama-2-70B。

中文考试大幅领先:

在中文考试评测集 CEval 和高考评测集 GAOKAO-Bench 上，InternLM-104B 都大幅超过 Llama2-70B。

语言能力略有优势:

在中英文的基础语言任务上，包括字词理解，成语习语，翻译等评测集上，InternLM-104B 都有优势，其中中文评测集上差距更大。

阅读理解“书生”名副其实:

在中英文的各类阅读理解评测集上，InternLM-104B 均表现出明显的优势，从文本段中总结和理解关键信息的能力更胜一筹。

推理能力技高一筹:

在常识推理、数学推理、综合推理的各种数据集上，InternLM-104B 都有比较稳定的发挥，相比 Llama2-70B 有一定优势。

知识问答平分秋色:

在 BoolQ，CommonSenseQA，TrivialQA，NaturalQuestion 等知识问答评测集上，两个模型表现相当，可见知识水平没有明显差异。

代码能力互有胜负:

InternLM-104B 和 Llama2-70B 的代码能力不相上下，HumanEval 和 MBPP 两个数据集上互有胜负。

轻量级模型的对比

重量级赛道上你追我赶，在 7B 量级的轻量级赛道上，开源模型的竞争也十分活跃。

在众多国内开源模型之中，百川智能发布的 Baichuan-7B、清华大学和智谱 AI 发布的 ChatGLM2-6B、上海人工智能实验室发布的 InternLM-7B 等优秀模型广受业界关注。

我们把这些国内模型和 Llama-2-7B 进行了全方位评测对比:

下表列出了这几个 7B 量级模型在几个有代表性评测集上的表现:

结果显示:Llama-2 在知识能力上有明显优势。

但在学科、语言、推理和理解能力上，InternLM 和 ChatGLM2 都已经超越了 Llama-2，而且 InternLM 的领先优势十分明显。

免费商用形成星火之势

几个月前 Llama 的开源引爆了社区，让众多开发者和研究者受益匪浅，衍生出整个羊驼家族，但遗憾的是其协议限制商用，将企业拒之门外。

7 月 6 日，世界人工智能大会上，书生浦语开源体系正式发布，开源了 InternLM-7B 并提供免费商用许可。

之后，ChatGLM2-6B 和 Llama2 等开源模型相继推进免费商用，顺应了发展潮流和社区呼声。

相信开源社区的星星之火将对产业形成燎原之势，进一步降低大模型落地应用的门槛。

* 本文系量子位获授权刊载，观点仅为作者所有。

—完—

广告声明:文内含有的对外跳转链接，用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

上一篇：达芬奇视频编辑软件DaVinciResolve18.5正式版发布，带来新下一篇：返回列表

热点资讯

1
达芬奇视频编辑软件DaVinciResolve18.5正式版发布，带来新

$vo.description|msubstr=0,60,'utf-8',false}
2
2023《无畏契约》洛杉矶全球冠军赛分组出炉，EDG等16支队伍展开双败

$vo.description|msubstr=0,60,'utf-8',false}
3
宝可梦WCS2023世界锦标赛将于8月在日本横滨举行，下一届将有中国内地

，宝可梦官方今日公布了宝可梦世界锦标赛2023宣传片《终于遇到你啦！》，展现了宝可梦世界锦标赛中四项比赛。此外官方还
4
宝马正利用AI技术降低汽车工厂生产成本，每年节省100万美元

，据外媒CNBC报道，宝马表示该公司最近在其斯帕坦堡工厂部署了人工智能技术，据称“每年可节省100万美元”。据悉，宝
5
OpenAICEO“世界币”加密货币项目启动，推出配套虹膜扫描硬件

感谢IT之家网友W丨U的线索投递！，由OpenAICEO山姆?阿尔特曼共同创办的美国初创IT公司“ToolsforH
6
OPPOK11手机官方预热：5000mAh电池+长寿版100W超级闪充

感谢IT之家网友软媒新友1933769的线索投递！，OPPOK11手机将于7月25日14:30正式发布，官方今日继续
7
高斯贝尔因业绩预告净利与实际差异较大且未及时修正收监管函

今日，高斯贝尔(002848.SZ)披露收到深交所监管函。监管函指出，1月30日，高斯贝尔披露《2022年度业绩预告
8
女足雄起，朗迪制药为女足精神鼓掌

炎炎夏日，很多地方开始逐渐变身“火炉”。对于球迷而言，酷暑难耐的日子里，除了侃侃五大联赛休赛期的转会八卦外，还有什么比赛
9
Gurman：苹果VisionPro市场太小，目前多数开发者不愿为其专门

感谢IT之家网友华南吴彦祖的线索投递！，苹果明年初将推出VisionPro空间计算头戴设备，但该产品可能面临应用开发
10
奋进投资累计质押华帝股份2355万股，占总股本2.78%

乐居财经邓如菲7月24日，华帝股份发布关于股东股份解除质押的公告。公告显示，华帝股份控股股东石河子奋进股权投资普通合

精彩推荐

1
电动汽车上半年在美国市场销售超过65万辆同比增长近55%

，据外媒报道，随着车型增多、产量提升，充电桩等配套设施不断完善，加之补贴持续和消费者购买意愿的提升，电动汽车在众多市场的
2
3699元起！努比亚Z50SPro本周首销：搭载独家定制35mm焦段镜头

7月20日，努比亚正式发布了新一代影像旗舰——努比亚Z50SPro，该机不仅在外观上采用了经典旁轴相机的复古设计，更是搭
3
苹果M3芯片Mac最快有望10月份推出包括13英寸MacBookAir

，据外媒报道，自2020年6月份宣布将自研基于Arm架构的Mac芯片以来，苹果公司已推出M1和M2系列共8款芯片，Mac
4
山西汾酒上半年保持高双位数增长：盈利大涨三成营收同比增长24%

山西汾酒7月24日下午公布了上半年经营情况:2023年上半年，公司预计实现营业总收入190.11亿元左右，同比增长23.
5
邮储银行福建省龙岩市分行营业部获评2022年银行业百佳示范网点

近日，中国银行业协会发布2022年度“银行业营业网点文明规范服务百佳示范单位”名单。中国邮政储蓄银行福建省龙岩市分行营业
6
大数据挖掘今夏冰激凌消费新特点：三低健康冰激凌增速翻倍酒味和彩色冰激凌增

威化冰淇淋、鲷鱼烧、鸡蛋形状冰淇淋吸引年轻人打卡购买。最新发布的大数据报告显示，今夏冰激凌有了十个新特点。冰激凌的配
7
谷歌薪酬数据泄露：员工平均年薪约27.98万美元，软件工程师高达71.8

，外媒Insider日前宣称获得了一份谷歌员工之间共享的电子表格，数据表明2022年谷歌员工的总年薪平均为27.98万美
8
消息称三星与LG扩大OLED面板合作，有望降低大尺寸电视售价

，据BusinessKorea报道，三星于7月22日向监管机构提交了一款新型77英寸OLED电视的审批文件，该电视没有采
9
索尼WF-1000XM5真无线降噪耳机发布：全方位升级，售299.99美

，索尼今天正式发布了旗下新一代真无线耳机——索尼WF-1000XM5，该产品将于8月上市，建议零售价为299.99美元/
10
阿里巴巴发布2023年ESG报告：全年减碳141.9万吨，女性员工占比4

，阿里巴巴集团现发布《环境、社会和治理报告》(IT之家下文简称“ESG报告”)，披露了一年来工作进展。 2023财年，

Llama-2首个全方位评测，国内外开源模型大比拼

$vo.description|msubstr=0,60,'utf-8',false}

$vo.description|msubstr=0,60,'utf-8',false}

，宝可梦官方今日公布了宝可梦世界锦标赛2023宣传片《终于遇到你啦！》，展现了宝可梦世界锦标赛中四项比赛。 此外官方还

，据外媒CNBC报道，宝马表示该公司最近在其斯帕坦堡工厂部署了人工智能技术，据称“每年可节省100万美元”。 据悉，宝

感谢IT之家网友W丨U的线索投递！ ，由OpenAICEO山姆?阿尔特曼共同创办的美国初创IT公司“ToolsforH

感谢IT之家网友软媒新友1933769的线索投递！ ，OPPOK11手机将于7月25日14:30正式发布，官方今日继续

今日，高斯贝尔(002848.SZ)披露收到深交所监管函。 监管函指出，1月30日，高斯贝尔披露《2022年度业绩预告

炎炎夏日，很多地方开始逐渐变身“火炉”。对于球迷而言，酷暑难耐的日子里，除了侃侃五大联赛休赛期的转会八卦外，还有什么比赛

感谢IT之家网友华南吴彦祖的线索投递！ ，苹果明年初将推出VisionPro空间计算头戴设备，但该产品可能面临应用开发

乐居财经邓如菲7月24日，华帝股份发布关于股东股份解除质押的公告。 公告显示，华帝股份控股股东石河子奋进股权投资普通合

，据外媒报道，随着车型增多、产量提升，充电桩等配套设施不断完善，加之补贴持续和消费者购买意愿的提升，电动汽车在众多市场的

7月20日，努比亚正式发布了新一代影像旗舰——努比亚Z50SPro，该机不仅在外观上采用了经典旁轴相机的复古设计，更是搭

，据外媒报道，自2020年6月份宣布将自研基于Arm架构的Mac芯片以来，苹果公司已推出M1和M2系列共8款芯片，Mac

山西汾酒7月24日下午公布了上半年经营情况:2023年上半年，公司预计实现营业总收入190.11亿元左右，同比增长23.

近日，中国银行业协会发布2022年度“银行业营业网点文明规范服务百佳示范单位”名单。中国邮政储蓄银行福建省龙岩市分行营业

威化冰淇淋、鲷鱼烧、鸡蛋形状冰淇淋吸引年轻人打卡购买。最新发布的大数据报告显示，今夏冰激凌有了十个新特点。 冰激凌的配

，外媒Insider日前宣称获得了一份谷歌员工之间共享的电子表格，数据表明2022年谷歌员工的总年薪平均为27.98万美

，据BusinessKorea报道，三星于7月22日向监管机构提交了一款新型77英寸OLED电视的审批文件，该电视没有采

，索尼今天正式发布了旗下新一代真无线耳机——索尼WF-1000XM5，该产品将于8月上市，建议零售价为299.99美元/

，阿里巴巴集团现发布《环境、社会和治理报告》(IT之家下文简称“ESG报告”)，披露了一年来工作进展。 2023财年，

，宝可梦官方今日公布了宝可梦世界锦标赛2023宣传片《终于遇到你啦！》，展现了宝可梦世界锦标赛中四项比赛。此外官方还

，据外媒CNBC报道，宝马表示该公司最近在其斯帕坦堡工厂部署了人工智能技术，据称“每年可节省100万美元”。据悉，宝

感谢IT之家网友W丨U的线索投递！，由OpenAICEO山姆?阿尔特曼共同创办的美国初创IT公司“ToolsforH

感谢IT之家网友软媒新友1933769的线索投递！，OPPOK11手机将于7月25日14:30正式发布，官方今日继续

今日，高斯贝尔(002848.SZ)披露收到深交所监管函。监管函指出，1月30日，高斯贝尔披露《2022年度业绩预告

感谢IT之家网友华南吴彦祖的线索投递！，苹果明年初将推出VisionPro空间计算头戴设备，但该产品可能面临应用开发

乐居财经邓如菲7月24日，华帝股份发布关于股东股份解除质押的公告。公告显示，华帝股份控股股东石河子奋进股权投资普通合

威化冰淇淋、鲷鱼烧、鸡蛋形状冰淇淋吸引年轻人打卡购买。最新发布的大数据报告显示，今夏冰激凌有了十个新特点。冰激凌的配