模型简介
Qwen2是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。Qwen2-72B-Instruct是指令调整的72B Qwen2 模型,使用了大量数据对模型进行了预训练,并使用监督微调和直接偏好优化对模型进行了后训练。
使用场景
Qwen2系列模型可以提供强大的自然语言处理能力,广泛应用于自然语言理解、知识问答、代码辅助、数学解题、多语言翻译等多个领域,满足不同用户的需求。
评测效果
简要地将 Qwen2-72B-Instruct 与类似大小的指令调优 LLM 进行了比较,包括之前的 Qwen1.5-72B-Chat。结果如下:
Datasets | Llama-3-70B-Instruct | Qwen1.5-72B-Chat | Qwen2-72B-Instruct |
---|---|---|---|
English | |||
MMLU | 82.0 | 75.6 | 82.3 |
MMLU-Pro | 56.2 | 51.7 | 64.4 |
GPQA | 41.9 | 39.4 | 42.4 |
TheroemQA | 42.5 | 28.8 | 44.4 |
MT-Bench | 8.95 | 8.61 | 9.12 |
Arena-Hard | 41.1 | 36.1 | 48.1 |
IFEval (Prompt Strict-Acc.) | 77.3 | 55.8 | 77.6 |
Coding | |||
HumanEval | 81.7 | 71.3 | 86.0 |
MBPP | 82.3 | 71.9 | 80.2 |
MultiPL-E | 63.4 | 48.1 | 69.2 |
EvalPlus | 75.2 | 66.9 | 79.0 |
LiveCodeBench | 29.3 | 17.9 | 35.7 |
Mathematics | |||
GSM8K | 93.0 | 82.7 | 91.1 |
MATH | 50.4 | 42.5 | 59.7 |
Chinese | |||
C-Eval | 61.6 | 76.1 | 83.8 |
AlignBench | 7.42 | 7.28 | 8.27 |
技术亮点
- 与之前发布的 Qwen1.5 等最先进的开源语言模型相比,Qwen2总体上超越了大多数开源模型,并在语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准测试中表现出了与专有模型的竞争力。
- Qwen2是一个语言模型系列,包括不同模型大小的解码器语言模型。对于每种大小,都发布了基本语言模型和对齐的聊天模型。它基于Transformer架构,具有SwiGLU激活、注意力QKV偏差、组查询注意力等。此外,还改进了分词器,可适应多种自然语言和代码。
- Qwen2-72B-Instruct 支持高达 131,072 个令牌的上下文长度,从而能够处理大量输入。
相关引用
如有帮助,欢迎引用。
@article{qwen2,
title={Qwen2 Technical Report},
year={2024}
}
免责声明
Qwen2-72B-Instruct模型,来源于第三方,本平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。