模型简介
Qwen2-7B-Instruct是 Qwen2大型语言模型系列中覆盖70亿参数的指令调优语言模型,支持高达 131,072 个令牌的上下文长度,能够处理大量输入。
使用场景
Qwen2-7B-Instruct模型专注于提升对指令性文本的精准理解和高效生成。适用于自然语言处理(NLP)的多个专业领域,如文本摘要、情感分析、机器翻译等。
评测效果
简要比较 Qwen2-7B-Instruct 与类似大小的指令调优 LLM,包括 Qwen1.5-7B-Chat。
结果如下所示:
Datasets | Llama-3-8B-Instruct | Yi-1.5-9B-Chat | GLM-4-9B-Chat | Qwen1.5-7B-Chat | Qwen2-7B-Instruct |
---|---|---|---|---|---|
English | |||||
MMLU | 68.4 | 69.5 | 72.4 | 59.5 | 70.5 |
MMLU-Pro | 41.0 | - | - | 29.1 | 44.1 |
GPQA | 34.2 | - | - | 27.8 | 25.3 |
TheroemQA | 23.0 | - | - | 14.1 | 25.3 |
MT-Bench | 8.05 | 8.20 | 8.35 | 7.60 | 8.41 |
Coding | |||||
Humaneval | 62.2 | 66.5 | 71.8 | 46.3 | 79.9 |
MBPP | 67.9 | - | - | 48.9 | 67.2 |
MultiPL-E | 48.5 | - | - | 27.2 | 59.1 |
Evalplus | 60.9 | - | - | 44.8 | 70.3 |
LiveCodeBench | 17.3 | - | - | 6.0 | 26.6 |
Mathematics | |||||
GSM8K | 79.6 | 84.8 | 79.6 | 60.3 | 82.3 |
MATH | 30.0 | 47.7 | 50.6 | 23.2 | 49.6 |
Chinese | |||||
C-Eval | 45.9 | - | 75.6 | 67.3 | 77.2 |
AlignBench | 6.20 | 6.90 | 7.01 | 6.20 | 7.21 |
技术亮点
- 基于 Transformer 架构,具有 SwiGLU 激活、注意力 QKV 偏差、组查询注意力等功能。此外,还改进了适用于多种自然语言和代码的标记器。
- Qwen2总体上已经超越了大多数开源模型,并且在针对语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准测试中表现出与专有模型的竞争力。
相关引用
如对您有帮助,欢迎引用。
@article{qwen2,
title={Qwen2 Technical Report},
year={2024}
}
免责声明
Qwen2-7B-Instruct模型,来源于第三方,本平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。