模型简介
通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。
使用场景
Qwen系列模型的开发和开源为自然语言处理领域带来了新的可能性,尤其是在需要处理大量数据和复杂语言任务的场景中。主要使用场景包括对话系统、文本生成以及内容创作等。
评测效果
对于Qwen-7B-Chat模型,常规的中文理解(C-Eval)、英文理解(MMLU)、代码(HumanEval)和数学(GSM8K)以及长序列任务等权威任务的评测结果如下。
提示:由于硬件和框架造成的舍入误差,复现结果如有波动属于正常现象。
中文评测(Chinese Evaluation)
在C-Eval验证集上,Qwen-7B-Chat模型的0-shot & 5-shot准确率结果如下:
Model | Avg. Acc. |
---|---|
LLaMA2-7B-Chat | 31.9 |
LLaMA2-13B-Chat | 36.2 |
LLaMA2-70B-Chat | 44.3 |
ChatGLM2-6B-Chat | 52.6 |
InternLM-7B-Chat | 53.6 |
Baichuan2-7B-Chat | 55.6 |
Baichuan2-13B-Chat | 56.7 |
Qwen-7B-Chat (original) (0-shot) | 54.2 |
Qwen-7B-Chat (0-shot) | 59.7 |
Qwen-7B-Chat (5-shot) | 59.3 |
Qwen-14B-Chat (0-shot) | 69.8 |
Qwen-14B-Chat (5-shot) | 71.7 |
C-Eval测试集上,Qwen-7B-Chat模型的zero-shot准确率结果如下:
Model | Avg. | STEM | Social Sciences | Humanities | Others |
---|---|---|---|---|---|
Chinese-Alpaca-Plus-13B | 41.5 | 36.6 | 49.7 | 43.1 | 41.2 |
Chinese-Alpaca-2-7B | 40.3 | - | - | - | - |
ChatGLM2-6B-Chat | 50.1 | 46.4 | 60.4 | 50.6 | 46.9 |
Baichuan-13B-Chat | 51.5 | 43.7 | 64.6 | 56.2 | 49.2 |
Qwen-7B-Chat (original) | 54.6 | 47.8 | 67.6 | 59.3 | 50.6 |
Qwen-7B-Chat | 58.6 | 53.3 | 72.1 | 62.8 | 52.0 |
Qwen-14B-Chat | 69.1 | 65.1 | 80.9 | 71.2 | 63.4 |
在7B规模模型上,经过人类指令对齐的Qwen-7B-Chat模型,准确率在同类相近规模模型中仍然处于前列。
英文评测(English Evaluation)
MMLU评测集上,效果同样在同类对齐模型中同样表现较优。Qwen-7B-Chat模型的 0-shot & 5-shot 准确率如下:
Model | Avg. Acc. |
---|---|
ChatGLM2-6B-Chat | 46.0 |
LLaMA2-7B-Chat | 46.2 |
InternLM-7B-Chat | 51.1 |
Baichuan2-7B-Chat | 52.9 |
LLaMA2-13B-Chat | 54.6 |
Baichuan2-13B-Chat | 57.3 |
LLaMA2-70B-Chat | 63.8 |
Qwen-7B-Chat (original) (0-shot) | 53.9 |
Qwen-7B-Chat (0-shot) | 55.8 |
Qwen-7B-Chat (5-shot) | 57.0 |
Qwen-14B-Chat (0-shot) | 64.6 |
Qwen-14B-Chat (5-shot) | 66.5 |
代码评测(Coding Evaluation)
Qwen-7B-Chat在HumanEval的zero-shot Pass@1效果如下:
Model | Pass@1 |
---|---|
ChatGLM2-6B-Chat | 11.0 |
LLaMA2-7B-Chat | 12.2 |
Baichuan2-7B-Chat | 13.4 |
InternLM-7B-Chat | 14.6 |
Baichuan2-13B-Chat | 17.7 |
LLaMA2-13B-Chat | 18.9 |
LLaMA2-70B-Chat | 32.3 |
Qwen-7B-Chat (original) | 24.4 |
Qwen-7B-Chat | 37.2 |
Qwen-14B-Chat | 43.9 |
数学评测(Mathematics Evaluation)
在评测数学能力的GSM8K上,Qwen-7B-Chat的准确率结果如下:
Model | Acc. |
---|---|
LLaMA2-7B-Chat | 26.3 |
ChatGLM2-6B-Chat | 28.8 |
Baichuan2-7B-Chat | 32.8 |
InternLM-7B-Chat | 33.0 |
LLaMA2-13B-Chat | 37.1 |
Baichuan2-13B-Chat | 55.3 |
LLaMA2-70B-Chat | 59.3 |
Qwen-7B-Chat (original) (0-shot) | 41.1 |
Qwen-7B-Chat (0-shot) | 50.3 |
Qwen-7B-Chat (8-shot) | 54.1 |
Qwen-14B-Chat (0-shot) | 60.1 |
Qwen-14B-Chat (8-shot) | 59.3 |
长序列评测(Long-Context Understanding)
通过使用NTK(Neural Tangent Kernel)插值技术和LogN注意力缩放方法,Qwen-7B-Chat模型能够显著扩展其处理上下文的长度。在长文本摘要任务中,特别是在VCSUM数据集上,Qwen-7B-Chat模型展示了其强大的长序列理解能力。其Rouge-L评估指标的结果如下:
说明为了启用这些增强长序列处理能力的技巧,您需要在模型的配置文件config.json中将use_dynamic_ntk和use_logn_attn两个选项设置为true。这样配置后,模型将能够利用NTK插值和LogN注意力缩放来优化其对长序列的处理。
Model | VCSUM (zh) |
---|---|
GPT-3.5-Turbo-16k | 16.0 |
LLama2-7B-Chat | 0.2 |
InternLM-7B-Chat | 13.0 |
ChatGLM2-6B-Chat | 16.3 |
Qwen-7B-Chat | 16.6 |
技术亮点
与Qwen-7B预训练模型相同,Qwen-7B-Chat模型规模基本情况如下所示:
Hyperparameter | Value |
---|---|
n_layers | 32 |
n_heads | 32 |
d_model | 4096 |
vocab size | 151851 |
sequence length | 8192 |
- 在位置编码、FFN激活函数和normalization的实现方式上,采用目前最流行的做法,即RoPE相对位置编码、SwiGLU激活函数、RMSNorm(可选安装flash-attention加速)。
- 在分词器方面,相比目前主流开源模型以中英词表为主,Qwen-7B-Chat使用了约15万token大小的词表。该词表在GPT-4使用的BPE词表cl100k_base基础上,对中文、多语言进行了优化,在对中、英、代码数据的高效编解码的基础上,对部分多语言更加友好,方便用户在不扩展词表的情况下对部分语种进行能力增强。词表对数字按单个数字位切分。调用较为高效的tiktoken分词库进行分词。
相关引用
如对你有帮助,欢迎引用!
@article{qwen,
title={Qwen Technical Report},
author={Jinze Bai and Shuai Bai and Yunfei Chu and Zeyu Cui and Kai Dang and Xiaodong Deng and Yang Fan and Wenbin Ge and Yu Han and Fei Huang and Binyuan Hui and Luo Ji and Mei Li and Junyang Lin and Runji Lin and Dayiheng Liu and Gao Liu and Chengqiang Lu and Keming Lu and Jianxin Ma and Rui Men and Xingzhang Ren and Xuancheng Ren and Chuanqi Tan and Sinan Tan and Jianhong Tu and Peng Wang and Shijie Wang and Wei Wang and Shengguang Wu and Benfeng Xu and Jin Xu and An Yang and Hao Yang and Jian Yang and Shusheng Yang and Yang Yao and Bowen Yu and Hongyi Yuan and Zheng Yuan and Jianwei Zhang and Xingxuan Zhang and Yichang Zhang and Zhenru Zhang and Chang Zhou and Jingren Zhou and Xiaohuan Zhou and Tianhang Zhu},
journal={arXiv preprint arXiv:2309.16609},
year={2023}
}
免责声明
Qwen-7B-Chat模型来源于第三方,本平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。