模型简介

通义千问-7B（Qwen-7B） 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-7B的基础上，使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。

使用场景

Qwen系列模型的开发和开源为自然语言处理领域带来了新的可能性，尤其是在需要处理大量数据和复杂语言任务的场景中。主要使用场景包括对话系统、文本生成以及内容创作等。

评测效果

对于Qwen-7B-Chat模型，常规的中文理解（C-Eval）、英文理解（MMLU）、代码（HumanEval）和数学（GSM8K）以及长序列任务等权威任务的评测结果如下。

提示：由于硬件和框架造成的舍入误差，复现结果如有波动属于正常现象。

中文评测（Chinese Evaluation）

在C-Eval验证集上，Qwen-7B-Chat模型的0-shot & 5-shot准确率结果如下：

Model	Avg. Acc.
LLaMA2-7B-Chat	31.9
LLaMA2-13B-Chat	36.2
LLaMA2-70B-Chat	44.3
ChatGLM2-6B-Chat	52.6
InternLM-7B-Chat	53.6
Baichuan2-7B-Chat	55.6
Baichuan2-13B-Chat	56.7
Qwen-7B-Chat (original) (0-shot)	54.2
Qwen-7B-Chat (0-shot)	59.7
Qwen-7B-Chat (5-shot)	59.3
Qwen-14B-Chat (0-shot)	69.8
Qwen-14B-Chat (5-shot)	71.7

C-Eval测试集上，Qwen-7B-Chat模型的zero-shot准确率结果如下：

Model	Avg.	STEM	Social Sciences	Humanities	Others
Chinese-Alpaca-Plus-13B	41.5	36.6	49.7	43.1	41.2
Chinese-Alpaca-2-7B	40.3	-	-	-	-
ChatGLM2-6B-Chat	50.1	46.4	60.4	50.6	46.9
Baichuan-13B-Chat	51.5	43.7	64.6	56.2	49.2
Qwen-7B-Chat (original)	54.6	47.8	67.6	59.3	50.6
Qwen-7B-Chat	58.6	53.3	72.1	62.8	52.0
Qwen-14B-Chat	69.1	65.1	80.9	71.2	63.4

在7B规模模型上，经过人类指令对齐的Qwen-7B-Chat模型，准确率在同类相近规模模型中仍然处于前列。

英文评测（English Evaluation）

MMLU评测集上，效果同样在同类对齐模型中同样表现较优。Qwen-7B-Chat模型的 0-shot & 5-shot 准确率如下：

Model	Avg. Acc.
ChatGLM2-6B-Chat	46.0
LLaMA2-7B-Chat	46.2
InternLM-7B-Chat	51.1
Baichuan2-7B-Chat	52.9
LLaMA2-13B-Chat	54.6
Baichuan2-13B-Chat	57.3
LLaMA2-70B-Chat	63.8
Qwen-7B-Chat (original) (0-shot)	53.9
Qwen-7B-Chat (0-shot)	55.8
Qwen-7B-Chat (5-shot)	57.0
Qwen-14B-Chat (0-shot)	64.6
Qwen-14B-Chat (5-shot)	66.5

代码评测（Coding Evaluation）

Qwen-7B-Chat在HumanEval的zero-shot Pass@1效果如下：

Model	Pass@1
ChatGLM2-6B-Chat	11.0
LLaMA2-7B-Chat	12.2
Baichuan2-7B-Chat	13.4
InternLM-7B-Chat	14.6
Baichuan2-13B-Chat	17.7
LLaMA2-13B-Chat	18.9
LLaMA2-70B-Chat	32.3
Qwen-7B-Chat (original)	24.4
Qwen-7B-Chat	37.2
Qwen-14B-Chat	43.9

数学评测（Mathematics Evaluation）

在评测数学能力的GSM8K上，Qwen-7B-Chat的准确率结果如下：

Model	Acc.
LLaMA2-7B-Chat	26.3
ChatGLM2-6B-Chat	28.8
Baichuan2-7B-Chat	32.8
InternLM-7B-Chat	33.0
LLaMA2-13B-Chat	37.1
Baichuan2-13B-Chat	55.3
LLaMA2-70B-Chat	59.3
Qwen-7B-Chat (original) (0-shot)	41.1
Qwen-7B-Chat (0-shot)	50.3
Qwen-7B-Chat (8-shot)	54.1
Qwen-14B-Chat (0-shot)	60.1
Qwen-14B-Chat (8-shot)	59.3

长序列评测（Long-Context Understanding）

通过使用NTK（Neural Tangent Kernel）插值技术和LogN注意力缩放方法，Qwen-7B-Chat模型能够显著扩展其处理上下文的长度。在长文本摘要任务中，特别是在VCSUM数据集上，Qwen-7B-Chat模型展示了其强大的长序列理解能力。其Rouge-L评估指标的结果如下：

说明
为了启用这些增强长序列处理能力的技巧，您需要在模型的配置文件config.json中将use_dynamic_ntk和use_logn_attn两个选项设置为true。这样配置后，模型将能够利用NTK插值和LogN注意力缩放来优化其对长序列的处理。

Model	VCSUM (zh)
GPT-3.5-Turbo-16k	16.0
LLama2-7B-Chat	0.2
InternLM-7B-Chat	13.0
ChatGLM2-6B-Chat	16.3
Qwen-7B-Chat	16.6

技术亮点

与Qwen-7B预训练模型相同，Qwen-7B-Chat模型规模基本情况如下所示：

Hyperparameter	Value
n_layers	32
n_heads	32
d_model	4096
vocab size	151851
sequence length	8192

在位置编码、FFN激活函数和normalization的实现方式上，采用目前最流行的做法，即RoPE相对位置编码、SwiGLU激活函数、RMSNorm（可选安装flash-attention加速）。
在分词器方面，相比目前主流开源模型以中英词表为主，Qwen-7B-Chat使用了约15万token大小的词表。该词表在GPT-4使用的BPE词表cl100k_base基础上，对中文、多语言进行了优化，在对中、英、代码数据的高效编解码的基础上，对部分多语言更加友好，方便用户在不扩展词表的情况下对部分语种进行能力增强。词表对数字按单个数字位切分。调用较为高效的tiktoken分词库进行分词。

免责声明

Qwen-7B-Chat模型来源于第三方，本平台不保证其合规性，请您在使用前慎重考虑，确保合法合规使用并遵守第三方的要求。

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

慧聚一站式智算服务平台

慧聚一站式智算服务平台

模型简介

使用场景

评测效果

中文评测（Chinese Evaluation）

英文评测（English Evaluation）

代码评测（Coding Evaluation）

数学评测（Mathematics Evaluation）

长序列评测（Long-Context Understanding）

技术亮点

相关引用

免责声明

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

慧聚一站式智算服务平台

慧聚一站式智算服务平台

模型简介

使用场景

评测效果

中文评测（Chinese Evaluation）

英文评测（English Evaluation）

代码评测（Coding Evaluation）

数学评测（Mathematics Evaluation）

长序列评测（Long-Context Understanding）

技术亮点

相关引用

免责声明