模型简介
Llama3-70B是Meta 开发并发布的Llama 3 系列中规模为700亿参数的大型语言模型 (LLM),指令调优模型针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。
使用场景
Llama3的预期用例是英语语境下的商业和研究。指令调优模型适用于类似助手的聊天,而预训练模型可以适应各种自然语言生成任务。 Llama 3可供各种规模的个人、创作者、研究人员和企业使用。
超出范围的用途以任何违反适用法律或法规(包括贸易合规法)的方式使用。在英语以外的语言中使用。以 Llama 3 可接受使用政策和许可协议禁止的任何其他方式使用。
注意 :开发者可以采用英语以外的语言对 Llama 3 模型进行微调,前提是它们符合 Llama3 社区许可证和可接受使用政策。
评测效果
Llama 3 模型在标准自动基准测试下的结果。
基础预训练模型
Category | Benchmark | Llama 3 8B | Llama2 7B | Llama2 13B | Llama 3 70B | Llama2 70B |
---|---|---|---|---|---|---|
General | MMLU (5-shot) | 66.6 | 45.7 | 53.8 | 79.5 | 69.7 |
AGIEval English (3-5 shot) | 45.9 | 28.8 | 38.7 | 63.0 | 54.8 | |
CommonSenseQA (7-shot) | 72.6 | 57.6 | 67.6 | 83.8 | 78.7 | |
Winogrande (5-shot) | 76.1 | 73.3 | 75.4 | 83.1 | 81.8 | |
BIG-Bench Hard (3-shot, CoT) | 61.1 | 38.1 | 47.0 | 81.3 | 65.7 | |
ARC-Challenge (25-shot) | 78.6 | 53.7 | 67.6 | 93.0 | 85.3 | |
Knowledge reasoning | TriviaQA-Wiki (5-shot) | 78.5 | 72.1 | 79.6 | 89.7 | 87.5 |
Reading comprehension | SQuAD (1-shot) | 76.4 | 72.2 | 72.1 | 85.6 | 82.6 |
QuAC (1-shot, F1) | 44.4 | 39.6 | 44.9 | 51.1 | 49.4 | |
BoolQ (0-shot) | 75.7 | 65.5 | 66.9 | 79.0 | 73.1 | |
DROP (3-shot, F1) | 58.4 | 37.9 | 49.8 | 79.7 | 70.2 |
指令调优模型
Benchmark | Llama 3 8B | Llama 2 7B | Llama 2 13B | Llama 3 70B | Llama 2 70B |
---|---|---|---|---|---|
MMLU (5-shot) | 68.4 | 34.1 | 47.8 | 82.0 | 52.9 |
GPQA (0-shot) | 34.2 | 21.7 | 22.3 | 39.5 | 21.0 |
HumanEval (0-shot) | 62.2 | 7.9 | 14.0 | 81.7 | 25.6 |
GSM-8K (8-shot, CoT) | 79.6 | 25.7 | 77.4 | 93.0 | 57.5 |
MATH (4-shot, CoT) | 30.0 | 3.8 | 6.7 | 50.4 | 11.6 |
技术亮点
Llama 3有两种参数大小:8B 和 70B 参数,有预训练和指令调整的变化。
模型架构
Llama 3 是一个自回归语言模型,它使用优化的 transformer 架构。调整后的版本使用监督微调 (SFT) 和带有人类反馈的强化学习 (RLHF),以符合人类对有用性和安全性的偏好。
Training Data | Params | Context length | GQA | Token count | Knowledge cutoff | |
---|---|---|---|---|---|---|
Llama 3 | A new mix of publicly available online data. | 8B | 8k | Yes | 15T+ | March, 2023 |
Llama 3 | A new mix of publicly available online data. | 70B | 8k | Yes | 15T+ | December, 2023 |
Llama3 系列模型 。令牌计数仅指预训练数据。8B和70B 版本都使用分组查询注意力 (GQA) 来改进推理可伸缩性。
相关引用
如对您有帮助,欢迎引用。
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
免责声明
Llama3-70B模型来源于第三方,本平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。