模型简介
ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了 更强大的基础模型 、 更完整的功能支持 、更全面的开源序列几大特性。
使用场景
ChatGLM3是一款功能强大的自然语言处理模型,广泛应用于文本生成、文本分类、情感分析等核心NLP场景。此外,通过集成或配合其他技术,ChatGLM3还支持在更广泛的复杂场景中发挥作用,包括但不限于工具调用、代码辅助编写、游戏对话生成、数据库查询辅助、知识图谱搜索与推理支持,以及在特定条件下与操作系统交互的接口开发。
评测效果
ChatGLM3凭借更丰富的训练数据和优化的训练方案,相较于ChatGLM2,在多个基准测试中展现出显著提升:MMLU提升36%、CEval提升33%、GSM8K提升179%、BBH提升126%。
同时,ChatGLM3瞄准GPT-4等先进模型,实现了若干全新功能的迭代升级。其中,多模态理解能力通过集成CogVLM-看图识语义模块,在10余个国际标准图文评测数据集上取得了SOTA(state-of-the-art)成绩;代码增强模块Code Interpreter能够根据用户需求生成代码并尝试执行,辅助完成数据分析、文件处理等复杂任务;网络搜索增强WebGLM则接入了搜索功能,能够自动根据问题在互联网上查找相关资料,并在回答时提供参考文献或文章链接,显著增强了ChatGLM3的语义与逻辑能力。
此外,ChatGLM3还集成了自研的AgentTuning技术,这一技术激活了模型的智能体能力,特别是在智能规划和执行方面,相较于ChatGLM2有了质的飞跃,性能提升高达1000%。
在性能优化方面,ChatGLM3采用了最新的高效动态推理和显存优化技术。在相同硬件和模型条件下,相较于目前最佳的开源实现(如伯克利大学推出的vLLM及Hugging Face TGI的最新版本),ChatGLM3的推理速度提升了2-3倍,推理成本降低了一半,每千tokens的推理费用仅需0.5分,成本最低。
技术亮点
- 更强大的基础模型:ChatGLM3-6B 的核心基础模型 ChatGLM3-6B-Base 采用了更多样化的训练数据、更充分的训练步数以及更科学合理的训练策略。在语义理解、数学计算、逻辑推理、代码生成、知识问答等多个角度的数据集上进行测评,结果显示 ChatGLM3-6B-Base 展现出了在 10B 参数量级以下的预训练模型中最顶尖的性能。
- 更完整的功能支持:ChatGLM3-6B 引入了全新设计的 Prompt 格式,不仅支持流畅的多轮对话,还原生集成了工具调用(Function Call)、代码辅助生成(注意:通常模型不直接执行代码,而是生成代码建议)以及 Agent 任务处理等复杂场景的功能,为用户提供了更加全面和强大的交互体验。
- 更全面的开源序列:除了核心的对话模型 ChatGLM3-6B 外,我们还开源了基础模型 ChatGLM3-6B-Base以及长文本对话模型 ChatGLM3-6B-32K。这些开源资源为研究者和开发者提供了更多的选择和可能性,促进了自然语言处理技术的进一步发展和应用。
相关引用
如对您有帮助,请考虑引用下列论文。
@article{zeng2022glm,
title={Glm-130b: An Open Bilingual Pre-trained Model},
author={Zeng, Aohan and Liu, Xiao and Du, Zhengxiao and Wang, Zihan and Lai, Hanyu and Ding, Ming and Yang, Zhuoyi and Xu, Yifan and Zheng, Wendi and Xia, Xiao et al.}
journal={arXiv preprint arXiv:2210.02414},
year={2022}
}
@inproceedings{du2022glm,
title={GLM: General Language Model Pretraining with Autoregressive Blank Infilling},
author={Du, Zhengxiao and Qian, Yujie and Liu, Xiao and Ding, Ming and Qiu, Jiezhong and Yang, Zhilin and Tang, Jie},
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
pages={320--335},
year={2022}
}
免责声明
ChatGLM3-6B模型,来源于第三方,本平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。