API列表-慧聚一站式智算服务平台-API参考

模型	模型简介	模型ID
Llama2-13B-Chat	Llama2是预先训练和微调的生成文本模型的集合，其规模从70亿到700亿个参数不等。这是13B微调模型的存储库，针对对话用例进行了优化。	96dc8f33609d4ce6af3ff55ea377831a
Qwen-7B-Chat	通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-7B的基础上，使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。	fc23987da1344a8f8bdf1274e832f193
Llama2-7B-Chat	Llama2-7B-Chat是Meta AI开发的大型语言模型Llama2家族中最小的聊天模型。该模型有70亿个参数，并在来自公开来源的2万亿token数据上进行了预训练。它已经在超过一百万个人工注释的指令数据集上进行了微调。	e30f90ca899a4b1a9c25c0949edd64fc
Llama2-70B-Chat	Llama 2 是预训练和微调的生成文本模型的集合，规模从 70 亿到 700 亿个参数不等。这是 70B 微调模型的存储库，针对对话用例进行了优化。	bafbc7785d50466c89819da43964332b
Qwen-14B-Chat	通义千问-14B（Qwen-14B）是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-14B的基础上，使用对齐机制打造了基于大语言模型的AI助手Qwen-14B-Chat。	18ce103e75644397b3e73cc514e36930
Qwen1.5-7B-Chat	通义千问1.5（Qwen1.5）是阿里云研发的通义千问系列开源模型，是一种基于 Transformer 的纯解码器语言模型，已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模，满足不同的计算需求，这是Qwen1.5-7B-Chat版本。	bfc0bdbf8b394c139a734235b1e6f887
Qwen2-1.5B-Instruct	Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 1.5B Qwen2 模型，使用了大量数据对模型进行了预训练，并使用监督微调和直接偏好优化对模型进行了后训练。	88ad4fb38d284af690baf2285fd2c9ff
Qwen2-72B-Instruct	Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 72B Qwen2 模型，使用了大量数据对模型进行了预训练，并使用监督微调和直接偏好优化对模型进行了后训练。	2f05789705a64606a552fc2b30326bba
ChatGLM3-6B	ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了更强大的基础模型、更完整的功能支持、更全面的开源序列几大特性。	7450fa195778420393542c7fa13c6640
TeleChat-7B	星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型，7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练。	6d2914928db84d2bb3c6f5fa02d6d7ac
TeleChat-12B	星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型，TeleChat-12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。TeleChat-12B-bot在模型结构、训练数据、训练方法等方面进行了改进，在通用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。	fdc31b36028043c48b15131885b148ce
Qwen1.5-14B-Chat	通义千问1.5（Qwen1.5）是阿里云研发的通义千问系列开源模型，是一种基于 Transformer 的纯解码器语言模型，已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模，满足不同的计算需求，这是Qwen1.5-14B-Chat版本。	acfe01f00b0c4ff49c29c6c77b771b60
Llama3-8B-Instruct	Meta 开发并发布了 Meta Llama 3 系列大型语言模型（LLM），包含 8B 和 70B 两种参数大小，Llama3-8B-Instruct 是经过指令微调的版本，针对对话用例进行了优化，在常见的行业基准测试中优于许多可用的开源聊天模型。	bda59c34e4424598bbd5930eba713fbf
Llama3-70B-Instruct	Meta 开发并发布了 Meta Llama 3 系列大型语言模型（LLM），包含 8B 和 70B 两种参数大小，Llama3-70B-Instruct 是经过指令微调的版本，针对对话用例进行了优化，在常见的行业基准测试中优于许多可用的开源聊天模型。	6192ed0cb6334302a2c32735dbbb6ce3
Qwen1.5-72B-Chat	通义千问1.5（Qwen1.5）是阿里云研发的通义千问系列开源模型，是一种基于 Transformer 的纯解码器语言模型，已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模，满足不同的计算需求，这是Qwen1.5-72B-Chat版本。	9d140d415f11414aa05c8888e267a896
Qwen1.5-32B-Chat	Qwen1.5-32B 是 Qwen1.5 语言模型系列的最新成员，除了模型大小外，其在模型架构上除了GQA几乎无其他差异。GQA能让该模型在模型服务时具有更高的推理效率潜力。这是Qwen1.5-32B-Chat版本。	12d5a37bf1ed4bf9b1cb8e446cfa60b3
ChatGLM2-6B	ChatGLM2-6B智谱AI与清华KEG实验室发布的中英双语对话模型，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B引入了新特征：更强大的性能、更长的上下文、更高效的推理、更开放的协议，在数理逻辑、知识推理、长文档理解上均有支持，在MMLU、CEval等数据集上相比初代有大幅的性能提升。	98c80bbd4b254af687f119a6c8787156
AquilaChat-7B	悟道·天鹰（AquilaChat-7B）是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的具有70亿参数的开源语言大模型，基于基础模型 Aquila-7B 进行微调和强化学习。	a6574471a5f74d33beda092934d44ce1
Baichuan3-Turbo	Baichuan-Turbo系列模型是百川智能推出的大语言模型，采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。	43ac83747cb34730a00b7cfe590c89ac
InternLM2-Chat-7B	InternLM2-Chat-7B 是书生·浦语大模型系列中开源的 70 亿参数库模型和针对实际场景量身定制的聊天模型。InternLM2相比于初代InternLM，在推理、数学、代码等方面的能力提升尤为显著，综合能力领先于同量级开源模型。	50beebff68b34803bd71d380e49078f5
InternLM2-Chat-20B	InternLM2-Chat-20B 是书生·浦语大模型系列中开源的200 亿参数库模型和针对实际场景量身定制的聊天模型。InternLM2相比于初代InternLM，在推理、数学、代码等方面的能力提升尤为显著，综合能力领先于同量级开源模型。	9abb1d54bd39443b95337692beed2e8c
Qwen2-7B-Instruct	Qwen2-7B-Instruct是 Qwen2大型语言模型系列中覆盖70亿参数的指令调优语言模型，支持高达 131,072 个令牌的上下文长度，能够处理大量输入。	0e97efbf3aa042ebbaf0b2d358403b94
Qwen-VL-Chat	Qwen-VL-Chat模型是在阿里云研发的大规模视觉语言模型 Qwen-VL 系列的基础上，使用对齐机制打造的视觉AI助手，该模型有更优秀的中文指令跟随，支持更灵活的交互方式，包括多图、多轮问答、创作等能力。	e8c39004ff804ca699d47b9254039db8
StableDiffusion-V2.1	StableDiffusion-V2.1是由 Stability AI 公司推出的基于深度学习的文生图模型，它能够根据文本描述生成详细的图像，同时也可以应用于其他任务，例如图生图，生成简短视频等。	40f9ae16e840417289ad2951f5b2c88f
Qwen-72B-Chat	通义千问-72B（Qwen-72B）是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-72B的基础上，使用对齐机制打造了基于大语言模型的AI助手Qwen-72B-Chat。	57e13dafabf340148dc7e860da136b85
Qwen1.5-1.8B-Chat	通义千问1.5（Qwen1.5）是阿里云研发的通义千问系列开源模型，是一种基于Transformer的纯解码器语言模型，已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模，满足不同的计算需求，这是Qwen1.5-1.8B-Chat版本。	945b73ebc8a1429fb71033f424792dc6
Deepseek-V2-Lite-Chat	Deepseek-V2-Lite-Chat是一款强大的开源专家混合（MoE）语言聊天模型，具有16B参数，2.4B活动参数，使用5.7T令牌从头开始训练，其特点是同时具备经济的训练和高效的推理。	0855b510473e4ec3a029569853f64974
GLM4-9B-Chat	GLM4-9B-Chat是智谱AI推出的GLM4系列中的开源聊天版本，在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B-Chat模型表现出了超越Llama-3-8B的卓越性能。	c78c1e258d5741119e7f1becfe230744
Qwen2.5-72B-Instruct	Qwen2.5系列发布了许多基本语言模型和指令调整语言模型，参数范围从0.5到720亿个参数不等。Qwen2.5-72B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。	d9df728b30a346afb74d2099b6c209aa
Yi-1.5-34B-Chat	Yi-1.5-34B-Chat模型使用 500B 令牌的高质量语料库在 Yi 上持续预训练，并在 3M 各种微调样本上进行微调。与 Yi 相比，Yi-1.5 在编码、数学、推理和指令跟随能力方面具有更强的性能，同时在语言理解、常识推理和阅读理解方面仍然保持了出色的能力。	e7b35bcca9ab491984e2f83d8a3198a5
Yi-1.5-6B-Chat	Yi-1.5-6B-Chat是Yi-6B-Chat的升级版本。它使用 500B 令牌的高质量语料库在 Yi 上持续预训练，并在 3M 各种微调样本上进行微调。与 Yi 相比，Yi-1.5 在编码、数学、推理和指令跟随能力方面具有更强的性能，同时在语言理解、常识推理和阅读理解方面仍然保持了出色的能力。	961358827b834b96a9357f392ca2c36f
Yi-1.5-9B-Chat	Yi-1.5-9B-Chat是Yi-9B-Chat的升级版本。它使用500B令牌的高质量语料库在Yi上持续预训练，并在3M各种微调样本上进行微调。与Yi相比，Yi-1.5在编码、数学、推理和指令跟随能力方面具有更强的性能，同时在语言理解、常识推理和阅读理解方面仍然保持了出色的能力。	e73a8a7463d7471d9fcf51255e65ddc6
Gemma2-9B-IT	Gemma2-9B-IT是Google最新发布的具有90亿参数的开源大型语言模型的指令调优版本。模型在大量文本数据上进行预训练，并且在性能上相较于前一代有了显著提升。该版本的性能在同类产品中也处于领先地位，超过了Llama3-8B和其他同规模的开源模型。	4dae2b9727db46b7b86e84e8ae6530a9
Gemma2-27B-IT	Gemma是来自谷歌的轻量级、最先进的开放模型家族，由用于创建双子座模型的相同研究和技术构建。它们是文本到文本的、仅限解码器的大型语言模型，提供英语版本，预训练变体和指令调整变体都有开放权重。	f1703966fd414563ade415ce52c2b0e4
Yi-34B-Chat	Yi-34B-Chat 是由01.AI开发的一款大型双语（英文/中文）聊天模型，在 3T 多语言语料库上进行训练，成为全球最强的 LLM 之一，在语言理解、常识推理、阅读理解等方面显示出前景。	1a9491f6ae3a47388cf446134842e137
Yi-1.5-34B-Chat-16k	Yi-1.5是Yi的升级版本，它使用500B令牌的高质量语料库在Yi上持续预训练，并在3M各种微调样本上进行微调。Yi-1.5-34B-Chat-16K模型具有34B参数大小，支持长达16K的上下文长度，使其能够处理更多需要长上下文的任务。	ed86e742828b4a63819b5f9a20261819
Yi-1.5-9B-Chat-16k	Yi-1.5是Yi的升级版本，它使用500B令牌的高质量语料库在Yi上持续预训练，并在3M各种微调样本上进行微调。Yi-1.5-9B-Chat-16K模型具有9B参数大小，支持长达16K的上下文长度，使其能够处理更多需要长上下文的任务。	917c71b46d54414095a889b7c20f6929
Llama3.1-8B-Instruct	Llama3.1-8B-Instruct是Meta推出的多语言大型语言模型，基于优化的transformer架构，覆盖80亿参数。Llama3.1指令调整后的纯文本模型针对多语言对话使用案例进行了优化，在常见的行业基准上优于许多可用的开源和封闭式聊天模型。	b075554376434939832f8b37a51fdd9f
Llama3.2-1B-Instruct	Meta Llama3.2多语言大型语言模型（LLMs）系列是一系列预训练及指令微调的生成模型，包含1B和3B规模（文本输入/文本输出）。Llama3.2指令微调的纯文本模型专门针对多语言对话应用场景进行了优化，包括代理检索和摘要任务。它们在通用行业基准测试中超越了许多可用的开源和闭源聊天模型。这是Llama3.2-1B-Instruct版本。	a6e455f9712146f786c1a2f7e9c82faf
Llama3.2-3B-Instruct	Meta Llama3.2多语言大型语言模型（LLMs）系列是一系列预训练及指令微调的生成模型，包含1B和3B参数规模。Llama3.2指令微调的纯文本模型专门针对多语言对话应用场景进行了优化，包括代理检索和摘要任务。它们在通用行业基准测试中超越了许多可用的开源和闭源聊天模型。这是Llama3.2-3B-Instruct版本。	f7d0baa95fd2480280214bfe505b0e2e
DeepSeek-Coder-1.3B-Instruct	DeepSeek Coder系列由代码语言模型组成，每个模型都在2T Tokens的数据上从头开始训练，其中，训练数据由87%的代码和13%的自然语言（含中英文）组成。该系列涵盖1.3B到33B多个版本，DeepSeek-Coder-1.3B-Instruct是参数大小为1.3B的指令微调版本。	55600ac7c3be49e09219c6b48f05b6fd
DeepSeek-Coder-6.7B-Instruct	DeepSeek Coder系列由代码语言模型组成，每个模型都在2T Tokens的数据上从头开始训练，其中，训练数据由87%的代码和13%的自然语言（含中英文）组成。该系列涵盖1.3B到33B多个版本，DeepSeek-Coder-6.7B-Instruct是参数大小为6.7B的指令微调版本。	66130163e3954d51aeaf7affa06e1347
DeepSeek-Math-7B-Instruct	DeepSeek-Math-7B-Instruct是是从DeepSeek-Math-7B-Base衍生而来的数学指令调整模型，进一步提升了在数学、自然语言理解、推理和编程技能方面的表现，具备强大的逐步推理性能。	a5b760a9a9a34ba987385e3c9e9fe997
Qwen1.5-MOE-A2.7B-Chat	Qwen1.5-MOE-A2.7B-Chat是Qwen1.5版本推出的一个MoE模型，是基于 transformer 的 MoE 解码器专用语言模型，在大量数据上进行了预训练。该模型共有 14.3B 个参数，运行时激活了 2.7B 个参数，只需要 25% 的训练资源。	5c6004d703c744d09cf6aa347df9d548
Qwen2-0.5B-Instruct	Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 0.5B Qwen2 模型，使用了大量数据对模型进行了预训练，并使用监督微调和直接偏好优化对模型进行了后训练。	df50f7280466468a9d7bb3359b2a52eb
Qwen2.5-0.5B-Instruct	Qwen2.5系列发布了许多基本语言模型和指令调整语言模型，参数范围从0.5到720亿个参数不等。Qwen2.5-0.5B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。	c37488f3243f4bf988ffda90703c9412
Qwen2.5-1.5B-Instruct	Qwen2.5系列发布了许多基本语言模型和指令调整语言模型，参数范围从0.5到720亿个参数不等。Qwen2.5-1.5B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。	8bbc98489ae84366bb46abcf33573f24
Phi3.5-mini-instruct	Phi3.5-mini-Instruct是微软于2024年推出的Phi-3.5系列中的一个轻量级模型，专为计算资源有限的环境设计，拥有38亿参数。它支持128K Tokens的上下文长度，在基准测试中超越了同等级的Llama3.1-8B-instruct和Mistral-7B-instruct。	5d19b74515b143939829cbcd3b16b880
Qwen2.5-7B-Instruct	Qwen2.5系列发布了许多基本语言模型和指令调整语言模型，参数范围从0.5到720亿个参数不等。Qwen2.5-7B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。	227715c3db664d3cbb26e75b7a85f32f
Qwen2.5-14B-Instruct	Qwen2.5系列发布了许多基本语言模型和指令调整语言模型，参数范围从0.5到720亿个参数不等。Qwen2.5-14B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。	d538049d17134274980974ac0e9610f9
Qwen2.5-32B-Instruct	Qwen2.5系列发布了许多基本语言模型和指令调整语言模型，参数范围从0.5到720亿个参数不等。Qwen2.5-32B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。	7e03c00beefb48a989a5bff49ebfaf7f
Gemma1.1-2B-IT	Gemma1.1-2B-IT是对原始指令调整的Gemma版本的更新。Gemma 1.1使用一种新颖的RLHF方法进行训练，在质量、编码能力、事实性、指令遵循和多轮对话质量方面取得了实质性的提高。此外，还修复了多轮次对话中的一个错误。	557b331876144251b271fd601dcfdb45
Gemma1.1-7B-IT	Gemma1.1-7B-IT是对原始指令调整的Gemma版本的更新。Gemma 1.1使用一种新颖的RLHF方法进行训练，在质量、编码能力、事实性、指令遵循和多轮对话质量方面取得了实质性的提高。此外，还修复了多轮次对话中的一个错误。	db40c745f4f743dbb84d54488b95fa50
InternLM2-Chat-1.8B	InternLM2-Chat-1.8B是通过在线RLHF进一步在InternLM2-Chat-1.8B-SFT之上对齐的聊天模型。InternLM2-Chat-1.8B表现出更好的指令跟随、聊天体验和函数调用，推荐用于下游应用。	531c12984ef14caea84433f46461332c
InternLM2.5-1.8B-Chat	InternLM2.5-1.8B-Chat是 InternLM2.5 版本开源的 18 亿个参数的为实际场景量身定制的聊天模型，具备出色的推理能力。	cd88b31fb3ca41cb8b1840b8ab15b36b
InternLM2.5-7B-Chat	InternLM2.5-7B-Chat是书生·浦语大模型第2.5代开源的针对实际应用场景的，具有70亿参数的对话模型。	93e2382458d44cf3a914262eba78ecd1
InternLM2.5-20B-Chat	InternLM2.5-20B-Chat是书生·浦语大模型第2.5代开源的针对实际应用场景的，具有70亿参数的对话模型。	40d5d6b1aeb345ffadd3e03deb8016ea
DeepSeek-Coder-33B-Instruct	DeepSeek Coder系列由代码语言模型组成，每个模型都在2T Tokens的数据上从头开始训练，其中，训练数据由87%的代码和13%的自然语言（含中英文）组成。该系列涵盖1.3B到33B多个版本，DeepSeek-Coder-33B-Instruct是参数大小为33B的指令微调版本。	33fc839a612d4e21bf1d96671c05a998
ChatGLM3-6B-32K	ChatGLM3-6B-32K模型在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力，能够更好的处理最多32K长度的上下文。具体对位置编码进行了更新，并设计了更有针对性的长文本训练方法，在对话阶段使用 32K 的上下文长度训练。	98b6d84f6b15421886d64350f2832782
AquilaChat2-7B	AquilaChat2-7B是Aquila2系列模型中开源的聊天模型之一，该系列的聊天模型包括AquilaChat2-7B和AquilaChat2-34B及这两款模型的长文本版本。	dc00c45db1e04b50945e8fe938a5f954
AquilaChat2-34B	AquilaChat2-34B是Aquila2系列模型中开源的聊天模型之一，该系列的聊天模型包括AquilaChat2-7B和AquilaChat2-34B及这两款模型的长文本版本。	cd3b52a321884c02aebfd6e54ea44477
Baichuan-13B-Chat	Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数的开源可商用的大规模语言模型，在权威的中文和英文benchmark上均取得同尺寸最好的效果，这是Baichuan-13B模型的对话版本。	e3aae41f6e6e46749354942a8e8fec57
Baichuan2-7B-Chat	Baichuan2-7B-Chat是百川智能推出的新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练。该模型在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。	6fc49a2f3652450ebaa3d7ff72707e1b
Baichuan2-13B-Chat	Baichuan2-13B-Chat是百川智能推出的新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练。该模型在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。	bbbe99969f974eaba69a71b5e57d0b96
XVERSE-7B-Chat	XVERSE-7B-Chat为XVERSE-7B模型对齐后的版本，是由深圳元象科技自主研发的支持多语言的大语言模型，参数规模为 70 亿。	9bc6fe6779f949419819f469f14db783
XVERSE-13B-Chat	XVERSE-13B-Chat为XVERSE-13B模型对齐后的版本，是由深圳元象科技自主研发的支持多语言的大语言模型，参数规模为 130 亿。	8e335c0924e143ec81792e4073f170b8
DeepSeek-LLM-7B-Chat	DeepSeek-LLM-7B-Chat是包含70亿参数的高级语言模型，是在DeepSeek-LLM-7B-Base模型基础上进行指令微调生成的聊天版本。该模型已经在包含2万亿个英文和中文令牌的庞大数据集上从头开始训练。	7bed60f16cab4092b016155e71d27919
Chinese-Llama-Alpaca-13B	Chinese-Llama-Alpaca-13B是一个开源的中文大语言模型，它在原有的LLaMA模型基础上进行了扩展和优化，以更好地支持中文文本的处理。	bc5f8dea608044cf991785b6cce743f4
CodeGemma-7B-IT	CodeGemma是构建在Gemma之上的轻量级开放代码模型的集合。CodeGemma-7B-IT模型是CodeGemma系列模型之一，是一种文本到文本和文本到代码的解码器模型的指令调整变体，具有70亿参数，可用于代码聊天和指令跟随。	fa8b78d2db034b6798c894e30fba1173
Chinese-Alpaca-2-7B	Chinese-Alpaca-2-7B模型是基于Meta开源的LLaMA模型系列进行训练和优化的中文大模型。它在原版LLaMA模型的基础上扩充了中文词表，并使用大规模中文数据进行增量预训练，进一步提高了中文的基本语义理解。与第一代模型相比，性能有了显着提高。相关型号支持4K上下文，并且可以使用NTK方法扩展到18K+。	3e187420da534eecada0c8ebe23e6f27
Qwen2-Math-1.5B-Instruct	Qwen2-Math系列是基于Qwen2 LLM构建的专门针对数学的语言模型，其在解决数学问题上的表现显著优于开源模型乃至闭源模型（如GPT4o）。该模型暂时仅支持英语。	3267c1ab01a0457a965153107af15757
Qwen2.5-Math-7B-Instruct	Qwen2.5-Math系列是数学专项大语言模型Qwen2-Math的升级版。系列包括1.5B、7B、72B三种参数的基础模型和指令微调模型以及数学奖励模型Qwen2.5-Math-RM-72B，Qwen2.5-Math-7B-Instruct的性能与Qwen2-Math-72B-Instruct相当。	ea056b1eedfc479198b49e2ef156e2aa
Qwen2.5-Math-1.5B-Instruct	Qwen2.5-Math系列是数学专项大语言模型Qwen2-Math的升级版。系列包括1.5B、7B、72B三种参数的基础模型和指令微调模型以及数学奖励模型Qwen2.5-Math-RM-72B。Qwen2.5-Math-1.5B-Instruct模型已经超越了大多数之前的70B内大小的数学模型。	0013676fb30142ef9422b39bf7904e6e
Yi-6B-Chat	Yi-6B-Chat是由01.AI开发的一款大型双语（英文/中文）聊天模型，在3T多语言语料库上进行训练，成为全球最强的LLM之一，在语言理解、常识推理、阅读理解等方面显示出前景。	ed5028fde6b44e949922e1f8715ace57
Gemma-7B-IT	Gemma是来自谷歌的轻量级、先进的开放模型家族，由用于创建双子座模型的相同研究和技术构建。它们是文本到文本，仅解码器的大型语言模型，提供英语版本，具有开放权重、预训练变体和指令调整变体。	c52773ffaba64d688465159b1daffb1c
Gemma-2B-IT	Gemma是来自谷歌的轻量级、先进的开放模型家族，由用于创建双子座模型的相同研究和技术构建。它们是文本到文本，仅解码器的大型语言模型，提供英语版本，具有开放权重、预训练变体和指令调整变体。	e59a240f222744d5ba7d52c611cd47eb
Mistral-7B-Instruct-v0.1	Mistral-7B-Instruct-v0.1大型语言模型（LLM）是Mistral-7B-v0.1生成文本模型的指令微调版本，具有7.3B参数大小，使用各种公开可用的对话数据集进行训练。	49f37c471c6b443bbde88395f64ed8ad
Mistral-7B-Instruct-v0.2	Mistral-7B-Instruct-v0.2大型语言模型（LLM）是Mistral-7B-v0.2生成文本模型的指令微调版本，具有7.3B参数大小，使用各种公开可用的对话数据集进行训练。	8e53ed769448461abc365532561d8713
Mistral-7B-Instruct-v0.3	Mistral-7B-Instruct-v0.3大型语言模型（LLM）是Mistral-7B-v0.3生成文本模型的指令微调版本，具有7.3B参数大小，使用各种公开可用的对话数据集进行训练。	b80522608540460cb9d3ca1f42f9cae0
Yi-Coder-1.5B-Chat	Yi-Coder-1.5B-Chat是零一万物推出的Yi-Coder系列开源代码语言模型之一，拥有最先进的编码性能，Yi-Coder系列提供1.5B和9B两种参数，这是1.5B参数模型的聊天版本。	2bd87ca3907b49bdb8af96de538ae0dc
Yi-Coder-9B-Chat	Yi-Coder-9B-Chat是零一万物推出的Yi-Coder系列开源代码语言模型之一，拥有最先进的编码性能，Yi-Coder系列提供1.5B和9B两种参数，这是9B参数模型的聊天版本。其中，Yi-Coder-9B的表现优于其他 10B 参数以下的模型，如Code Qwen1.5 7B和 Code Geex4 9B等模型。	9c24f3ba25554d128ae4b41558935bf0
DeciLM-6B-Instruct	DeciLM-6B-Instruct是一种简短的指令跟随模型，是通过LoRA技术在OpenOrca数据集的子集上微调DeciLM-6B模型构建的。	4f4918b0cd5549bfa3b5d1c8f185be50
DeciLM-7B-Instruct	DeciLM-7B-Instruct是基于DeciLM-7B语言模型微调得到的高效生成文本模型，具有70亿个参数。该模型是使用简单的LoRA微调在SlimOrca数据集上获得的最佳7B指令微调模型之一，无需依赖RLHF和DPO偏好优化技术。	184e646616df4346818feda021f0dae1
Phi3-mini-4k-Instruct	Phi3-mini-4k-Instruct是一个3.8B参数，使用Phi-3数据集训练的轻量级、最先进的开放模型，该数据集包括合成数据和过滤的公开网站数据，专注于高质量和推理密集属性。该模型属于Phi-3家族，迷你版本有两种变体4k和128k，这是它可以支持的上下文长度（以tokens计）。	9e0a8b3d7fea490793f66dbd6e83ec2a
Phi3-mini-128k-Instruct	Phi3-mini-128k-Instruct是一个3.8B参数的轻量级、先进的开源模型，它利用Phi-3数据集进行训练，该数据集包含合成数据及经过过滤的公开网站数据，特别注重高质量和密集推理特性。该模型属于Phi-3系列，mini版本有两个变体：4k和128k，这里的数字代表模型能支持的上下文长度（以token计）。	b8040a99c71e4b8886fb69b678ab6bfb
Phi3-medium-128k-Instruct	Phi3-medium-128k-Instruct是一款参数量为140亿的轻量级、先进的开源模型，它利用Phi-3数据集进行训练，该数据集包含合成数据及经过过滤的公开可获取网站数据，特别注重高质量和密集推理特性。该模型属于Phi-3系列，分为Medium版本的两种变体：4k和128k，这里的数字代表模型支持的上下文长度（以tokens计）。	a646647e31aa4a13b03ced7722c90226
Phi3-small-8k-Instruct	Phi3-small-8k-Instruct是一个7B参数，使用Phi-3数据集训练的轻量级、最先进的开放模型，其中包括合成数据和过滤的公开网站数据，重点是高质量和推理密集属性。该模型属于Phi-3系列，其小型版本有两个变体8K和128K，这是它可以支持的上下文长度（以tokens计）。	0ec5bc5be702415db8317c8e813b9e7c
Phi3-small-128k-Instruct	Phi3-small-128k-Instruct是一款轻量级、先进的开源模型，参数量为70亿。该模型利用Phi-3数据集进行训练，该数据集包含合成数据及经过过滤的公开网站数据，特别注重高质量和密集推理特性。该模型属于Phi-3系列，Small版本有两种变体：8K和128K，这里的数字代表了模型能够支持的上下文长度（以token计）。	8cbcc2309f6642269b2fd9cf913fc0b2
Phi3-medium-4k-Instruct	Phi3-medium-4k-Instruct是一款轻量级、先进的开源模型，参数量为140亿，通过结合合成数据和经过筛选的高质量、富含推理属性的公开网站数据进行训练。该模型属于Phi-3系列，分为Medium版本的两种变体：4k和128k，这里的数字代表了模型能支持的上下文长度（以token计）。	a270cd5c7f694271ba7f2fd8307b6548
BELLE-7B-2M	BELLE-7B-2M是一个大型自然语言处理模型，具有7亿参数。该模型基于Bloomz-7b1-mt，并使用2M中文数据结合来自开源Stanford-Alpaca的50,000条英文数据进行微调，从而产生良好的中文指令理解和响应生成能力。	7264c0c13202467ba7dbe7b580397da3
DeepSeek-Coder-V2-Lite-Instruct	DeepSeek-Coder-V2-Lite-Instruct是一款强大的开源专家混合（MoE）语言聊天模型，具有16B参数，2.4B活动参数。该模型基于DeepSeek-V2进一步预训练，增加了6T Tokens，可在特定的代码任务中实现与GPT4-Turbo相当的性能。	f23651e4a8904ea589a6372e0e860b10
Llama3-8B	Llama3-8B是Meta开发并发布的Llama3系列中规模为80亿参数的大型语言基础模型，使用分组查询注意力（GQA）来改进推理可伸缩性。	e22311dfe5734302a13933b3ddf11da4

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

慧聚一站式智算服务平台

慧聚一站式智算服务平台

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

慧聚一站式智算服务平台

慧聚一站式智算服务平台