Llama2-13B-Chat | Llama2是预先训练和微调的生成文本模型的集合,其规模从70亿到700亿个参数不等。这是13B微调模型的存储库,针对对话用例进行了优化。 | 96dc8f33609d4ce6af3ff55ea377831a |
Qwen-7B-Chat | 通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。 | fc23987da1344a8f8bdf1274e832f193 |
Llama2-7B-Chat | Llama2-7B-Chat是Meta AI开发的大型语言模型Llama2家族中最小的聊天模型。该模型有70亿个参数,并在来自公开来源的2万亿token数据上进行了预训练。它已经在超过一百万个人工注释的指令数据集上进行了微调。 | e30f90ca899a4b1a9c25c0949edd64fc |
Llama2-70B-Chat | Llama 2 是预训练和微调的生成文本模型的集合,规模从 70 亿到 700 亿个参数不等。这是 70B 微调模型的存储库,针对对话用例进行了优化。 | bafbc7785d50466c89819da43964332b |
Qwen-14B-Chat | 通义千问-14B(Qwen-14B) 是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-14B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-14B-Chat。 | 18ce103e75644397b3e73cc514e36930 |
Qwen1.5-7B-Chat | 通义千问1.5(Qwen1.5)是阿里云研发的通义千问系列开源模型,是一种基于 Transformer 的纯解码器语言模型,已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模,满足不同的计算需求,这是Qwen1.5-7B-Chat版本。 | bfc0bdbf8b394c139a734235b1e6f887 |
Qwen2-1.5B-Instruct | Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 1.5B Qwen2 模型,使用了大量数据对模型进行了预训练,并使用监督微调和直接偏好优化对模型进行了后训练。 | 88ad4fb38d284af690baf2285fd2c9ff |
Qwen2-72B-Instruct | Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 72B Qwen2 模型,使用了大量数据对模型进行了预训练,并使用监督微调和直接偏好优化对模型进行了后训练。 | 2f05789705a64606a552fc2b30326bba |
ChatGLM3-6B | ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了更强大的基础模型、更完整的功能支持、更全面的开源序列几大特性。 | 7450fa195778420393542c7fa13c6640 |
TeleChat-7B | 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练。 | 6d2914928db84d2bb3c6f5fa02d6d7ac |
TeleChat-12B | 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,TeleChat-12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。TeleChat-12B-bot在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。 | fdc31b36028043c48b15131885b148ce |
Qwen1.5-14B-Chat | 通义千问1.5(Qwen1.5)是阿里云研发的通义千问系列开源模型,是一种基于 Transformer 的纯解码器语言模型,已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模,满足不同的计算需求,这是Qwen1.5-14B-Chat版本。 | acfe01f00b0c4ff49c29c6c77b771b60 |
Llama3-8B-Instruct | Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLM),包含 8B 和 70B 两种参数大小,Llama3-8B-Instruct 是经过指令微调的版本,针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。 | bda59c34e4424598bbd5930eba713fbf |
Llama3-70B-Instruct | Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLM),包含 8B 和 70B 两种参数大小,Llama3-70B-Instruct 是经过指令微调的版本,针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。 | 6192ed0cb6334302a2c32735dbbb6ce3 |
Qwen1.5-72B-Chat | 通义千问1.5(Qwen1.5)是阿里云研发的通义千问系列开源模型,是一种基于 Transformer 的纯解码器语言模型,已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模,满足不同的计算需求,这是Qwen1.5-72B-Chat版本。 | 9d140d415f11414aa05c8888e267a896 |
Qwen1.5-32B-Chat | Qwen1.5-32B 是 Qwen1.5 语言模型系列的最新成员,除了模型大小外,其在模型架构上除了GQA几乎无其他差异。GQA能让该模型在模型服务时具有更高的推理效率潜力。这是Qwen1.5-32B-Chat版本。 | 12d5a37bf1ed4bf9b1cb8e446cfa60b3 |
ChatGLM2-6B | ChatGLM2-6B智谱AI与清华KEG实验室发布的中英双语对话模型,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B引入了新特征:更强大的性能、更长的上下文、更高效的推理、更开放的协议,在数理逻辑、知识推理、长文档理解上均有支持,在MMLU、CEval等数据集上相比初代有大幅的性能提升。 | 98c80bbd4b254af687f119a6c8787156 |
AquilaChat-7B | 悟道·天鹰(AquilaChat-7B)是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的具有70亿参数的开源语言大模型,基于基础模型 Aquila-7B 进行微调和强化学习。 | a6574471a5f74d33beda092934d44ce1 |
Baichuan3-Turbo | Baichuan-Turbo系列模型是百川智能推出的大语言模型,采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。 | 43ac83747cb34730a00b7cfe590c89ac |
InternLM2-Chat-7B | InternLM2-Chat-7B 是书生·浦语大模型系列中开源的 70 亿参数库模型和针对实际场景量身定制的聊天模型。InternLM2相比于初代InternLM,在推理、数学、代码等方面的能力提升尤为显著,综合能力领先于同量级开源模型。 | 50beebff68b34803bd71d380e49078f5 |
InternLM2-Chat-20B | InternLM2-Chat-20B 是书生·浦语大模型系列中开源的200 亿参数库模型和针对实际场景量身定制的聊天模型。InternLM2相比于初代InternLM,在推理、数学、代码等方面的能力提升尤为显著,综合能力领先于同量级开源模型。 | 9abb1d54bd39443b95337692beed2e8c |
Qwen2-7B-Instruct | Qwen2-7B-Instruct是 Qwen2大型语言模型系列中覆盖70亿参数的指令调优语言模型,支持高达 131,072 个令牌的上下文长度,能够处理大量输入。 | 0e97efbf3aa042ebbaf0b2d358403b94 |
Qwen-VL-Chat | Qwen-VL-Chat模型是在阿里云研发的大规模视觉语言模型 Qwen-VL 系列的基础上,使用对齐机制打造的视觉AI助手,该模型有更优秀的中文指令跟随,支持更灵活的交互方式,包括多图、多轮问答、创作等能力。 | e8c39004ff804ca699d47b9254039db8 |
StableDiffusion-V2.1 | StableDiffusion-V2.1是由 Stability AI 公司推出的基于深度学习的文生图模型,它能够根据文本描述生成详细的图像,同时也可以应用于其他任务,例如图生图,生成简短视频等。 | 40f9ae16e840417289ad2951f5b2c88f |
Qwen-72B-Chat | 通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-72B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-72B-Chat。 | 57e13dafabf340148dc7e860da136b85 |
Qwen1.5-1.8B-Chat | 通义千问1.5(Qwen1.5)是阿里云研发的通义千问系列开源模型,是一种基于Transformer的纯解码器语言模型,已在大量数据上进行了预训练。该系列包括Base和Chat等多版本、多规模,满足不同的计算需求,这是Qwen1.5-1.8B-Chat版本。 | 945b73ebc8a1429fb71033f424792dc6 |
Deepseek-V2-Lite-Chat | Deepseek-V2-Lite-Chat是一款强大的开源专家混合(MoE)语言聊天模型,具有16B参数,2.4B活动参数,使用5.7T令牌从头开始训练,其特点是同时具备经济的训练和高效的推理。 | 0855b510473e4ec3a029569853f64974 |
GLM4-9B-Chat | GLM4-9B-Chat是智谱AI推出的GLM4系列中的开源聊天版本,在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat模型表现出了超越Llama-3-8B的卓越性能。 | c78c1e258d5741119e7f1becfe230744 |
Qwen2.5-72B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-72B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | d9df728b30a346afb74d2099b6c209aa |
Yi-1.5-34B-Chat | Yi-1.5-34B-Chat模型使用 500B 令牌的高质量语料库在 Yi 上持续预训练,并在 3M 各种微调样本上进行微调。与 Yi 相比,Yi-1.5 在编码、数学、推理和指令跟随能力方面具有更强的性能,同时在语言理解、常识推理和阅读理解方面仍然保持了出色的能力。 | e7b35bcca9ab491984e2f83d8a3198a5 |
Yi-1.5-6B-Chat | Yi-1.5-6B-Chat是Yi-6B-Chat的升级版本。它使用 500B 令牌的高质量语料库在 Yi 上持续预训练,并在 3M 各种微调样本上进行微调。与 Yi 相比,Yi-1.5 在编码、数学、推理和指令跟随能力方面具有更强的性能,同时在语言理解、常识推理和阅读理解方面仍然保持了出色的能力。 | 961358827b834b96a9357f392ca2c36f |
Yi-1.5-9B-Chat | Yi-1.5-9B-Chat是Yi-9B-Chat的升级版本。它使用500B令牌的高质量语料库在Yi上持续预训练,并在3M各种微调样本上进行微调。与Yi相比,Yi-1.5在编码、数学、推理和指令跟随能力方面具有更强的性能,同时在语言理解、常识推理和阅读理解方面仍然保持了出色的能力。 | e73a8a7463d7471d9fcf51255e65ddc6 |
Gemma2-9B-IT | Gemma2-9B-IT是Google最新发布的具有90亿参数的开源大型语言模型的指令调优版本。模型在大量文本数据上进行预训练,并且在性能上相较于前一代有了显著提升。该版本的性能在同类产品中也处于领先地位,超过了Llama3-8B和其他同规模的开源模型。 | 4dae2b9727db46b7b86e84e8ae6530a9 |
Gemma2-27B-IT | Gemma是来自谷歌的轻量级、最先进的开放模型家族,由用于创建双子座模型的相同研究和技术构建。它们是文本到文本的、仅限解码器的大型语言模型,提供英语版本,预训练变体和指令调整变体都有开放权重。 | f1703966fd414563ade415ce52c2b0e4 |
Yi-34B-Chat | Yi-34B-Chat 是由01.AI开发的一款大型双语(英文/中文)聊天模型,在 3T 多语言语料库上进行训练,成为全球最强的 LLM 之一,在语言理解、常识推理、阅读理解等方面显示出前景。 | 1a9491f6ae3a47388cf446134842e137 |
Yi-1.5-34B-Chat-16k | Yi-1.5是Yi的升级版本,它使用500B令牌的高质量语料库在Yi上持续预训练,并在3M各种微调样本上进行微调。Yi-1.5-34B-Chat-16K模型具有34B参数大小,支持长达16K的上下文长度,使其能够处理更多需要长上下文的任务。 | ed86e742828b4a63819b5f9a20261819 |
Yi-1.5-9B-Chat-16k | Yi-1.5是Yi的升级版本,它使用500B令牌的高质量语料库在Yi上持续预训练,并在3M各种微调样本上进行微调。Yi-1.5-9B-Chat-16K模型具有9B参数大小,支持长达16K的上下文长度,使其能够处理更多需要长上下文的任务。 | 917c71b46d54414095a889b7c20f6929 |
Llama3.1-8B-Instruct | Llama3.1-8B-Instruct是Meta推出的多语言大型语言模型,基于优化的transformer架构,覆盖80亿参数。Llama3.1指令调整后的纯文本模型针对多语言对话使用案例进行了优化,在常见的行业基准上优于许多可用的开源和封闭式聊天模型。 | b075554376434939832f8b37a51fdd9f |
Llama3.2-1B-Instruct | Meta Llama3.2多语言大型语言模型(LLMs)系列是一系列预训练及指令微调的生成模型,包含1B和3B规模(文本输入/文本输出)。Llama3.2指令微调的纯文本模型专门针对多语言对话应用场景进行了优化,包括代理检索和摘要任务。它们在通用行业基准测试中超越了许多可用的开源和闭源聊天模型。这是Llama3.2-1B-Instruct版本。 | a6e455f9712146f786c1a2f7e9c82faf |
Llama3.2-3B-Instruct | Meta Llama3.2多语言大型语言模型(LLMs)系列是一系列预训练及指令微调的生成模型,包含1B和3B参数规模。Llama3.2指令微调的纯文本模型专门针对多语言对话应用场景进行了优化,包括代理检索和摘要任务。它们在通用行业基准测试中超越了许多可用的开源和闭源聊天模型。这是Llama3.2-3B-Instruct版本。 | f7d0baa95fd2480280214bfe505b0e2e |
DeepSeek-Coder-1.3B-Instruct | DeepSeek Coder系列由代码语言模型组成,每个模型都在2T Tokens的数据上从头开始训练,其中,训练数据由87%的代码和13%的自然语言(含中英文)组成。该系列涵盖1.3B到33B多个版本,DeepSeek-Coder-1.3B-Instruct是参数大小为1.3B的指令微调版本。 | 55600ac7c3be49e09219c6b48f05b6fd |
DeepSeek-Coder-6.7B-Instruct | DeepSeek Coder系列由代码语言模型组成,每个模型都在2T Tokens的数据上从头开始训练,其中,训练数据由87%的代码和13%的自然语言(含中英文)组成。该系列涵盖1.3B到33B多个版本,DeepSeek-Coder-6.7B-Instruct是参数大小为6.7B的指令微调版本。 | 66130163e3954d51aeaf7affa06e1347 |
DeepSeek-Math-7B-Instruct | DeepSeek-Math-7B-Instruct是是从DeepSeek-Math-7B-Base衍生而来的数学指令调整模型,进一步提升了在数学、自然语言理解、推理和编程技能方面的表现,具备强大的逐步推理性能。 | a5b760a9a9a34ba987385e3c9e9fe997 |
Qwen1.5-MOE-A2.7B-Chat | Qwen1.5-MOE-A2.7B-Chat是Qwen1.5版本推出的一个MoE模型,是基于 transformer 的 MoE 解码器专用语言模型,在大量数据上进行了预训练。该模型共有 14.3B 个参数,运行时激活了 2.7B 个参数,只需要 25% 的训练资源。 | 5c6004d703c744d09cf6aa347df9d548 |
Qwen2-0.5B-Instruct | Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 0.5B Qwen2 模型,使用了大量数据对模型进行了预训练,并使用监督微调和直接偏好优化对模型进行了后训练。 | df50f7280466468a9d7bb3359b2a52eb |
Qwen2.5-0.5B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-0.5B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | c37488f3243f4bf988ffda90703c9412 |
Qwen2.5-1.5B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-1.5B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | 8bbc98489ae84366bb46abcf33573f24 |
Phi3.5-mini-instruct | Phi3.5-mini-Instruct是微软于2024年推出的Phi-3.5系列中的一个轻量级模型,专为计算资源有限的环境设计,拥有38亿参数。它支持128K Tokens的上下文长度,在基准测试中超越了同等级的Llama3.1-8B-instruct和Mistral-7B-instruct。 | 5d19b74515b143939829cbcd3b16b880 |
Qwen2.5-7B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-7B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | 227715c3db664d3cbb26e75b7a85f32f |
Qwen2.5-14B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-14B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | d538049d17134274980974ac0e9610f9 |
Qwen2.5-32B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-32B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | 7e03c00beefb48a989a5bff49ebfaf7f |
Gemma1.1-2B-IT | Gemma1.1-2B-IT是对原始指令调整的Gemma版本的更新。Gemma 1.1使用一种新颖的RLHF方法进行训练,在质量、编码能力、事实性、指令遵循和多轮对话质量方面取得了实质性的提高。此外,还修复了多轮次对话中的一个错误。 | 557b331876144251b271fd601dcfdb45 |
Gemma1.1-7B-IT | Gemma1.1-7B-IT是对原始指令调整的Gemma版本的更新。Gemma 1.1使用一种新颖的RLHF方法进行训练,在质量、编码能力、事实性、指令遵循和多轮对话质量方面取得了实质性的提高。此外,还修复了多轮次对话中的一个错误。 | db40c745f4f743dbb84d54488b95fa50 |
InternLM2-Chat-1.8B | InternLM2-Chat-1.8B是通过在线RLHF进一步在InternLM2-Chat-1.8B-SFT之上对齐的聊天模型。InternLM2-Chat-1.8B表现出更好的指令跟随、聊天体验和函数调用,推荐用于下游应用。 | 531c12984ef14caea84433f46461332c |
InternLM2.5-1.8B-Chat | InternLM2.5-1.8B-Chat是 InternLM2.5 版本开源的 18 亿个参数的为实际场景量身定制的聊天模型,具备出色的推理能力。 | cd88b31fb3ca41cb8b1840b8ab15b36b |
InternLM2.5-7B-Chat | InternLM2.5-7B-Chat是书生·浦语大模型第2.5代开源的针对实际应用场景的,具有70亿参数的对话模型。 | 93e2382458d44cf3a914262eba78ecd1 |
InternLM2.5-20B-Chat | InternLM2.5-20B-Chat是书生·浦语大模型第2.5代开源的针对实际应用场景的,具有70亿参数的对话模型。 | 40d5d6b1aeb345ffadd3e03deb8016ea |
DeepSeek-Coder-33B-Instruct | DeepSeek Coder系列由代码语言模型组成,每个模型都在2T Tokens的数据上从头开始训练,其中,训练数据由87%的代码和13%的自然语言(含中英文)组成。该系列涵盖1.3B到33B多个版本,DeepSeek-Coder-33B-Instruct是参数大小为33B的指令微调版本。 | 33fc839a612d4e21bf1d96671c05a998 |
ChatGLM3-6B-32K | ChatGLM3-6B-32K模型在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。具体对位置编码进行了更新,并设计了更有针对性的长文本训练方法,在对话阶段使用 32K 的上下文长度训练。 | 98b6d84f6b15421886d64350f2832782 |
AquilaChat2-7B | AquilaChat2-7B是Aquila2系列模型中开源的聊天模型之一,该系列的聊天模型包括AquilaChat2-7B和AquilaChat2-34B及这两款模型的长文本版本。 | dc00c45db1e04b50945e8fe938a5f954 |
AquilaChat2-34B | AquilaChat2-34B是Aquila2系列模型中开源的聊天模型之一,该系列的聊天模型包括AquilaChat2-7B和AquilaChat2-34B及这两款模型的长文本版本。 | cd3b52a321884c02aebfd6e54ea44477 |
Baichuan-13B-Chat | Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数的开源可商用的大规模语言模型,在权威的中文和英文benchmark上均取得同尺寸最好的效果,这是Baichuan-13B模型的对话版本。 | e3aae41f6e6e46749354942a8e8fec57 |
Baichuan2-7B-Chat | Baichuan2-7B-Chat是百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量语料训练。该模型在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。 | 6fc49a2f3652450ebaa3d7ff72707e1b |
Baichuan2-13B-Chat | Baichuan2-13B-Chat是百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量语料训练。该模型在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。 | bbbe99969f974eaba69a71b5e57d0b96 |
XVERSE-7B-Chat | XVERSE-7B-Chat为XVERSE-7B模型对齐后的版本,是由深圳元象科技自主研发的支持多语言的大语言模型,参数规模为 70 亿。 | 9bc6fe6779f949419819f469f14db783 |
XVERSE-13B-Chat | XVERSE-13B-Chat为XVERSE-13B模型对齐后的版本,是由深圳元象科技自主研发的支持多语言的大语言模型,参数规模为 130 亿。 | 8e335c0924e143ec81792e4073f170b8 |
DeepSeek-LLM-7B-Chat | DeepSeek-LLM-7B-Chat是包含70亿参数的高级语言模型,是在DeepSeek-LLM-7B-Base模型基础上进行指令微调生成的聊天版本。该模型已经在包含2万亿个英文和中文令牌的庞大数据集上从头开始训练。 | 7bed60f16cab4092b016155e71d27919 |
Chinese-Llama-Alpaca-13B | Chinese-Llama-Alpaca-13B是一个开源的中文大语言模型,它在原有的LLaMA模型基础上进行了扩展和优化,以更好地支持中文文本的处理。 | bc5f8dea608044cf991785b6cce743f4 |
CodeGemma-7B-IT | CodeGemma是构建在Gemma之上的轻量级开放代码模型的集合。CodeGemma-7B-IT模型是CodeGemma系列模型之一,是一种文本到文本和文本到代码的解码器模型的指令调整变体,具有70亿参数,可用于代码聊天和指令跟随。 | fa8b78d2db034b6798c894e30fba1173 |
Chinese-Alpaca-2-7B | Chinese-Alpaca-2-7B模型是基于Meta开源的LLaMA模型系列进行训练和优化的中文大模型。它在原版LLaMA模型的基础上扩充了中文词表,并使用大规模中文数据进行增量预训练,进一步提高了中文的基本语义理解。与第一代模型相比,性能有了显着提高。相关型号支持4K上下文,并且可以使用NTK方法扩展到18K+。 | 3e187420da534eecada0c8ebe23e6f27 |
Qwen2-Math-1.5B-Instruct | Qwen2-Math系列是基于Qwen2 LLM构建的专门针对数学的语言模型,其在解决数学问题上的表现显著优于开源模型乃至闭源模型(如GPT4o)。该模型暂时仅支持英语。 | 3267c1ab01a0457a965153107af15757 |
Qwen2.5-Math-7B-Instruct | Qwen2.5-Math系列是数学专项大语言模型Qwen2-Math的升级版。系列包括1.5B、7B、72B三种参数的基础模型和指令微调模型以及数学奖励模型Qwen2.5-Math-RM-72B,Qwen2.5-Math-7B-Instruct的性能与Qwen2-Math-72B-Instruct相当。 | ea056b1eedfc479198b49e2ef156e2aa |
Qwen2.5-Math-1.5B-Instruct | Qwen2.5-Math系列是数学专项大语言模型Qwen2-Math的升级版。系列包括1.5B、7B、72B三种参数的基础模型和指令微调模型以及数学奖励模型Qwen2.5-Math-RM-72B。Qwen2.5-Math-1.5B-Instruct模型已经超越了大多数之前的70B内大小的数学模型。 | 0013676fb30142ef9422b39bf7904e6e |
Yi-6B-Chat | Yi-6B-Chat是由01.AI开发的一款大型双语(英文/中文)聊天模型,在3T多语言语料库上进行训练,成为全球最强的LLM之一,在语言理解、常识推理、阅读理解等方面显示出前景。 | ed5028fde6b44e949922e1f8715ace57 |
Gemma-7B-IT | Gemma是来自谷歌的轻量级、先进的开放模型家族,由用于创建双子座模型的相同研究和技术构建。它们是文本到文本,仅解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。 | c52773ffaba64d688465159b1daffb1c |
Gemma-2B-IT | Gemma是来自谷歌的轻量级、先进的开放模型家族,由用于创建双子座模型的相同研究和技术构建。它们是文本到文本,仅解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。 | e59a240f222744d5ba7d52c611cd47eb |
Mistral-7B-Instruct-v0.1 | Mistral-7B-Instruct-v0.1大型语言模型(LLM)是Mistral-7B-v0.1生成文本模型的指令微调版本,具有7.3B参数大小,使用各种公开可用的对话数据集进行训练。 | 49f37c471c6b443bbde88395f64ed8ad |
Mistral-7B-Instruct-v0.2 | Mistral-7B-Instruct-v0.2大型语言模型(LLM)是Mistral-7B-v0.2生成文本模型的指令微调版本,具有7.3B参数大小,使用各种公开可用的对话数据集进行训练。 | 8e53ed769448461abc365532561d8713 |
Mistral-7B-Instruct-v0.3 | Mistral-7B-Instruct-v0.3大型语言模型(LLM)是Mistral-7B-v0.3生成文本模型的指令微调版本,具有7.3B参数大小,使用各种公开可用的对话数据集进行训练。 | b80522608540460cb9d3ca1f42f9cae0 |
Yi-Coder-1.5B-Chat | Yi-Coder-1.5B-Chat是零一万物推出的Yi-Coder系列开源代码语言模型之一,拥有最先进的编码性能,Yi-Coder系列提供1.5B和9B两种参数,这是1.5B参数模型的聊天版本。 | 2bd87ca3907b49bdb8af96de538ae0dc |
Yi-Coder-9B-Chat | Yi-Coder-9B-Chat是零一万物推出的Yi-Coder系列开源代码语言模型之一,拥有最先进的编码性能,Yi-Coder系列提供1.5B和9B两种参数,这是9B参数模型的聊天版本。其中,Yi-Coder-9B的表现优于其他 10B 参数以下的模型,如Code Qwen1.5 7B和 Code Geex4 9B等模型。 | 9c24f3ba25554d128ae4b41558935bf0 |
DeciLM-6B-Instruct | DeciLM-6B-Instruct是一种简短的指令跟随模型,是通过LoRA技术在OpenOrca数据集的子集上微调DeciLM-6B模型构建的。 | 4f4918b0cd5549bfa3b5d1c8f185be50 |
DeciLM-7B-Instruct | DeciLM-7B-Instruct是基于DeciLM-7B语言模型微调得到的高效生成文本模型,具有70亿个参数。该模型是使用简单的LoRA微调在SlimOrca数据集上获得的最佳7B指令微调模型之一,无需依赖RLHF和DPO偏好优化技术。 | 184e646616df4346818feda021f0dae1 |
Phi3-mini-4k-Instruct | Phi3-mini-4k-Instruct是一个3.8B参数,使用Phi-3数据集训练的轻量级、最先进的开放模型,该数据集包括合成数据和过滤的公开网站数据,专注于高质量和推理密集属性。该模型属于Phi-3家族,迷你版本有两种变体4k和128k,这是它可以支持的上下文长度(以tokens计)。 | 9e0a8b3d7fea490793f66dbd6e83ec2a |
Phi3-mini-128k-Instruct | Phi3-mini-128k-Instruct是一个3.8B参数的轻量级、先进的开源模型,它利用Phi-3数据集进行训练,该数据集包含合成数据及经过过滤的公开网站数据,特别注重高质量和密集推理特性。 该模型属于Phi-3系列,mini版本有两个变体:4k和128k,这里的数字代表模型能支持的上下文长度(以token计)。 | b8040a99c71e4b8886fb69b678ab6bfb |
Phi3-medium-128k-Instruct | Phi3-medium-128k-Instruct是一款参数量为140亿的轻量级、先进的开源模型,它利用Phi-3数据集进行训练,该数据集包含合成数据及经过过滤的公开可获取网站数据,特别注重高质量和密集推理特性。该模型属于Phi-3系列,分为Medium版本的两种变体:4k和128k,这里的数字代表模型支持的上下文长度(以tokens计)。 | a646647e31aa4a13b03ced7722c90226 |
Phi3-small-8k-Instruct | Phi3-small-8k-Instruct是一个7B参数,使用Phi-3数据集训练的轻量级、最先进的开放模型,其中包括合成数据和过滤的公开网站数据,重点是高质量和推理密集属性。该模型属于Phi-3系列,其小型版本有两个变体8K和128K,这是它可以支持的上下文长度(以tokens计)。 | 0ec5bc5be702415db8317c8e813b9e7c |
Phi3-small-128k-Instruct | Phi3-small-128k-Instruct是一款轻量级、先进的开源模型,参数量为70亿。该模型利用Phi-3数据集进行训练,该数据集包含合成数据及经过过滤的公开网站数据,特别注重高质量和密集推理特性。 该模型属于Phi-3系列,Small版本有两种变体:8K和128K,这里的数字代表了模型能够支持的上下文长度(以token计)。 | 8cbcc2309f6642269b2fd9cf913fc0b2 |
Phi3-medium-4k-Instruct | Phi3-medium-4k-Instruct是一款轻量级、先进的开源模型,参数量为140亿,通过结合合成数据和经过筛选的高质量、富含推理属性的公开网站数据进行训练。该模型属于Phi-3系列,分为Medium版本的两种变体:4k和128k,这里的数字代表了模型能支持的上下文长度(以token计)。 | a270cd5c7f694271ba7f2fd8307b6548 |
BELLE-7B-2M | BELLE-7B-2M是一个大型自然语言处理模型,具有7亿参数。该模型基于Bloomz-7b1-mt,并使用2M中文数据结合来自开源Stanford-Alpaca的50,000条英文数据进行微调,从而产生良好的中文指令理解和响应生成能力。 | 7264c0c13202467ba7dbe7b580397da3 |
DeepSeek-Coder-V2-Lite-Instruct | DeepSeek-Coder-V2-Lite-Instruct是一款强大的开源专家混合(MoE)语言聊天模型,具有16B参数,2.4B活动参数。该模型基于DeepSeek-V2进一步预训练,增加了6T Tokens,可在特定的代码任务中实现与GPT4-Turbo相当的性能。 | f23651e4a8904ea589a6372e0e860b10 |
Llama3-8B | Llama3-8B是Meta开发并发布的Llama3系列中规模为80亿参数的大型语言基础模型,使用分组查询注意力 (GQA) 来改进推理可伸缩性。 | e22311dfe5734302a13933b3ddf11da4 |