熊****雄-作者主页-天翼云开发者社区

全部文章Ta的评论

基于TensorRT-LLM和Triton部署LLaMA2-7B模型推理服务
专栏里上一篇文章《基于TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务》介绍了如何用TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务，由于TensorRT-LLM刚刚开源不久（2023年10月19日），官方源码还存在一些bug（尤其是ChatGLM2-6B相关的代码），需要折腾一下才能顺利跑通 : ) 本文同样以“TensorRT-LLM + Triton”这套方案部署LLaMA2-7B模型推理服务，发现bug比ChatGLM2-6B少了很多，不想折腾但又想尝鲜TensorRT-LLM的同学可以参考本文试一试。结合上一篇文章和本文，可以完成的内容为：走通“TensorRT-LLM编译和镜像制作、给Triton inference server添加TensorRT-LLM backend、TensorRT-LLM模型转换（单机单卡、单机多卡）、Triton推理服务部署（单机单卡、单机多卡）、Benchmark测试”全流程。
AI
熊****雄
2023-10-30
839
0
基于TensorRT-LLM和Triton进行ChatGLM2-6B模型推理实践
2023年10月19日，NVIDIA正式宣布TensorRT-LLM开放使用，TensorRT-LLM的主要特性有： - 生成式AI应用端到端部署框架（模型构建、自定义、格式转换、部署） - 支持多GPU多节点推理 - 包含常见大模型的转换、部署示例（LLaMA系列、ChatGLM系列、GPT系列、Baichuan、BLOOM、OPT、Falcon等） - 提供Python API支持新模型的构建和转换 - 支持Triton推理服务框架 - 支持多种NVIDIA架构：Volta, Turing, Ampere, Hopper 和Ada Lovelace - 除了FastTransformer中针对transformer结构的优化项，新增了多种针对大模型的优化项，如In-flight Batching、Paged KV Cache for the Attention、INT4/INT8 Weight-Only Quantization、SmoothQuant、Multi-head Attention(MHA)、Multi-query Attention (MQA)、Group-quer
AI
熊****雄
2023-10-25
719
0
Kubernetes基础学习：部署Deployment、暴露Service
本文通过实操的方式学习Kubernetes基础知识，同时梳理了每一步操作背后的原理，学习路线为：自定义一个容器镜像、部署Deployment、暴露Service。
容器镜像服务容器
熊****雄
2023-09-23
22
0
离线环境下部署ChatGLM2-6B模型镜像
本文以开源的ChatGLM2-6B模型为基础，介绍了如何将ChatGLM2-6B模型部署至离线环境中，离线环境配置不如联网环境下方便，因此先在联网机器上打包好ChatGLM2-6B模型镜像，然后以镜像文件的方式在离线机器上加载镜像进行模型微调和推理。主要内容包括：离线安装Docker、离线安装Nvidia-Container组件、离线加载容器镜像进行ChatGLM2-6B模型微调和推理、可能遇到的问题及解决方法。
AI
熊****雄
2023-09-23
93
0
如何快速配置Kubernetes本地测试环境(Vagrant、VirtualBox、Kind)
本文介绍了如何在本地快速创建k8s测试环境，减少了环境配置的繁琐步骤，有助于快速上手学习k8s相关知识。
云计算
熊****雄
2023-09-23
58
0
联网环境下制作并部署ChatGLM2-6B模型镜像
本文介绍了如何制作并部署ChatGLM2-6B模型镜像，并实现在docker容器中进行ChatGLM2-6B模型的微调和推理。
AI 容器
熊****雄
2023-09-04
299
0

共 6 条前往

页

没有更多了

个人简介

暂未填写公司和职务

暂未填写个人简介

暂未填写技能专长

暂未填写毕业院校和专业

个人成就

共发表过 6 篇文章

文章获得 0 次赞同

文章被浏览 2030 次

获得 0 人关注

个人荣誉查看规则

有目共赏

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云