searchusermenu
  • 发布文章
  • 消息中心
熊****雄
有目共赏
6 文章|0 获赞|0 粉丝|1561 浏览
社区专栏视频问答关注
全部文章Ta的评论
  • 专栏里上一篇文章《基于TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务》介绍了如何用TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务,由于TensorRT-LLM刚刚开源不久(2023年10月19日),官方源码还存在一些bug(尤其是ChatGLM2-6B相关的代码),需要折腾一下才能顺利跑通 : ) 本文同样以“TensorRT-LLM + Triton”这套方案部署LLaMA2-7B模型推理服务,发现bug比ChatGLM2-6B少了很多,不想折腾但又想尝鲜TensorRT-LLM的同学可以参考本文试一试。 结合上一篇文章和本文,可以完成的内容为: 走通“TensorRT-LLM编译和镜像制作、给Triton inference server添加TensorRT-LLM backend、TensorRT-LLM模型转换(单机单卡、单机多卡)、Triton推理服务部署(单机单卡、单机多卡)、Benchmark测试”全流程。
    熊****雄
    2023-10-30
    635
    0
  • 2023年10月19日,NVIDIA正式宣布TensorRT-LLM开放使用,TensorRT-LLM的主要特性有: - 生成式AI应用端到端部署框架(模型构建、自定义、格式转换、部署) - 支持多GPU多节点推理 - 包含常见大模型的转换、部署示例(LLaMA系列、ChatGLM系列、GPT系列、Baichuan、BLOOM、OPT、Falcon等) - 提供Python API支持新模型的构建和转换 - 支持Triton推理服务框架 - 支持多种NVIDIA架构:Volta, Turing, Ampere, Hopper 和Ada Lovelace - 除了FastTransformer中针对transformer结构的优化项,新增了多种针对大模型的优化项,如In-flight Batching、Paged KV Cache for the Attention、INT4/INT8 Weight-Only Quantization、SmoothQuant、Multi-head Attention(MHA)、Multi-query Attention (MQA)、Group-quer
    熊****雄
    2023-10-25
    579
    0
  • 本文通过实操的方式学习Kubernetes基础知识,同时梳理了每一步操作背后的原理,学习路线为:自定义一个容器镜像、部署Deployment、暴露Service。
    熊****雄
    2023-09-23
    21
    0
  • 本文以开源的ChatGLM2-6B模型为基础,介绍了如何将ChatGLM2-6B模型部署至离线环境中,离线环境配置不如联网环境下方便,因此先在联网机器上打包好ChatGLM2-6B模型镜像,然后以镜像文件的方式在离线机器上加载镜像进行模型微调和推理。主要内容包括:离线安装Docker、离线安装Nvidia-Container组件、离线加载容器镜像进行ChatGLM2-6B模型微调和推理、可能遇到的问题及解决方法。
    熊****雄
    2023-09-23
    68
    0
  • 本文介绍了如何在本地快速创建k8s测试环境,减少了环境配置的繁琐步骤,有助于快速上手学习k8s相关知识。
    熊****雄
    2023-09-23
    34
    0
  • 本文介绍了如何制作并部署ChatGLM2-6B模型镜像,并实现在docker容器中进行ChatGLM2-6B模型的微调和推理。
    熊****雄
    2023-09-04
    224
    0
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 6 篇文章
文章获得 0 次赞同
文章被浏览 1561 次
获得 0 人关注
个人荣誉查看规则
有目共赏