searchusermenu
  • 发布文章
  • 消息中心
刘****芳
有目共赏
4 文章|0 获赞|0 粉丝|1502 浏览
社区专栏视频问答关注
全部文章Ta的评论
  • TeleChat采用标准的 Decoder-only 结构设计模型,并在模型维度做了一些改进
    刘****芳
    2024-12-03
    52
    0
  • vllm参数适用于多种用途和设置,特别是在使用vLLM时对不同硬件和资源管理进行调整
    刘****芳
    2024-12-03
    1348
    0
  • Continous Batching提出于论文《Orca: A Distributed Serving System for Transformer-Based Generative Models》,因其可以实现数倍乃至数十倍的系统吞吐提升,已广泛被各大LLM推理框架采用(原名Iteration Batching,TGI和vLLM称之为Contious Batching,TensorRT-LLM称之为In-flight Batching)。 笔者曾阅读几篇关于Continous Batching的解读,始终觉得对运行机制的理解不够透彻,因而自己看论文做了这篇解说。
    刘****芳
    2024-09-12
    13
    0
  • **自 OpenAI 发布 ChatGPT 以来,基于 Transformer 架构的**[大语言模型]**(LLM) 在全球范围内引发了深度的技术关注,并取得了令人瞩目的成就。其强大的理解和生成能力,正在深刻改变我们对人工智能的认知和应用。然而大语言模型的推理应用成本过高,高昂的成本大大阻碍了技术落地。因此,大语言模型的推理性能优化成为业界研究的热点。** **大语言模型推理面临计算资源的巨大需求和计算效率的挑战。优化推理性能不仅可以减少硬件成本,还可以提高模型的实时响应速度。它使模型能够更快速地执行**[自然语言理解]、翻译、文本生成等任务,从而改善用户体验,加速科学研究,推动各行业应用的发展。 **本文从推理服务系统全局视角介绍典型性能优化技术和各自特点,最后分析未来大语言**[模型推理优化技术]的发展趋势和演进方向,最终为未来的人工智能应用打开更广阔的可能性。
    刘****芳
    2024-09-12
    89
    0
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 4 篇文章
文章获得 0 次赞同
文章被浏览 1502 次
获得 0 人关注
个人荣誉查看规则
有目共赏