searchusermenu
  • 发布文章
  • 消息中心
#AI
关注该标签
专栏文章 520
视频 1
问答 3
  • 【摘要】 2024年博主评选激励计划持续! 激励计划旨在奖励在天翼云社区博客积极发文和发表优质博文的博主!欢迎加入云驻计划:
    刘****渺
    2024-05-16
    36
    2
  • Volcano 是一个用于高性能计算(HPC)和大数据应用的 Kubernetes 调度器。它专为需要复杂调度策略的工作负载设计,如机器学习、深度学习、批处理作业等。 Volcano 的架构由多个组件组成,每个组件负责不同的功能模块。其中Scheduler是负责Pod调度的组件,它由一系列action和插件组成。action定义了调度各环节中需要执行的动作;插件根据不同场景提供了action 中算法的具体实现细节。 本文详细解读Scheduler中插件,包括插件如何注册,一些常用的插件,以及插件如何实现。
    h****m
    2024-07-03
    1
    0
  • YOLO-World论文调研
    pandame
    2024-07-03
    6
    0
  • 思维链是一种人工智能技术,它通过模拟人类解决问题时的思考步骤,逐步构建起从问题到答案的逻辑链条。与传统的模式识别或统计学习方法不同,思维链强调推理过程的透明度和可解释性,使得AI的决策过程更加接近人类的思考方式。
    张****凡
    2024-07-02
    0
    0
  • 华****裕
    2024-07-01
    1
    0
  • 本文将介绍Transformers和DeepSpeed两项关键技术,并探讨它们在大语言模型中的应用。Transformers作为现代自然语言处理的基石,改变了语言模型的构建方式;而DeepSpeed则通过优化和加速训练过程,使得超大规模模型的训练成为可能。结合大语言模型的聊天应用,我们将展示这些技术是如何协同工作的。
    梁****瑜
    2024-07-01
    4
    0
  • 本文探讨了Transformers库与DeepSpeed的结合,以及如何将它们应用于大语言模型的聊天模板中。Transformers库提供了丰富的预训练模型和便捷的API,而DeepSpeed则通过优化和加速训练过程,使得训练超大规模模型变得更加可行。通过详细介绍这些技术,我们将展示如何有效地训练和部署高性能的大语言模型,以提升聊天机器人的响应速度和准确性。
    梁****瑜
    2024-07-01
    2
    0
  • 电信网络诈骗治理形势随互联网技术和 AI 技术的发展而不断变化。对电信网络诈骗犯罪治理来说,AI 技术的发展既加大了犯罪的不可预测性和司法应对的复杂性,也提供了治理的诸多可行性。
    赵****瑀
    2024-07-01
    9
    0
  • 使用Python的win32com库实现对Word的操作
    程****智
    2024-07-01
    1
    0
  • 针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。
    w****n
    2024-07-01
    1
    0
  • 为了提高人工智能系统对用户输入的响应质量,如何对prompt进行优化是目前的研究方向。目前,优化工作主要在模型响应用户的prompt后进行,依据用户的满意度来调整prompt。然而,这种方法依赖于用户初始输入prompt的质量。如果用户最初的prompt表达不明确或有误,即使经过优化,最终的prompt可能仍无法满足用户需求。为了解决这个问题,在初始prompt处理阶段引入了两个关键模块,意图理解模块,通过这个模块,系统能更深入分析用户输入的意图,确保捕捉到用户的真实需求;情感分析模块,这个模块帮助系统识别用户输入中的情感倾向,从而提供更加贴近用户情绪的响应。通过引入这些模块,增强了对用户输入的理解深度和准确度。在模型首次响应后,将继续根据用户的满意度反馈,对prompt进行进一步的优化,以实现更精准、更个性化的用户体验。这种优化系统不仅提升了用户满意度,还提高了智能化水平,使其能够更好地适应不同用户的需求和偏好。
    翟****鄀
    2024-06-28
    1
    0
  • 利用卡尔曼滤波算法对微服务系统的系统运行时间序列数据进行特征提取,既清除了数据中的噪音杂质,又凸显了真实系统故障的显著特征,为后续的故障诊断提供了有力的数据支持。
    l****n
    2024-06-28
    3
    0
  • 调研了近年来端到端语音识别技术的发展概况,并整理对比了wenet上各个算法在aishell数据集上的性能。
    方****祥
    2024-06-28
    1
    0
  • RetroMAE是一种预训练框架,主要用于提升模型的语义表征能力。该框架基于经典的掩码自编码器(Masked Auto-Encoder, MAE)架构进行设计,其核心思想是在输入文本中进行掩码操作,然后让模型尝试恢复原始文本,以此学习到文本的深层语义结构。本文将从RetroMAE的论文出发,结合实际实验效果对该框架进行较为详细地介绍。
    贺****茜
    2024-06-28
    2
    0
  • 接上文,继续介绍在conformer之后端到端语音识别技术的进展。
    方****祥
    2024-06-28
    1
    0
  • Actor-Critic算法是一种强化学习算法,它结合了策略评估(Critic)和策略改进(Actor)两个过程。Actor负责选择动作,而Critic则评估当前策略的好坏,两者相互协作,以提高决策过程的效率和效果。简而言之,Actor-Critic算法通过同时更新策略和价值函数,实现了在探索与利用之间的平衡,从而优化智能体的行为。
    赵****斌
    2024-06-27
    2
    0
  • 多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
    c****c
    2024-06-27
    21
    0
  • AI Agent多轮对话上下文处理举例
    华****裕
    2024-06-27
    5
    0
  • 如何选择视觉语言模型的训练方法
    z****n
    2024-06-27
    4
    0
  • 视觉语言模型在视频上的应用现状
    z****n
    2024-06-26
    6
    0
  • FlashAttention主要解决Transformer计算速度慢和存储占用高的问题。但与绝大多数Efficient Transformer 把改进方法集中在降低模型的FLOPS (floating point operations per second)不同,FlashAttention将优化重点放在了降低存储访问开销(Memory Access Cost ,MAC)上。
    CY
    2024-06-26
    2
    0
  • DBNet提出了一种文本检测模型。该模型将二值化操作插入了分割模型进行共同优化。每个像素点的阈值可以被计算得到。然而,标准的二值化是不可微的,所以提出了一个近似计算可微二值化(Differentiable Binarization, DB)。
    王****鹏
    2024-06-26
    1
    0
  • 朴素数据并行(DP)与分布式数据并行(DDP)。两者的总通讯量虽然相同,但DP存在负载不均的情况,大部分的通讯压力集中在Server上,而Server的通讯量与GPU数量呈线性关系,导致DP一般适用于单机多卡场景。而DDP通过采用Ring-AllReduce这一NCCL操作,使得通讯量均衡分布到每块GPU上,且该通讯量为一固定常量,不受GPU个数影响,因此可实现跨机器的训练。 介绍由微软开发的ZeRO(零冗余优化),它是DeepSpeed这一分布式训练框架的核心,被用来解决大模型训练中的显存开销问题。ZeRO的思想就是用通讯换显存。
    CY
    2024-06-26
    9
    0
  • 结合demo版本的flash attention代码,进行原理和代码解读。
    王****鹏
    2024-06-26
    7
    0
  • pytorch模型导出为Onnx模型后结果前后不一致,记录解决方案
    林****玉
    2024-06-26
    4
    0
  • TensorFlow.js 是由 Google TensorFlow 团队开发的开源客户端 JavaScript 库,它允许开发人员直接在 JavaScript 中创建、训练和部署机器学习模型。
    徐****洋
    2024-06-26
    3
    0
  • 随着人工智能和机器学习的飞速发展,人脸识别技术已经成为现代应用中的一个重要组成部分。无论是解锁智能手机、安全监控还是娱乐应用,人脸识别都发挥着至关重要的作用。本文将介绍如何使用TensorFlow.js,一个开源的JavaScript库,来在前端实现人脸识别功能。
    徐****洋
    2024-06-26
    0
    0
  • sora可以说是现在文生视频领域中效果最好的模型了,但OpenAI并未开源sora的全部技术,只是在官网上公开了一篇相关的技术文档,根据技术文档我们可以从中可以窥探一二,下面的内容就是根据技术文档来解析的。
    9****m
    2024-06-26
    11
    0
  • 2017年,google提出Tacotron模型,该模型包括声学模型和声码器两部分,从文本直接生成音频波形。其中,声学模型部分采取encoder-attention-decoder框架,以RNN作为主要网络结构。此后,在Tacotron的基础上,产生了Tacotron2,DurIAN,Non-Attentive Tacotron,Parallel Tacotron1/2等变体。本文对Tacotron系列的声学模型进行介绍。
    戴****茜
    2024-06-26
    3
    0
  • Deep Voice1/2基于传统SPSS流水线,用CNN进行增强。Deep Voice3采用encoder-attention-decoder 的结构,和Tacotron整体结构类似,但采用CNN而不是RNN作为主体网络。 本文对Deep Voice,Deep Voice2,Deep Voice3进行介绍。
    戴****茜
    2024-06-26
    0
    0
  • 【摘要】 2024年博主评选激励计划持续! 激励计划旨在奖励在天翼云社区博客积极发文和发表优质博文的博主!欢迎加入云驻计划:
  • Volcano 是一个用于高性能计算(HPC)和大数据应用的 Kubernetes 调度器。它专为需要复杂调度策略的工作负载设计,如机器学习、深度学习、批处理作业等。 Volcano 的架构由多个组件组成,每个组件负责不同的功能模块。其中Scheduler是负责Pod调度的组件,它由一系列action和插件组成。action定义了调度各环节中需要执行的动作;插件根据不同场景提供了action 中算法的具体实现细节。 本文详细解读Scheduler中插件,包括插件如何注册,一些常用的插件,以及插件如何实现。
  • YOLO-World论文调研
  • 思维链是一种人工智能技术,它通过模拟人类解决问题时的思考步骤,逐步构建起从问题到答案的逻辑链条。与传统的模式识别或统计学习方法不同,思维链强调推理过程的透明度和可解释性,使得AI的决策过程更加接近人类的思考方式。
  • 本文将介绍Transformers和DeepSpeed两项关键技术,并探讨它们在大语言模型中的应用。Transformers作为现代自然语言处理的基石,改变了语言模型的构建方式;而DeepSpeed则通过优化和加速训练过程,使得超大规模模型的训练成为可能。结合大语言模型的聊天应用,我们将展示这些技术是如何协同工作的。
  • 本文探讨了Transformers库与DeepSpeed的结合,以及如何将它们应用于大语言模型的聊天模板中。Transformers库提供了丰富的预训练模型和便捷的API,而DeepSpeed则通过优化和加速训练过程,使得训练超大规模模型变得更加可行。通过详细介绍这些技术,我们将展示如何有效地训练和部署高性能的大语言模型,以提升聊天机器人的响应速度和准确性。
  • 电信网络诈骗治理形势随互联网技术和 AI 技术的发展而不断变化。对电信网络诈骗犯罪治理来说,AI 技术的发展既加大了犯罪的不可预测性和司法应对的复杂性,也提供了治理的诸多可行性。
  • 使用Python的win32com库实现对Word的操作
  • 针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。
  • 为了提高人工智能系统对用户输入的响应质量,如何对prompt进行优化是目前的研究方向。目前,优化工作主要在模型响应用户的prompt后进行,依据用户的满意度来调整prompt。然而,这种方法依赖于用户初始输入prompt的质量。如果用户最初的prompt表达不明确或有误,即使经过优化,最终的prompt可能仍无法满足用户需求。为了解决这个问题,在初始prompt处理阶段引入了两个关键模块,意图理解模块,通过这个模块,系统能更深入分析用户输入的意图,确保捕捉到用户的真实需求;情感分析模块,这个模块帮助系统识别用户输入中的情感倾向,从而提供更加贴近用户情绪的响应。通过引入这些模块,增强了对用户输入的理解深度和准确度。在模型首次响应后,将继续根据用户的满意度反馈,对prompt进行进一步的优化,以实现更精准、更个性化的用户体验。这种优化系统不仅提升了用户满意度,还提高了智能化水平,使其能够更好地适应不同用户的需求和偏好。
  • 利用卡尔曼滤波算法对微服务系统的系统运行时间序列数据进行特征提取,既清除了数据中的噪音杂质,又凸显了真实系统故障的显著特征,为后续的故障诊断提供了有力的数据支持。
  • 调研了近年来端到端语音识别技术的发展概况,并整理对比了wenet上各个算法在aishell数据集上的性能。
  • RetroMAE是一种预训练框架,主要用于提升模型的语义表征能力。该框架基于经典的掩码自编码器(Masked Auto-Encoder, MAE)架构进行设计,其核心思想是在输入文本中进行掩码操作,然后让模型尝试恢复原始文本,以此学习到文本的深层语义结构。本文将从RetroMAE的论文出发,结合实际实验效果对该框架进行较为详细地介绍。
  • 接上文,继续介绍在conformer之后端到端语音识别技术的进展。
  • Actor-Critic算法是一种强化学习算法,它结合了策略评估(Critic)和策略改进(Actor)两个过程。Actor负责选择动作,而Critic则评估当前策略的好坏,两者相互协作,以提高决策过程的效率和效果。简而言之,Actor-Critic算法通过同时更新策略和价值函数,实现了在探索与利用之间的平衡,从而优化智能体的行为。
  • 多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
  • AI Agent多轮对话上下文处理举例
  • 如何选择视觉语言模型的训练方法
  • 视觉语言模型在视频上的应用现状
  • FlashAttention主要解决Transformer计算速度慢和存储占用高的问题。但与绝大多数Efficient Transformer 把改进方法集中在降低模型的FLOPS (floating point operations per second)不同,FlashAttention将优化重点放在了降低存储访问开销(Memory Access Cost ,MAC)上。
  • DBNet提出了一种文本检测模型。该模型将二值化操作插入了分割模型进行共同优化。每个像素点的阈值可以被计算得到。然而,标准的二值化是不可微的,所以提出了一个近似计算可微二值化(Differentiable Binarization, DB)。
  • 朴素数据并行(DP)与分布式数据并行(DDP)。两者的总通讯量虽然相同,但DP存在负载不均的情况,大部分的通讯压力集中在Server上,而Server的通讯量与GPU数量呈线性关系,导致DP一般适用于单机多卡场景。而DDP通过采用Ring-AllReduce这一NCCL操作,使得通讯量均衡分布到每块GPU上,且该通讯量为一固定常量,不受GPU个数影响,因此可实现跨机器的训练。 介绍由微软开发的ZeRO(零冗余优化),它是DeepSpeed这一分布式训练框架的核心,被用来解决大模型训练中的显存开销问题。ZeRO的思想就是用通讯换显存。
  • 结合demo版本的flash attention代码,进行原理和代码解读。
  • pytorch模型导出为Onnx模型后结果前后不一致,记录解决方案
  • TensorFlow.js 是由 Google TensorFlow 团队开发的开源客户端 JavaScript 库,它允许开发人员直接在 JavaScript 中创建、训练和部署机器学习模型。
  • 随着人工智能和机器学习的飞速发展,人脸识别技术已经成为现代应用中的一个重要组成部分。无论是解锁智能手机、安全监控还是娱乐应用,人脸识别都发挥着至关重要的作用。本文将介绍如何使用TensorFlow.js,一个开源的JavaScript库,来在前端实现人脸识别功能。
  • sora可以说是现在文生视频领域中效果最好的模型了,但OpenAI并未开源sora的全部技术,只是在官网上公开了一篇相关的技术文档,根据技术文档我们可以从中可以窥探一二,下面的内容就是根据技术文档来解析的。
  • 2017年,google提出Tacotron模型,该模型包括声学模型和声码器两部分,从文本直接生成音频波形。其中,声学模型部分采取encoder-attention-decoder框架,以RNN作为主要网络结构。此后,在Tacotron的基础上,产生了Tacotron2,DurIAN,Non-Attentive Tacotron,Parallel Tacotron1/2等变体。本文对Tacotron系列的声学模型进行介绍。
  • Deep Voice1/2基于传统SPSS流水线,用CNN进行增强。Deep Voice3采用encoder-attention-decoder 的结构,和Tacotron整体结构类似,但采用CNN而不是RNN作为主体网络。 本文对Deep Voice,Deep Voice2,Deep Voice3进行介绍。
  • 点击加载更多
#AI
关注该标签
专栏文章 520
视频 1
问答 3
  • 【摘要】 2024年博主评选激励计划持续! 激励计划旨在奖励在天翼云社区博客积极发文和发表优质博文的博主!欢迎加入云驻计划:
    刘****渺
    2024-05-16
    36
    2
  • Volcano 是一个用于高性能计算(HPC)和大数据应用的 Kubernetes 调度器。它专为需要复杂调度策略的工作负载设计,如机器学习、深度学习、批处理作业等。 Volcano 的架构由多个组件组成,每个组件负责不同的功能模块。其中Scheduler是负责Pod调度的组件,它由一系列action和插件组成。action定义了调度各环节中需要执行的动作;插件根据不同场景提供了action 中算法的具体实现细节。 本文详细解读Scheduler中插件,包括插件如何注册,一些常用的插件,以及插件如何实现。
    h****m
    2024-07-03
    1
    0
  • YOLO-World论文调研
    pandame
    2024-07-03
    6
    0
  • 思维链是一种人工智能技术,它通过模拟人类解决问题时的思考步骤,逐步构建起从问题到答案的逻辑链条。与传统的模式识别或统计学习方法不同,思维链强调推理过程的透明度和可解释性,使得AI的决策过程更加接近人类的思考方式。
    张****凡
    2024-07-02
    0
    0
  • 华****裕
    2024-07-01
    1
    0
  • 本文将介绍Transformers和DeepSpeed两项关键技术,并探讨它们在大语言模型中的应用。Transformers作为现代自然语言处理的基石,改变了语言模型的构建方式;而DeepSpeed则通过优化和加速训练过程,使得超大规模模型的训练成为可能。结合大语言模型的聊天应用,我们将展示这些技术是如何协同工作的。
    梁****瑜
    2024-07-01
    4
    0
  • 本文探讨了Transformers库与DeepSpeed的结合,以及如何将它们应用于大语言模型的聊天模板中。Transformers库提供了丰富的预训练模型和便捷的API,而DeepSpeed则通过优化和加速训练过程,使得训练超大规模模型变得更加可行。通过详细介绍这些技术,我们将展示如何有效地训练和部署高性能的大语言模型,以提升聊天机器人的响应速度和准确性。
    梁****瑜
    2024-07-01
    2
    0
  • 电信网络诈骗治理形势随互联网技术和 AI 技术的发展而不断变化。对电信网络诈骗犯罪治理来说,AI 技术的发展既加大了犯罪的不可预测性和司法应对的复杂性,也提供了治理的诸多可行性。
    赵****瑀
    2024-07-01
    9
    0
  • 使用Python的win32com库实现对Word的操作
    程****智
    2024-07-01
    1
    0
  • 针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。
    w****n
    2024-07-01
    1
    0
  • 为了提高人工智能系统对用户输入的响应质量,如何对prompt进行优化是目前的研究方向。目前,优化工作主要在模型响应用户的prompt后进行,依据用户的满意度来调整prompt。然而,这种方法依赖于用户初始输入prompt的质量。如果用户最初的prompt表达不明确或有误,即使经过优化,最终的prompt可能仍无法满足用户需求。为了解决这个问题,在初始prompt处理阶段引入了两个关键模块,意图理解模块,通过这个模块,系统能更深入分析用户输入的意图,确保捕捉到用户的真实需求;情感分析模块,这个模块帮助系统识别用户输入中的情感倾向,从而提供更加贴近用户情绪的响应。通过引入这些模块,增强了对用户输入的理解深度和准确度。在模型首次响应后,将继续根据用户的满意度反馈,对prompt进行进一步的优化,以实现更精准、更个性化的用户体验。这种优化系统不仅提升了用户满意度,还提高了智能化水平,使其能够更好地适应不同用户的需求和偏好。
    翟****鄀
    2024-06-28
    1
    0
  • 利用卡尔曼滤波算法对微服务系统的系统运行时间序列数据进行特征提取,既清除了数据中的噪音杂质,又凸显了真实系统故障的显著特征,为后续的故障诊断提供了有力的数据支持。
    l****n
    2024-06-28
    3
    0
  • 调研了近年来端到端语音识别技术的发展概况,并整理对比了wenet上各个算法在aishell数据集上的性能。
    方****祥
    2024-06-28
    1
    0
  • RetroMAE是一种预训练框架,主要用于提升模型的语义表征能力。该框架基于经典的掩码自编码器(Masked Auto-Encoder, MAE)架构进行设计,其核心思想是在输入文本中进行掩码操作,然后让模型尝试恢复原始文本,以此学习到文本的深层语义结构。本文将从RetroMAE的论文出发,结合实际实验效果对该框架进行较为详细地介绍。
    贺****茜
    2024-06-28
    2
    0
  • 接上文,继续介绍在conformer之后端到端语音识别技术的进展。
    方****祥
    2024-06-28
    1
    0
  • Actor-Critic算法是一种强化学习算法,它结合了策略评估(Critic)和策略改进(Actor)两个过程。Actor负责选择动作,而Critic则评估当前策略的好坏,两者相互协作,以提高决策过程的效率和效果。简而言之,Actor-Critic算法通过同时更新策略和价值函数,实现了在探索与利用之间的平衡,从而优化智能体的行为。
    赵****斌
    2024-06-27
    2
    0
  • 多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
    c****c
    2024-06-27
    21
    0
  • AI Agent多轮对话上下文处理举例
    华****裕
    2024-06-27
    5
    0
  • 如何选择视觉语言模型的训练方法
    z****n
    2024-06-27
    4
    0
  • 视觉语言模型在视频上的应用现状
    z****n
    2024-06-26
    6
    0
  • FlashAttention主要解决Transformer计算速度慢和存储占用高的问题。但与绝大多数Efficient Transformer 把改进方法集中在降低模型的FLOPS (floating point operations per second)不同,FlashAttention将优化重点放在了降低存储访问开销(Memory Access Cost ,MAC)上。
    CY
    2024-06-26
    2
    0
  • DBNet提出了一种文本检测模型。该模型将二值化操作插入了分割模型进行共同优化。每个像素点的阈值可以被计算得到。然而,标准的二值化是不可微的,所以提出了一个近似计算可微二值化(Differentiable Binarization, DB)。
    王****鹏
    2024-06-26
    1
    0
  • 朴素数据并行(DP)与分布式数据并行(DDP)。两者的总通讯量虽然相同,但DP存在负载不均的情况,大部分的通讯压力集中在Server上,而Server的通讯量与GPU数量呈线性关系,导致DP一般适用于单机多卡场景。而DDP通过采用Ring-AllReduce这一NCCL操作,使得通讯量均衡分布到每块GPU上,且该通讯量为一固定常量,不受GPU个数影响,因此可实现跨机器的训练。 介绍由微软开发的ZeRO(零冗余优化),它是DeepSpeed这一分布式训练框架的核心,被用来解决大模型训练中的显存开销问题。ZeRO的思想就是用通讯换显存。
    CY
    2024-06-26
    9
    0
  • 结合demo版本的flash attention代码,进行原理和代码解读。
    王****鹏
    2024-06-26
    7
    0
  • pytorch模型导出为Onnx模型后结果前后不一致,记录解决方案
    林****玉
    2024-06-26
    4
    0
  • TensorFlow.js 是由 Google TensorFlow 团队开发的开源客户端 JavaScript 库,它允许开发人员直接在 JavaScript 中创建、训练和部署机器学习模型。
    徐****洋
    2024-06-26
    3
    0
  • 随着人工智能和机器学习的飞速发展,人脸识别技术已经成为现代应用中的一个重要组成部分。无论是解锁智能手机、安全监控还是娱乐应用,人脸识别都发挥着至关重要的作用。本文将介绍如何使用TensorFlow.js,一个开源的JavaScript库,来在前端实现人脸识别功能。
    徐****洋
    2024-06-26
    0
    0
  • sora可以说是现在文生视频领域中效果最好的模型了,但OpenAI并未开源sora的全部技术,只是在官网上公开了一篇相关的技术文档,根据技术文档我们可以从中可以窥探一二,下面的内容就是根据技术文档来解析的。
    9****m
    2024-06-26
    11
    0
  • 2017年,google提出Tacotron模型,该模型包括声学模型和声码器两部分,从文本直接生成音频波形。其中,声学模型部分采取encoder-attention-decoder框架,以RNN作为主要网络结构。此后,在Tacotron的基础上,产生了Tacotron2,DurIAN,Non-Attentive Tacotron,Parallel Tacotron1/2等变体。本文对Tacotron系列的声学模型进行介绍。
    戴****茜
    2024-06-26
    3
    0
  • Deep Voice1/2基于传统SPSS流水线,用CNN进行增强。Deep Voice3采用encoder-attention-decoder 的结构,和Tacotron整体结构类似,但采用CNN而不是RNN作为主体网络。 本文对Deep Voice,Deep Voice2,Deep Voice3进行介绍。
    戴****茜
    2024-06-26
    0
    0
  • 【摘要】 2024年博主评选激励计划持续! 激励计划旨在奖励在天翼云社区博客积极发文和发表优质博文的博主!欢迎加入云驻计划:
  • Volcano 是一个用于高性能计算(HPC)和大数据应用的 Kubernetes 调度器。它专为需要复杂调度策略的工作负载设计,如机器学习、深度学习、批处理作业等。 Volcano 的架构由多个组件组成,每个组件负责不同的功能模块。其中Scheduler是负责Pod调度的组件,它由一系列action和插件组成。action定义了调度各环节中需要执行的动作;插件根据不同场景提供了action 中算法的具体实现细节。 本文详细解读Scheduler中插件,包括插件如何注册,一些常用的插件,以及插件如何实现。
  • YOLO-World论文调研
  • 思维链是一种人工智能技术,它通过模拟人类解决问题时的思考步骤,逐步构建起从问题到答案的逻辑链条。与传统的模式识别或统计学习方法不同,思维链强调推理过程的透明度和可解释性,使得AI的决策过程更加接近人类的思考方式。
  • 本文将介绍Transformers和DeepSpeed两项关键技术,并探讨它们在大语言模型中的应用。Transformers作为现代自然语言处理的基石,改变了语言模型的构建方式;而DeepSpeed则通过优化和加速训练过程,使得超大规模模型的训练成为可能。结合大语言模型的聊天应用,我们将展示这些技术是如何协同工作的。
  • 本文探讨了Transformers库与DeepSpeed的结合,以及如何将它们应用于大语言模型的聊天模板中。Transformers库提供了丰富的预训练模型和便捷的API,而DeepSpeed则通过优化和加速训练过程,使得训练超大规模模型变得更加可行。通过详细介绍这些技术,我们将展示如何有效地训练和部署高性能的大语言模型,以提升聊天机器人的响应速度和准确性。
  • 电信网络诈骗治理形势随互联网技术和 AI 技术的发展而不断变化。对电信网络诈骗犯罪治理来说,AI 技术的发展既加大了犯罪的不可预测性和司法应对的复杂性,也提供了治理的诸多可行性。
  • 使用Python的win32com库实现对Word的操作
  • 针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。
  • 为了提高人工智能系统对用户输入的响应质量,如何对prompt进行优化是目前的研究方向。目前,优化工作主要在模型响应用户的prompt后进行,依据用户的满意度来调整prompt。然而,这种方法依赖于用户初始输入prompt的质量。如果用户最初的prompt表达不明确或有误,即使经过优化,最终的prompt可能仍无法满足用户需求。为了解决这个问题,在初始prompt处理阶段引入了两个关键模块,意图理解模块,通过这个模块,系统能更深入分析用户输入的意图,确保捕捉到用户的真实需求;情感分析模块,这个模块帮助系统识别用户输入中的情感倾向,从而提供更加贴近用户情绪的响应。通过引入这些模块,增强了对用户输入的理解深度和准确度。在模型首次响应后,将继续根据用户的满意度反馈,对prompt进行进一步的优化,以实现更精准、更个性化的用户体验。这种优化系统不仅提升了用户满意度,还提高了智能化水平,使其能够更好地适应不同用户的需求和偏好。
  • 利用卡尔曼滤波算法对微服务系统的系统运行时间序列数据进行特征提取,既清除了数据中的噪音杂质,又凸显了真实系统故障的显著特征,为后续的故障诊断提供了有力的数据支持。
  • 调研了近年来端到端语音识别技术的发展概况,并整理对比了wenet上各个算法在aishell数据集上的性能。
  • RetroMAE是一种预训练框架,主要用于提升模型的语义表征能力。该框架基于经典的掩码自编码器(Masked Auto-Encoder, MAE)架构进行设计,其核心思想是在输入文本中进行掩码操作,然后让模型尝试恢复原始文本,以此学习到文本的深层语义结构。本文将从RetroMAE的论文出发,结合实际实验效果对该框架进行较为详细地介绍。
  • 接上文,继续介绍在conformer之后端到端语音识别技术的进展。
  • Actor-Critic算法是一种强化学习算法,它结合了策略评估(Critic)和策略改进(Actor)两个过程。Actor负责选择动作,而Critic则评估当前策略的好坏,两者相互协作,以提高决策过程的效率和效果。简而言之,Actor-Critic算法通过同时更新策略和价值函数,实现了在探索与利用之间的平衡,从而优化智能体的行为。
  • 多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
  • AI Agent多轮对话上下文处理举例
  • 如何选择视觉语言模型的训练方法
  • 视觉语言模型在视频上的应用现状
  • FlashAttention主要解决Transformer计算速度慢和存储占用高的问题。但与绝大多数Efficient Transformer 把改进方法集中在降低模型的FLOPS (floating point operations per second)不同,FlashAttention将优化重点放在了降低存储访问开销(Memory Access Cost ,MAC)上。
  • DBNet提出了一种文本检测模型。该模型将二值化操作插入了分割模型进行共同优化。每个像素点的阈值可以被计算得到。然而,标准的二值化是不可微的,所以提出了一个近似计算可微二值化(Differentiable Binarization, DB)。
  • 朴素数据并行(DP)与分布式数据并行(DDP)。两者的总通讯量虽然相同,但DP存在负载不均的情况,大部分的通讯压力集中在Server上,而Server的通讯量与GPU数量呈线性关系,导致DP一般适用于单机多卡场景。而DDP通过采用Ring-AllReduce这一NCCL操作,使得通讯量均衡分布到每块GPU上,且该通讯量为一固定常量,不受GPU个数影响,因此可实现跨机器的训练。 介绍由微软开发的ZeRO(零冗余优化),它是DeepSpeed这一分布式训练框架的核心,被用来解决大模型训练中的显存开销问题。ZeRO的思想就是用通讯换显存。
  • 结合demo版本的flash attention代码,进行原理和代码解读。
  • pytorch模型导出为Onnx模型后结果前后不一致,记录解决方案
  • TensorFlow.js 是由 Google TensorFlow 团队开发的开源客户端 JavaScript 库,它允许开发人员直接在 JavaScript 中创建、训练和部署机器学习模型。
  • 随着人工智能和机器学习的飞速发展,人脸识别技术已经成为现代应用中的一个重要组成部分。无论是解锁智能手机、安全监控还是娱乐应用,人脸识别都发挥着至关重要的作用。本文将介绍如何使用TensorFlow.js,一个开源的JavaScript库,来在前端实现人脸识别功能。
  • sora可以说是现在文生视频领域中效果最好的模型了,但OpenAI并未开源sora的全部技术,只是在官网上公开了一篇相关的技术文档,根据技术文档我们可以从中可以窥探一二,下面的内容就是根据技术文档来解析的。
  • 2017年,google提出Tacotron模型,该模型包括声学模型和声码器两部分,从文本直接生成音频波形。其中,声学模型部分采取encoder-attention-decoder框架,以RNN作为主要网络结构。此后,在Tacotron的基础上,产生了Tacotron2,DurIAN,Non-Attentive Tacotron,Parallel Tacotron1/2等变体。本文对Tacotron系列的声学模型进行介绍。
  • Deep Voice1/2基于传统SPSS流水线,用CNN进行增强。Deep Voice3采用encoder-attention-decoder 的结构,和Tacotron整体结构类似,但采用CNN而不是RNN作为主体网络。 本文对Deep Voice,Deep Voice2,Deep Voice3进行介绍。
  • 点击加载更多