- UVM中一种创建base sequence的方法介绍c****c2024-10-2800
- 收包模式及模式协商c****m2024-10-11280
- 在自回归(Auto-regressive)语言模型的推理过程中,随着新词汇的不断生成,输入序列的长度持续增加,这对计算效率提出了严峻挑战。FlashAttention算子,作为一种高效的注意力机制实现,尤其在增量推理场景下展现出其独特优势。在此场景下,FlashAttention的query维度(S轴)被固定为1,而key和value则通过KV Cache机制,将先前推理过程中的状态信息累积并叠加,以适应每个Batch可能不同的实际长度。值得注意的是,尽管输入数据经过padding处理以维持固定长度,但FlashAttention能够灵活应对这种变化。此外,在全量推理场景中,尽管query的S轴大小不再固定,但FlashAttention的推理流程与增量推理保持一致,确保了算法的通用性和高效性。wanyw2024-09-18180
- UVM field automation机制的使用,让object类中的变量使用更加便捷。但对于某些协议,总线分时复用多种报文类型,也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。余泊江2024-09-04100
- 凭借着更高的可靠性、更好的环境耐受性、更快的生产效率,国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。悟****空2024-08-22580
- 本文将介绍Vunit平台的特点和运作方式,并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具,它具有许多强大的功能,可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化,自动化的测试平台,从而提高FPGA设计代码的质量和效率。夏蒙2024-07-26772
- 这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core,有助于理解BF3的架构和支持的功能。c****62024-06-211140
- 服务器中的导热材料的介绍石金帅2024-05-0750
- 智能网卡存储业务验证过程中,从host侧发送到soc侧的IO读写存储报文,在soc侧需要对IO读写报文进行解析并响应,如果是blk write命令,需要回复blk cpl完成响应,如果是blk read命令,需要返回读数据与blk cpl响应。黄****超2024-04-25131
- 现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速,或者使用FPGA集群实现模型的分布式推理,但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化,通用性不够,同时资源消耗大,很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元,构建常用的算子,比如卷积算子、浮点累加器算子等等,可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术,实现vf级的算子动态调度,进一步增加资源的灵活度。彭薛葵2024-03-21591
- CPU作为计算机设备的运算和控制核心,负责指令读取、译码与执行,因研发门槛高、生态构建难,被认为是集成电路产业中的“珠穆朗玛峰”。1****n2023-12-2720
- 本文介绍了DSA SVM功能的实现以及需要的硬件支持。l****n2023-12-261754
- 当前,在云计算、数字经济等需求带动下,信息呈爆炸式增长,导致数据量也成倍增长,硬盘容量持续飙升,单盘容量已可达到TB级别,半导体存储登上了历史的舞台。和传统磁盘存储介质相比,半导体存储介质具有天然的优势,无论在可靠性、性能、功耗等方面都远远超越传统机械磁盘。乘风2023-12-051020
- 一文搞懂芯粒(Chiplet)技术c****n2023-12-052850
- 芯片设计流片、验证、成本c****n2023-12-05410
- 在过去的十年中,半导体存储器领域最重要的现象是闪存市场的爆炸式增长,其推动力来自手机和其他类型的便携式电子设备。强大的综合技术、灵活性和成本使闪存在大多数非易失性存储器应用中成为一种广泛使用、成熟稳固的技术。如今,闪存的销售额在整个半导体市场中占有相当大的比重。乘风2023-11-24290
- ExaGear是一款二进制指令动态翻译软件,运行在ARM64服务器上,通过将x86的指令在运行时翻译为ARM64指令并执行,使得绝大部分Linux on x86应用无需重新编译就可运行在ARM64服务器上。ExaGear主要有两个组件:指令翻译引擎和x86运行环境,指令翻译引擎是一个“中间件”软件解决方案,位于x86应用程序与ARMv8架构服务器之间。x86应用启动时,ExaGear的指令翻译引擎接管x86应用的运行,使用二进制翻译技术将它们转换为兼容ARM的代码,再执行x86应用程序;x86运行环境是一个包含所有标准库、实用程序的x86应用执行环境。w****n2023-10-261700
- 龙芯平台二进制翻译是混合二进制翻译系统,LATX非纯软件的实现,除了用户态来实现的翻译的模块,CPU中为二进制翻译增加了一些特殊指令和一些专门的硬件设计来加速翻译;w****n2023-10-254920
- Intel Data Streaming Accelerator (DSA) 是在第四代可扩展至强处理上新加入的片上加速器,这一款加速器是由前一代的 CBDMA (Crystal Beach DMA)加强改进而来。在传统的DMA性能大幅提升的基础上, 加入了新的操作例如计算crc,比较两片内存区域,dualcast到两片内存区域的支持,并且同时支持SIOV类型的虚拟化和persistent内存的访问以及共享虚拟内存的功能。 这篇文章会简要介绍 DSA设备的功能,使用方法和一些应用使用DSA加速之后的性能表现。l****n2023-10-202360
- UVM积分板(scoreboard)是UVM验证平台必不可少的验证组件,用来检查待测设计(DUT)/参考模型(REF)的行为。UVM不提供积分板的实现方式,只提供uvm_scoreboard基类扩展,具体实现方式留给实现者。uvm_syoscb开源积分板,可以满足多种比较方法与模型,比较方法包括乱序比较(out of order)、顺序比较(in order)、按产生者顺序比较(in order by producer);模型包括设计模型(RTL,门级)、定时/非定时参考模型(SystemVerilog、SystemC、Python)以及物理设备。uvm_syoscb以其高重用性、高适配性,可以快速在UVM验证平台集成使用,加快验证平台的开发与测试,提高验证效率。本文详细介绍如何在UVM验证平台中集成开源积分板uvm_syoscb。黄****超2023-10-131182
- 本文介绍了传统机器学习随机森林算法的相关概念和特点,然后介绍了随机森林算法在流量识别的方法、优势及挑战,并就这些挑战提出了FPGA加速方案,说明了相应的加速成果,最后对FPGA在随机森林算法领域的实现优势进行了总结及展望。彭薛葵2023-09-211081
- 在FPGA设计中,有时要使用到mac ip,像Intel的某些mac ip,对tx方向有整包连续接收的要求,即valid在sop和eop之间必须拉高,这就对相关的fpga设计提出了整包发送的要求。本文搭建platform design实现整包发送功能。彭薛葵2023-09-19360
共 24 条
- 1
页
- UVM中一种创建base sequence的方法介绍
- 简单介绍PCIE的信用作用与分类
- 收包模式及模式协商
- 在自回归(Auto-regressive)语言模型的推理过程中,随着新词汇的不断生成,输入序列的长度持续增加,这对计算效率提出了严峻挑战。FlashAttention算子,作为一种高效的注意力机制实现,尤其在增量推理场景下展现出其独特优势。在此场景下,FlashAttention的query维度(S轴)被固定为1,而key和value则通过KV Cache机制,将先前推理过程中的状态信息累积并叠加,以适应每个Batch可能不同的实际长度。值得注意的是,尽管输入数据经过padding处理以维持固定长度,但FlashAttention能够灵活应对这种变化。此外,在全量推理场景中,尽管query的S轴大小不再固定,但FlashAttention的推理流程与增量推理保持一致,确保了算法的通用性和高效性。
- UVM field automation机制的使用,让object类中的变量使用更加便捷。但对于某些协议,总线分时复用多种报文类型,也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。
- 凭借着更高的可靠性、更好的环境耐受性、更快的生产效率,国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。
- 本文将介绍Vunit平台的特点和运作方式,并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具,它具有许多强大的功能,可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化,自动化的测试平台,从而提高FPGA设计代码的质量和效率。
- 这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core,有助于理解BF3的架构和支持的功能。
- 服务器中的导热材料的介绍
- 智能网卡存储业务验证过程中,从host侧发送到soc侧的IO读写存储报文,在soc侧需要对IO读写报文进行解析并响应,如果是blk write命令,需要回复blk cpl完成响应,如果是blk read命令,需要返回读数据与blk cpl响应。
- 现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速,或者使用FPGA集群实现模型的分布式推理,但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化,通用性不够,同时资源消耗大,很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元,构建常用的算子,比如卷积算子、浮点累加器算子等等,可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术,实现vf级的算子动态调度,进一步增加资源的灵活度。
- CPU作为计算机设备的运算和控制核心,负责指令读取、译码与执行,因研发门槛高、生态构建难,被认为是集成电路产业中的“珠穆朗玛峰”。
- 本文介绍了DSA SVM功能的实现以及需要的硬件支持。
- 当前,在云计算、数字经济等需求带动下,信息呈爆炸式增长,导致数据量也成倍增长,硬盘容量持续飙升,单盘容量已可达到TB级别,半导体存储登上了历史的舞台。和传统磁盘存储介质相比,半导体存储介质具有天然的优势,无论在可靠性、性能、功耗等方面都远远超越传统机械磁盘。
- 一文搞懂芯粒(Chiplet)技术
- 芯片设计流片、验证、成本
- 在过去的十年中,半导体存储器领域最重要的现象是闪存市场的爆炸式增长,其推动力来自手机和其他类型的便携式电子设备。强大的综合技术、灵活性和成本使闪存在大多数非易失性存储器应用中成为一种广泛使用、成熟稳固的技术。如今,闪存的销售额在整个半导体市场中占有相当大的比重。
- ExaGear是一款二进制指令动态翻译软件,运行在ARM64服务器上,通过将x86的指令在运行时翻译为ARM64指令并执行,使得绝大部分Linux on x86应用无需重新编译就可运行在ARM64服务器上。ExaGear主要有两个组件:指令翻译引擎和x86运行环境,指令翻译引擎是一个“中间件”软件解决方案,位于x86应用程序与ARMv8架构服务器之间。x86应用启动时,ExaGear的指令翻译引擎接管x86应用的运行,使用二进制翻译技术将它们转换为兼容ARM的代码,再执行x86应用程序;x86运行环境是一个包含所有标准库、实用程序的x86应用执行环境。
- 龙芯平台二进制翻译是混合二进制翻译系统,LATX非纯软件的实现,除了用户态来实现的翻译的模块,CPU中为二进制翻译增加了一些特殊指令和一些专门的硬件设计来加速翻译;
- Intel Data Streaming Accelerator (DSA) 是在第四代可扩展至强处理上新加入的片上加速器,这一款加速器是由前一代的 CBDMA (Crystal Beach DMA)加强改进而来。在传统的DMA性能大幅提升的基础上, 加入了新的操作例如计算crc,比较两片内存区域,dualcast到两片内存区域的支持,并且同时支持SIOV类型的虚拟化和persistent内存的访问以及共享虚拟内存的功能。 这篇文章会简要介绍 DSA设备的功能,使用方法和一些应用使用DSA加速之后的性能表现。
- UVM积分板(scoreboard)是UVM验证平台必不可少的验证组件,用来检查待测设计(DUT)/参考模型(REF)的行为。UVM不提供积分板的实现方式,只提供uvm_scoreboard基类扩展,具体实现方式留给实现者。uvm_syoscb开源积分板,可以满足多种比较方法与模型,比较方法包括乱序比较(out of order)、顺序比较(in order)、按产生者顺序比较(in order by producer);模型包括设计模型(RTL,门级)、定时/非定时参考模型(SystemVerilog、SystemC、Python)以及物理设备。uvm_syoscb以其高重用性、高适配性,可以快速在UVM验证平台集成使用,加快验证平台的开发与测试,提高验证效率。本文详细介绍如何在UVM验证平台中集成开源积分板uvm_syoscb。
- 中央处理器,英文名称Central Processing Unit,简称CPU,是计算机的核心,负责解释计算机指令以及处理计算机软件中的数据,主要包括两个部分: 控制器:程序计数器PC、指令寄存器IR、指令译码器、时序信号发生器、微程序控制器... 运算器:算术逻辑部件ALU、暂存寄存器、累加寄存器、通用寄存器、标志寄存器... 计算机系统中所有软件层的操作,最终都将通过指令集映射为CPU的操作。
- 本文介绍了传统机器学习随机森林算法的相关概念和特点,然后介绍了随机森林算法在流量识别的方法、优势及挑战,并就这些挑战提出了FPGA加速方案,说明了相应的加速成果,最后对FPGA在随机森林算法领域的实现优势进行了总结及展望。
- 在FPGA设计中,有时要使用到mac ip,像Intel的某些mac ip,对tx方向有整包连续接收的要求,即valid在sop和eop之间必须拉高,这就对相关的fpga设计提出了整包发送的要求。本文搭建platform design实现整包发送功能。
没有更多了