pytorch compile ------ backend详解

torch.compile 是 PyTorch 2.0 引入的一个重要特性，它通过将 PyTorch 模型编译成优化后的计算图，从而加速模型的训练和推理。backend 参数用于指定编译所使用的后端编译器，不同的后端会应用不同的优化策略。 1. 作用 torch.compile 的主要作用是将 Py

2026-01-10

cuda编程 --------- warp级规约操作 __shfl_xor_sync

__shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令（shuffle instruction），用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值，而无需通过共享内存或全局内存。这样可以实现高效的线程间通信，并减少共享内存的使用

2025-12-07

TensorRT ---- Myelin

1. Myelin 的关键特性 1.1 基于图的执行 // 概念上的流程原始计算图 → TensorRT优化 → Myelin编译 → 高效GPU代码执行 1.2 高度优化算子融合：将多个算子合并为单个GPU内核内存优化：减少内存访问次数和带宽使用

2025-12-01

TensorRT------性能优化

1 开启融合 1.1 Layer融合 TensorRT试图在构建阶段在网络中执行许多不同类型的优化。在第一阶段，尽可能将各层融合。融合将网络转化为更简单的形式，但保持了相同的整体行为。在内部，许多层实现具有在创建网络时无法直接访问的额外参数和选项。相反，融合优化步骤检测支持的操作模式，并使用内部选项

2025-11-30

TensorRT ---- 使用自定义layer扩展 TensorRT

TensorRT支持众多layer，并且功能还在进行持续扩展；然而，可能存在支持的layer无法满足模型特定需求的情况。此时，可通过实现自定义层（通常称为插件）来扩展TensorRT。 TensorRT包含可加载至应用程序的标准插件。如需查看开源插件列表，请参阅GitHub：TensorRT插件。

2025-11-29

TensorRT 中的量化

1. 量化入门 TensorRT通过支持量化来实现高性能推理，量化是一种通过用较低精度的数据类型表示浮点值来减少模型大小并加速计算的技术。除了原始性能之外，量化对于减少内存占用和提高能源效率至关重要，使其非常适合部署在资源受限的边缘设备上，并在大规模数据中心部署中实现更高的成本效益。 TensorR

2025-11-23 量化 hpc

使用TensorRT-Model-Optimizerd对ONNX模型PTQ量化

此ONNX PTQ工具包提供了一套全面的工具，旨在通过量化优化ONNX（开放神经网络交换）模型。我们的工具包旨在帮助开发人员在使用TensorRT部署时，在不影响神经网络准确性的情况下提高性能、减小模型大小和加快推理时间。量化是一种有效的模型优化技术，可以压缩模型。使用模型优化器进行量化可以将模型

2025-11-18 量化

CUDA性能优化 ---- 通过矢量化内存访问提高性能

许多CUDA内核都是带宽受限的，新硬件中flops与带宽之比的增加导致了更多带宽受限的内核。这使得采取措施缓解代码中的带宽瓶颈变得非常重要。在这篇文章中，我将向您展示如何在CUDA C++中使用向量加载和存储来帮助提高带宽利用率，同时减少执行的指令数量让我们从以下简单的内存复制内核开始 __glo

2025-09-20

PTX矩阵乘加指令详解

本文档描述了PTX(Parallel Thread Execution)，一种低级并行线程执行虚拟机和指令集架构（ISA）。PTX将GPU暴露为数据并行计算设备。指令描述的格式与语义本节介绍每个PTX指令。除了指令的名称和格式外，还描述了语义，然后是一些示例，试图显示指令的几种可能实例化。 PT

2025-09-03

CUTLASS从入门到放弃系列(一) ------ 简介

简介 CUTLASS 4.2.0 CUTLASS 4.2.0 - Aug 2025 CUTALSS是一组抽象概念，用于在CUDA中实现高性能矩阵矩阵乘法（GEMM）和所有级别和规模的相关计算。它结合了分层分解和数据移动的策略。CUTLASS将这些“移动部件”分解为可重用的模块化软件组件和抽象。概念

2025-08-27