晓安哥

晓安哥http://localhost:8080晓安哥Halo v2.21.0zh-cnhttp://localhost:8080/upload/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20250809174144_3.jpg晓安哥http://localhost:8080Tue, 12 May 2026 14:53:22 GMT<![CDATA[pytorch compile ------ backend详解]]>http://localhost:8080/archives/pytorch-compile--------backendxiang-jietorch.compile 是 PyTorch 2.0 引入的一个重要特性，它通过将 PyTorch 模型编译成优化后的计算图，从而加速模型的训练和推理。backend 参数用于指定编译所使用的后端编译器，不同的后端会应用不同的优化策略。 1. 作用 torch.compile 的主要作用是将 Py]]>/archives/pytorch-compile--------backendxiang-jieAdministratorSat, 10 Jan 2026 12:52:33 GMT<![CDATA[cuda编程 --------- warp级规约操作 __shfl_xor_sync]]>http://localhost:8080/archives/cudabian-cheng-----------__shfl_xor_sync__shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令（shuffle instruction），用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值，而无需通过共享内存或全局内存。这样可以实现高效的线程间通信，并减少共享内存的使用]]>/archives/cudabian-cheng-----------__shfl_xor_syncAdministratorSun, 7 Dec 2025 11:16:10 GMT<![CDATA[TensorRT ---- Myelin]]>http://localhost:8080/archives/tensorrt1. Myelin 的关键特性 1.1 基于图的执行 // 概念上的流程原始计算图 → TensorRT优化 → Myelin编译 → 高效GPU代码执行 1.2 高度优化算子融合：将多个算子合并为单个GPU内核内存优化：减少内存访问次数和带宽使用]]>/archives/tensorrtAdministratorMon, 1 Dec 2025 09:17:11 GMT<![CDATA[TensorRT------性能优化]]>http://localhost:8080/archives/tensorrtzui-jia-shi-jian1 开启融合 1.1 Layer融合 TensorRT试图在构建阶段在网络中执行许多不同类型的优化。在第一阶段，尽可能将各层融合。融合将网络转化为更简单的形式，但保持了相同的整体行为。在内部，许多层实现具有在创建网络时无法直接访问的额外参数和选项。相反，融合优化步骤检测支持的操作模式，并使用内部选项]]>/archives/tensorrtzui-jia-shi-jianAdministratorSun, 30 Nov 2025 12:44:29 GMT<![CDATA[TensorRT ---- 使用自定义layer扩展 TensorRT]]>http://localhost:8080/archives/tensorrt------shi-yong-zi-ding-yi-layerkuo-zhan-tensorrtTensorRT支持众多layer，并且功能还在进行持续扩展；然而，可能存在支持的layer无法满足模型特定需求的情况。此时，可通过实现自定义层（通常称为插件）来扩展TensorRT。 TensorRT包含可加载至应用程序的标准插件。如需查看开源插件列表，请参阅GitHub：TensorRT插件。]]>/archives/tensorrt------shi-yong-zi-ding-yi-layerkuo-zhan-tensorrtAdministratorSat, 29 Nov 2025 13:30:24 GMT<![CDATA[TensorRT 中的量化]]>http://localhost:8080/archives/tensorrt-shi-yong-liang-hua-lei-xing1. 量化入门 TensorRT通过支持量化来实现高性能推理，量化是一种通过用较低精度的数据类型表示浮点值来减少模型大小并加速计算的技术。除了原始性能之外，量化对于减少内存占用和提高能源效率至关重要，使其非常适合部署在资源受限的边缘设备上，并在大规模数据中心部署中实现更高的成本效益。 TensorR]]>/archives/tensorrt-shi-yong-liang-hua-lei-xingAdministrator量化hpcSun, 23 Nov 2025 12:32:04 GMT<![CDATA[使用TensorRT-Model-Optimizerd对ONNX模型PTQ量化]]>http://localhost:8080/archives/onnxmo-xing-ptq此ONNX PTQ工具包提供了一套全面的工具，旨在通过量化优化ONNX（开放神经网络交换）模型。我们的工具包旨在帮助开发人员在使用TensorRT部署时，在不影响神经网络准确性的情况下提高性能、减小模型大小和加快推理时间。量化是一种有效的模型优化技术，可以压缩模型。使用模型优化器进行量化可以将模型]]>/archives/onnxmo-xing-ptqAdministrator量化Tue, 18 Nov 2025 10:39:36 GMT<![CDATA[CUDA性能优化 ---- 通过矢量化内存访问提高性能]]>http://localhost:8080/archives/cudaxing-neng-you-hua------tong-guo-shi-liang-hua-nei-cun-fang-wen-ti-gao-xing-neng许多CUDA内核都是带宽受限的，新硬件中flops与带宽之比的增加导致了更多带宽受限的内核。这使得采取措施缓解代码中的带宽瓶颈变得非常重要。在这篇文章中，我将向您展示如何在CUDA C++中使用向量加载和存储来帮助提高带宽利用率，同时减少执行的指令数量让我们从以下简单的内存复制内核开始 __glo]]>/archives/cudaxing-neng-you-hua------tong-guo-shi-liang-hua-nei-cun-fang-wen-ti-gao-xing-nengAdministratorSat, 20 Sep 2025 12:51:07 GMT<![CDATA[PTX矩阵乘加指令详解]]>http://localhost:8080/archives/ptxzhi-ling-xiang-jie本文档描述了PTX(Parallel Thread Execution)，一种低级并行线程执行虚拟机和指令集架构（ISA）。PTX将GPU暴露为数据并行计算设备。指令描述的格式与语义本节介绍每个PTX指令。除了指令的名称和格式外，还描述了语义，然后是一些示例，试图显示指令的几种可能实例化。 PT]]>/archives/ptxzhi-ling-xiang-jieAdministratorWed, 3 Sep 2025 00:47:33 GMT<![CDATA[CUTLASS从入门到放弃系列(一) ------ 简介]]>http://localhost:8080/archives/cutlasscong-ru-men-dao-fang-qi-xi-lie-yi--------jian-jie简介 CUTLASS 4.2.0 CUTLASS 4.2.0 - Aug 2025 CUTALSS是一组抽象概念，用于在CUDA中实现高性能矩阵矩阵乘法（GEMM）和所有级别和规模的相关计算。它结合了分层分解和数据移动的策略。CUTLASS将这些“移动部件”分解为可重用的模块化软件组件和抽象。概念]]>/archives/cutlasscong-ru-men-dao-fang-qi-xi-lie-yi--------jian-jieAdministratorWed, 27 Aug 2025 07:33:55 GMT<![CDATA[CuTe DSL介绍]]>http://localhost:8080/archives/cutlasscong-ru-men-dao-fang-qi-yi------overview概览 CUTALSS 4.x弥合了CUDA内核开发的生产力和性能之间的差距。通过为功能强大的CUTALSS C++模板库提供基于Python的DSL，它可以在NVIDIA GPU上实现更快的迭代、更容易的原型制作和更平缓的高性能线性代数学习曲线。总体而言，我们将CUTLASS DSL视为一个领域特]]>/archives/cutlasscong-ru-men-dao-fang-qi-yi------overviewAdministratorWed, 27 Aug 2025 01:39:17 GMT<![CDATA[cutlass cuda c++实现快速线性代数]]>http://localhost:8080/archives/cutlass-cuda-c-shi-xian-kuai-su-xian-xing-dai-shu矩阵乘法是许多科学应用中的核心计算，特别是在深度学习中。现代深度神经网络中的许多操作要么被定义为矩阵乘法，要么可以被转换为矩阵乘法。例如，NVIDIA cuDNN库使用各种形式的矩阵乘法实现了神经网络的卷积，例如直接卷积的经典公式，即图像到列和滤波器数据集之间的矩阵乘积。当基于快速傅里叶变换（FF]]>/archives/cutlass-cuda-c-shi-xian-kuai-su-xian-xing-dai-shuAdministratorhpcSat, 23 Aug 2025 02:28:41 GMT<![CDATA[gpu硬件架构]]>http://localhost:8080/archives/gpu_arch1.简介 NVIDIA在视觉计算和人工智能（AI）领域处于领先地位；其旗舰GPU已成为解决包括高性能计算和人工智能在内的各个领域复杂计算挑战所不可或缺的产品。虽然它们的规格经常被讨论，但很难掌握各种组件的清晰完整的图景。这些GPU的高性能源于其许多组件的无缝集成，每个组件在提供顶级结果方面都发挥着]]>/archives/gpu_archAdministratorhpcSat, 9 Aug 2025 02:54:01 GMT