发布于 2024-05-27 关于使用cuBLAS gemm API时矩阵转置问题的分析 何度 836 热度 啥也没有呀 C/C++ cuBLAS简介 在科学计算和数值分析领域,经常需要解决矩阵特征值、线性方程(代数)等问题,形成了如EISPACK、LINPACK …
发布于 2024-05-09 element-wise 算子优化—gelu | Analysis-Driven Optimization(ADO) 何度 817 热度 啥也没有呀 cuda 记一次gelu算子优化的学习过程,gelu可以代表一类element-wise算子。由于我读文档获取的信息非常琐碎,打算用Anal …
发布于 2024-04-24 HPC CUDA 算法性能检测 | Nvidia Nsight System学习笔记 何度 1,516 热度 啥也没有呀 HPC 为什么使用Nsight System? CUDA编程主要研究的是HPC(高性能计算),要写出一个高效的程序需要反复优化,以及对硬件 …