Cuda

CUDA版本PyTorch安装

安装驱动 显卡为 Nvidia的GTX950M,驱动版本517.48,这个版本的驱动为CUDA_11.7 移动版:GeForce Game Ready 驱动程序 | 517.48 | Windows 11 | NVIDIA 桌面版:GeForce Game Ready 驱动程序 | 517.48 | ......
PyTorch 版本 CUDA

超详细图文带你手把手安装 CUDA 和 CUDNN

CUDA 安装教程(手把手) 一、简单了解 CUDA 与 CUDNN 1、什么是 CUDA CUDA(ComputeUnified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。CUDA 是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决 ......
图文 CUDNN CUDA

ubuntu16.04安装cuda8.0+pytorch1.0.0

1.安装cuda 1.1 查看ubuntu的英伟达显卡驱动 nvidia-smi 得到 驱动版本是384.130,比较老,所以需要下载旧版本的cuda 1.2 查看显卡是否支持CUDA计算 然后去到这里https://developer.nvidia.com/cuda-gpus查看你的显卡是否在表中 ......
pytorch1 pytorch ubuntu 16.04 cuda8

mac的m芯片上跑cuda程序

config里 parser.add_argument('--device', type=str, default='mps') main里 device = torch.device(cfg['device']) train里 x_batch = x_batch.astype('float32') ......
芯片 程序 cuda mac

深度学习模型训练时报错“nll_loss_forward_reduce_cuda_kernel_2d_index“ not implemented for ‘Float‘问题解决

报错如下: RuntimeError: "nll_loss_forward_reduce_cuda_kernel_2d_index" not implemented for 'Float' 一般来说这个问题是计算Loss时的报错。 解决方法: 将如下代码 loss_func(torch.squeez ......

用OLED屏幕播放视频(3): 使用cuda编程加速视频处理

下面的系列文章记录了如何使用一块linux开发扳和一块OLED屏幕实现视频的播放: 1) [项目介绍](https://www.cnblogs.com/kfggww/p/17672932.html) 2) [为OLED屏幕开发I2C驱动](https://www.cnblogs.com/kfggww ......
视频 屏幕 OLED cuda

qt程序调用cuda-11.7,cmake编译时,提示:"CMakeCUDACompilerId.cu" failed. Compiler: /usr/local/cuda/bin/nvcc Build flags: Id flags: --keep;--keep-dir;tmp -v

报错显示: Running /home/wc/software/cmake-3.26.3-linux-x86_64/bin/cmake /home/wc/work/junke_src/missile-sim '-GCodeBlocks - Unix Makefiles' in /home/wc/wo ......
flags CMakeCUDACompilerId cuda quot keep

ubuntu安装cuda-toolkit,以及不同版本cuda-toolkit的安装路径说明

ubuntu系统下安装cuda-toolkit步骤: 官网下载cuda-toolkit ,官网下载地址:https://developer.nvidia.com/cuda-toolkit-archive 官网中有多个版本可以安装,其中主要分为runfile(local)和deb(local) 版本, ......
cuda-toolkit toolkit cuda 路径 版本

pytorch分布式训练报错:Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 35000

之前使用的比较老的torch 1.8.1,换到torch 2.0后报错 "rank 1 and rank 0 both on CUDA device 35000" 将main函数开头部分的初始化 ```python distributed.init_process_group(backend='nc ......
分布式 rank Duplicate detected pytorch

CUDA 线程ID 计算方式

thread ID 的计算方式,简单来说很像小学学的除法公式,本文转载自同学一篇博客;并进行简单修改; 被除数 = 除数 * 商 + 余数 用公式表示:$$线程Id = blockId * blockSize + threadId$$ **blockId** :当前 block 在 grid 中的坐 ......
线程 方式 CUDA

自定义CUDA实现PyTorch算子的四种简单方法

### 背景 在探索新的深度学习算法的时候,我们可能会遇到PyTorch提供的算子不能满足需求的情况,这时候就需要自定义PyTorch算子,将我们的算法集成到PyTorch的工作流中。同时,为了提高运算效率,算子往往都需要使用CUDA实现。所幸,PyTorch及很多其他Python库都提供了简化这一 ......
算子 PyTorch 方法 CUDA

cuda初步了解

找到对应的设备信息查看自己的设备性能 (008) Multiprocessors, (064) CUDA Cores/MP: 512 CUDA Cores解释为 有8个SM每个SM中有两个MP每个MP有32个core所有64个(064) CUDA Cores/MP 一些GPU的架构 Warp siz ......
cuda

cuda的一个简单的乘法运算

#include <iostream> #include <cuda_runtime.h> #include <device_launch_parameters.h> __global__ void compute(float* a,float* b,float* c){ int d0 = grid ......
乘法 cuda

Cuda编程学习记录

一. 基础知识 nvidia-smi指令: nvidia-smi -q -i 0 #只显示0卡信息 nvidia-smi -q -i 0 -d MEMORY | tail -n 5 #只显示0卡内存信息 nvidia-smi -q -i 0 -d UTILIZATION | tail -n 4 #只 ......
Cuda

vs2019-cuda配置入门

cuda使用如下 1、打开VS,新建C++空项目 2、右击源文件->添加->新建项 3、选择CUDA C/C++ File,名称位main.cu 4、把下面的示例源码复制到main.cu中 #include "cuda_runtime.h" #include "device_launch_param ......
2019 cuda vs

查看显卡相关信息(CUDA)

右击进入NVIDIA控制面板 ![image](https://img2023.cnblogs.com/blog/3259115/202308/3259115-20230828092956045-1278096373.png) ![image](https://img2023.cnblogs.com ......
显卡 信息 CUDA

opencv_contrib编译:fatal error: opencv2/xfeatures2d/cuda.hpp: No such file or directory

在Ubuntu上编译opencv3.4.2源码时,遇到下面的错误,错误1:/home/src/software/opencv-3.4.2/modules/stitching/include/opencv2/stitching/detail/matchers.hpp:52:42: fatal erro ......

Hello Cuda(三)——VSCODE&LibTorch

## CMAKELists ``` cmake_minimum_required(VERSION 3.0 FATAL_ERROR) project(example) set(CMAKE_PREFIX_PATH /home/xuliangyu/libtorch) set(Torch_DIR /home ......
LibTorch VSCODE Hello Cuda amp

win10 CUDA11.1安装torch1.9 / reformer_pytorch

# 环境 - NVIDIA-SMI 457.52 - Driver Version: 457.52 - CUDA Version: 11.1 # 安装torch-gpu 1. `conda create -n torch1.9 python=3.8` 2. `pip install torch==1 ......

Hello Cuda(二)——向量加法

``` #include #include #include #include #include #include typedef float FLOAT; double get_time(); void warm_up(); void vec_add_host(FLOAT* x, FLOAT* y ......
向量 加法 Hello Cuda

Hello Cuda(一)——GPU设备检测

``` #include "device_launch_parameters.h" #include int main(int argc, char*argv[]) { int deviceCount; // 设备数目 cudaGetDeviceCount(&deviceCount); for(in ......
设备 Hello Cuda GPU

[fastllm]cuda-kernels源码解析

接着前面第一篇架构的分析,这篇文章主要分析fastllm中使用cuda-kernels的写法,在fastllm中主要有以下几种使用频率较高的kernel:gemv_int4, gemv_int8, gemm_int8, RMSNorm, softmax,RotatePosition2D,swiglu ......
cuda-kernels 源码 fastllm kernels cuda

CUDA编程模型概述(二)

核函数 * 启动核函数 * 编写核函数 * 验证核函数 * 错误处理 https://face2ai.com/CUDA-F-2-1-CUDA%E7%BC%96%E7%A8%8B%E6%A8%A1%E5%9E%8B%E6%A6%82%E8%BF%B02/ ......
模型 CUDA

CUDA -编辑模型

编程模型可以理解为,我们要用到的语法,内存结构,线程结构等这些我们写程序时我们自己控制的部分,这些部分控制了异构计算设备的工作模式,都是属于编程模型。 GPU中大致可以分为: * 核函数 * 内存管理 * 线程管理 * 流 从宏观上我们可以从以下几个环节完成CUDA应用开发: 1. 领域层 2. 逻 ......
模型 CUDA

GPU与CUDA C编程基本知识

## 一 、CPU与GPU的异同 CPU:延迟导向内核,所谓延迟,指指令发出到得到结果中间经历的时间。 GPU:吞吐导向内核,所谓吞吐量指单位时间内处理的指令数量。其适合于计算密集或者数据并行的场合。 ## 二、CUDA ### 2.1 简介 CUDA(Compute Unified Device ......
基本知识 知识 CUDA GPU

cuda11.2升级安装

1 安装指定版本驱动和cuda 驱动版本网址:https://developer.nvidia.com/cuda-toolkit-archive下载cuda11.2,以我们服务器为例,进行勾选 得到下载命令 wget https://developer.download.nvidia.com/com ......
cuda 11.2 11

cuda编程(1)

cuda: #include <stdio.h> #include <stdlib.h> //#include <conio.h> __global__ void what_is_my_id (unsigned int * const block, unsigned int* const threa ......
cuda

[cuda]RMSNorm核函数解析

### 计算原理 $RMSNorm = x * (sqrt(1/n * (x_i)^2 + eps)) * g$ ### torch实现 ```python class RMSNorm(torch.nn.Module): def __init__(self, dim: int, eps: float ......
函数 RMSNorm cuda

【那些遇到的认知问题】如何同时运行 2 个 CUDA 应用程序?

前言 PC只有一个Nvidia显卡,程序A正在运行,训练分类,显卡内存占用不到50%,如果想同时运行另一个训练语义分割的程序B,是可行的嘛? 结论 理论上,如果对CUDA和GPU编程熟悉,可以对内核应用程序进行序列化,使得一个应用程序的内核正在运行时,GPU不会调度另一个应用程序的内核,类似于多进程 ......
应用程序 同时 程序 问题 CUDA

cuda 卸载和安装指定(Ubuntu)

问题:安装apex的时候发现pytorch的cuda版本和机器上cuda版本不一致,导致报错 解决方案:卸载cuda并重新安装指定版本的cuda(卸载12.0版本,安装11.7版本) 解决过程: 1. 卸载旧版cuda 参考网站:How to Completely Remove CUDA from ......
Ubuntu cuda