pagelocked memory cuda

pytorch分布式训练报错：Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 35000

之前使用的比较老的torch 1.8.1，换到torch 2.0后报错 "rank 1 and rank 0 both on CUDA device 35000" 将main函数开头部分的初始化 ```python distributed.init_process_group(backend='nc ......

分布式 rank Duplicate detected pytorch更新时间 2023-09-05

Memory题解（线段树优化DP）

[传送门](https://www.luogu.com.cn/problem/P9594) 简要题意：给定 $m$ 条线段，每条线段由四个正整数参数 $l_i,r_i,c_i,w_i$ 描述，其中 $l_i,r_i$ 是这条线段的端点，$c_i$ 是这条线段的种类，$w_i$ 是这条线段的权值。 ......

线段题解 Memory更新时间 2023-09-05

Memory management

概述本节主要讨论数据在内存和硬盘之间的移动的管理，可以分为两个部分，空间控制（Spatial Control）和时间控制（Temporal Control）。 spatial control 决定将 pages 写到磁盘的哪个位置，使得常常在一起使用的 pages 能离得比较近，从而提高 I/O ......

management Memory更新时间 2023-09-04

CUDA 线程ID 计算方式

thread ID 的计算方式，简单来说很像小学学的除法公式，本文转载自同学一篇博客；并进行简单修改；被除数 = 除数 * 商 + 余数用公式表示：$$线程Id = blockId * blockSize + threadId$$ **blockId** ：当前 block 在 grid 中的坐 ......

线程方式 CUDA更新时间 2023-09-03

自定义CUDA实现PyTorch算子的四种简单方法

### 背景在探索新的深度学习算法的时候，我们可能会遇到PyTorch提供的算子不能满足需求的情况，这时候就需要自定义PyTorch算子，将我们的算法集成到PyTorch的工作流中。同时，为了提高运算效率，算子往往都需要使用CUDA实现。所幸，PyTorch及很多其他Python库都提供了简化这一 ......

算子 PyTorch 方法 CUDA更新时间 2023-09-03

cuda初步了解

找到对应的设备信息查看自己的设备性能 (008) Multiprocessors, (064) CUDA Cores/MP: 512 CUDA Cores解释为有8个SM每个SM中有两个MP每个MP有32个core所有64个(064) CUDA Cores/MP 一些GPU的架构 Warp siz ......

cuda更新时间 2023-08-31

cuda的一个简单的乘法运算

#include <iostream> #include <cuda_runtime.h> #include <device_launch_parameters.h> __global__ void compute(float* a,float* b,float* c){ int d0 = grid ......

乘法 cuda更新时间 2023-08-31

Cuda编程学习记录

一. 基础知识 nvidia-smi指令： nvidia-smi -q -i 0 #只显示0卡信息 nvidia-smi -q -i 0 -d MEMORY | tail -n 5 #只显示0卡内存信息 nvidia-smi -q -i 0 -d UTILIZATION | tail -n 4 #只 ......

Cuda更新时间 2023-08-29

vs2019-cuda配置入门

cuda使用如下 1、打开VS，新建C++空项目 2、右击源文件->添加->新建项 3、选择CUDA C/C++ File，名称位main.cu 4、把下面的示例源码复制到main.cu中 #include "cuda_runtime.h" #include "device_launch_param ......

2019 cuda vs更新时间 2023-08-28

查看显卡相关信息（CUDA)

右击进入NVIDIA控制面板 ![image](https://img2023.cnblogs.com/blog/3259115/202308/3259115-20230828092956045-1278096373.png) ![image](https://img2023.cnblogs.com ......

显卡信息 CUDA更新时间 2023-08-28

UE4.27, Packaging failed, "is found in memory and is an export but does not have all load flags"

打包时发生如下错误 "is found in memory and is an export but does not have all load flags" 通过查阅论坛，问题原因出在，某类的构造函数里包含xxx->SetChildActorClass(ActualOne) 整理到的解决办法并未 ......

quot Packaging failed export memory更新时间 2023-08-27

opencv_contrib编译：fatal error: opencv2/xfeatures2d/cuda.hpp: No such file or directory

在Ubuntu上编译opencv3.4.2源码时，遇到下面的错误，错误1：/home/src/software/opencv-3.4.2/modules/stitching/include/opencv2/stitching/detail/matchers.hpp:52:42: fatal erro ......

opencv opencv_contrib xfeatures2d xfeatures2 directory更新时间 2023-08-26

Hello Cuda（三）——VSCODE&LibTorch

## CMAKELists ``` cmake_minimum_required(VERSION 3.0 FATAL_ERROR) project(example) set(CMAKE_PREFIX_PATH /home/xuliangyu/libtorch) set(Torch_DIR /home ......

LibTorch VSCODE Hello Cuda amp更新时间 2023-08-26

win10 CUDA11.1安装torch1.9 / reformer_pytorch

# 环境 - NVIDIA-SMI 457.52 - Driver Version: 457.52 - CUDA Version: 11.1 # 安装torch-gpu 1. `conda create -n torch1.9 python=3.8` 2. `pip install torch==1 ......

reformer_pytorch reformer pytorch torch1 torch更新时间 2023-08-25

Hello Cuda（二）——向量加法

``` #include #include #include #include #include #include typedef float FLOAT; double get_time(); void warm_up(); void vec_add_host(FLOAT* x, FLOAT* y ......

向量加法 Hello Cuda更新时间 2023-08-24

Hello Cuda（一）——GPU设备检测

``` #include "device_launch_parameters.h" #include int main(int argc, char*argv[]) { int deviceCount; // 设备数目 cudaGetDeviceCount(&deviceCount); for(in ......

设备 Hello Cuda GPU更新时间 2023-08-24

[fastllm]cuda-kernels源码解析

接着前面第一篇架构的分析，这篇文章主要分析fastllm中使用cuda-kernels的写法，在fastllm中主要有以下几种使用频率较高的kernel：gemv_int4, gemv_int8, gemm_int8, RMSNorm, softmax，RotatePosition2D，swiglu ......

cuda-kernels 源码 fastllm kernels cuda更新时间 2023-08-23

记一次TEE reserved memory调整

问题背景：基于Android R版本来使能go版本。产品要求将原先TEE reserved memory规划的80M尽可能缩减。 80M是第三方TEE方案要求的，集成了多个指纹以及支付相关的较多TA，我们自研方案是OPTEE，集成的TA不多，所以这里还是有一些裁剪空间的。修改点：之前有过一次 ......

reserved memory TEE更新时间 2023-08-23

CUDA编程模型概述（二）

核函数 * 启动核函数 * 编写核函数 * 验证核函数 * 错误处理 https://face2ai.com/CUDA-F-2-1-CUDA%E7%BC%96%E7%A8%8B%E6%A8%A1%E5%9E%8B%E6%A6%82%E8%BF%B02/ ......

模型 CUDA更新时间 2023-08-23

CUDA -编辑模型

编程模型可以理解为，我们要用到的语法，内存结构，线程结构等这些我们写程序时我们自己控制的部分，这些部分控制了异构计算设备的工作模式，都是属于编程模型。 GPU中大致可以分为： * 核函数 * 内存管理 * 线程管理 * 流从宏观上我们可以从以下几个环节完成CUDA应用开发： 1. 领域层 2. 逻 ......

模型 CUDA更新时间 2023-08-23

GPU与CUDA C编程基本知识

## 一、CPU与GPU的异同 CPU：延迟导向内核，所谓延迟，指指令发出到得到结果中间经历的时间。 GPU：吞吐导向内核，所谓吞吐量指单位时间内处理的指令数量。其适合于计算密集或者数据并行的场合。 ## 二、CUDA ### 2.1 简介 CUDA（Compute Unified Device ......

基本知识知识 CUDA GPU更新时间 2023-08-21

cuda11.2升级安装

1 安装指定版本驱动和cuda 驱动版本网址：https://developer.nvidia.com/cuda-toolkit-archive下载cuda11.2，以我们服务器为例，进行勾选得到下载命令 wget https://developer.download.nvidia.com/com ......

cuda 11.2 11更新时间 2023-08-21

cuda编程（1）

cuda： #include <stdio.h> #include <stdlib.h> //#include <conio.h> __global__ void what_is_my_id (unsigned int * const block, unsigned int* const threa ......

cuda更新时间 2023-08-20

[cuda]RMSNorm核函数解析

### 计算原理 $RMSNorm = x * (sqrt(1/n * (x_i)^2 + eps)) * g$ ### torch实现 ```python class RMSNorm(torch.nn.Module): def __init__(self, dim: int, eps: float ......

函数 RMSNorm cuda更新时间 2023-08-20

20230818 CHAPTER 5 Thanks for the Memories arm64汇编内存使用

.data 段的内存引用实例十进制数不要以0开头，否则会被认为是8进制数一个数前面可以加-负号或者~取反符号；申请一个内存块；重复！转义字符！内存对齐 The offset from the PC has 19 bits in the instruction, which gives a ......

20230818 Memories 内存 CHAPTER Thanks更新时间 2023-08-18

【那些遇到的认知问题】如何同时运行 2 个 CUDA 应用程序？

前言 PC只有一个Nvidia显卡，程序A正在运行，训练分类，显卡内存占用不到50%，如果想同时运行另一个训练语义分割的程序B，是可行的嘛？结论理论上，如果对CUDA和GPU编程熟悉，可以对内核应用程序进行序列化，使得一个应用程序的内核正在运行时，GPU不会调度另一个应用程序的内核，类似于多进程 ......

应用程序同时程序问题 CUDA更新时间 2023-08-17

Memory map

block7 cortex internal peripherals 0xE000 0000 block6 0xC000 0000 Reserved 0xBFFF FFFF 0x6000 0000 block2 Peripherals 0x5FFF FFFF 0x4000 0000 APB1，APB ......

Memory map更新时间 2023-08-16

cuda 卸载和安装指定（Ubuntu）

问题：安装apex的时候发现pytorch的cuda版本和机器上cuda版本不一致，导致报错解决方案：卸载cuda并重新安装指定版本的cuda（卸载12.0版本，安装11.7版本）解决过程： 1. 卸载旧版cuda 参考网站：How to Completely Remove CUDA from ......

Ubuntu cuda更新时间 2023-08-16

CUDA之矩阵转置（全局内存、共享内存）

# 使用全局内存 [完整代码链接](https://github.com/brucefan1983/CUDA-Programming/blob/master/src/07-global-memory/matrix.cu) ## A合并访问、B非合并访问 ```c++ #ifdef USE_DP ty ......

内存矩阵全局 CUDA更新时间 2023-08-15

library initialization failed - unable to allocate file descriptor table - out of memory 问题处理

1、修改docker服务启动配置文件 # vim /usr/lib/systemd/system/docker.service ... [Service] ... ExecStart=/usr/bin/dockerd -H fd:// --containerd=/run/containerd/con ......

initialization descriptor allocate library failed更新时间 2023-08-14

共408篇 :6/14页 首页上一页3456789下一页尾页