tensorflow-gpu tensorflow cudnn cuda

CUDA -编辑模型

编程模型可以理解为,我们要用到的语法,内存结构,线程结构等这些我们写程序时我们自己控制的部分,这些部分控制了异构计算设备的工作模式,都是属于编程模型。 GPU中大致可以分为: * 核函数 * 内存管理 * 线程管理 * 流 从宏观上我们可以从以下几个环节完成CUDA应用开发: 1. 领域层 2. 逻 ......
模型 CUDA

tensorflow模型训练保存minist OCR

import tensorflow as tf from tensorflow.python.framework.convert_to_constants import convert_variables_to_constants_v2 from tensorflow.python.tools im ......
tensorflow 模型 minist OCR

GPU与CUDA C编程基本知识

## 一 、CPU与GPU的异同 CPU:延迟导向内核,所谓延迟,指指令发出到得到结果中间经历的时间。 GPU:吞吐导向内核,所谓吞吐量指单位时间内处理的指令数量。其适合于计算密集或者数据并行的场合。 ## 二、CUDA ### 2.1 简介 CUDA(Compute Unified Device ......
基本知识 知识 CUDA GPU

cuda11.2升级安装

1 安装指定版本驱动和cuda 驱动版本网址:https://developer.nvidia.com/cuda-toolkit-archive下载cuda11.2,以我们服务器为例,进行勾选 得到下载命令 wget https://developer.download.nvidia.com/com ......
cuda 11.2 11

cuda编程(1)

cuda: #include <stdio.h> #include <stdlib.h> //#include <conio.h> __global__ void what_is_my_id (unsigned int * const block, unsigned int* const threa ......
cuda

[cuda]RMSNorm核函数解析

### 计算原理 $RMSNorm = x * (sqrt(1/n * (x_i)^2 + eps)) * g$ ### torch实现 ```python class RMSNorm(torch.nn.Module): def __init__(self, dim: int, eps: float ......
函数 RMSNorm cuda

【那些遇到的认知问题】如何同时运行 2 个 CUDA 应用程序?

前言 PC只有一个Nvidia显卡,程序A正在运行,训练分类,显卡内存占用不到50%,如果想同时运行另一个训练语义分割的程序B,是可行的嘛? 结论 理论上,如果对CUDA和GPU编程熟悉,可以对内核应用程序进行序列化,使得一个应用程序的内核正在运行时,GPU不会调度另一个应用程序的内核,类似于多进程 ......
应用程序 同时 程序 问题 CUDA

cuda 卸载和安装指定(Ubuntu)

问题:安装apex的时候发现pytorch的cuda版本和机器上cuda版本不一致,导致报错 解决方案:卸载cuda并重新安装指定版本的cuda(卸载12.0版本,安装11.7版本) 解决过程: 1. 卸载旧版cuda 参考网站:How to Completely Remove CUDA from ......
Ubuntu cuda

CUDA之矩阵转置(全局内存、共享内存)

# 使用全局内存 [完整代码链接](https://github.com/brucefan1983/CUDA-Programming/blob/master/src/07-global-memory/matrix.cu) ## A合并访问、B非合并访问 ```c++ #ifdef USE_DP ty ......
内存 矩阵 全局 CUDA

Anaconda+PyCharm+Pytorch/tensorflow环境配置个人总结

Anaconda是一个非常方便的python版本管理工具,可以很方便地切换不同版本的Python进行测试。同时不同版本之间也不存在相互的干扰。 PyCharm是一款常见的Python IDE,pytorch和TensorFlow是目前两个主流的深度学习框架。 Anaconda安装 前往官方网址下载最 ......
tensorflow Anaconda PyCharm Pytorch 环境

【Tensorflow】深度模型推理性能优化-微量优化

序 说到深度模型优化,可能想到最多的就是上GPU,对于CV、NLP这一类模型效果非常明显,一般RT能下降到原来的1/10。但是在实际中,会遇到一些排序类的模型 例如推荐模型DSMM、ESMM、DIN等模型,这些模型深度一般只有4、5层,上GPU后性能、RT反而下降,猜测原因可能是模型网络简单,导致反 ......
Tensorflow 深度 模型 性能

使用conda准备tensorflow环境流程

requirement.txt是这样写的: ```txt tensorflow==2.10.1 pandas==1.3.5 numpy==1.21.6 scikit-learn==1.0.2 tqdm==4.64.1 absl-py==1.4.0 gdown==4.7.1 ``` 步骤如下 ### ......
tensorflow 流程 环境 conda

《CUDA编程:基础与实践》读书笔记(5):统一内存编程

统一内存(unified memory)是一种逻辑上的概念,它既不是显存、也不是主机内存,而是CPU和GPU都可以访问并能保证一致性的虚拟存储器。使用统一内存对硬件有较高的要求: - 对于所有功能,GPU架构都必须不低于Kepler架构,主机应用程序必须为64位。 - 对于一些较新的功能,至少需要P ......
内存 基础 笔记 CUDA

ubuntu20.04 安装 cuda11.8 + cuDNN v8.9.0 (July 11th, 2023), for CUDA 11.x + TensorRT-8.6.1

根据文档:https://docs.nvidia.com/deeplearning/tensorrt/archives/tensorrt-861/install-guide/index.html TensorRT 8.6.1 支持:cuda11.8, cuDNN v8.9.0 ### 1. 安装 c ......
11 TensorRT ubuntu 20.04 cuDNN

OpenCV 配置CUDA

以openCV4.2配置cuda10.2为例。 【下载】 CUDA Toolkit和cuDNN https://developer.nvidia.com/accelerated-computing-toolkit 1、安装CUDA Toolkit,注意自定义安装,安装下图勾选的即可 下一步后,会让选 ......
OpenCV CUDA

CUDA Memcpy的分析

CUDAMemcpy是一种CUDA库中的函数,可以在主机内存和设备内存之间复制数据。本文将从功能、使用方法、性能、优化等多个角度详细介绍CUDAMemcpy。 一、功能 CUDAMemcpy的主要功能是在设备内存和主机内存之间进行数据传输。它可以将主机上的数据发送到GPU上,也可以将GPU上的数据传 ......
Memcpy CUDA

CUDA cudaMemcpy函数总结

在使用cuda的时候一定会用到cudaMemcpy这个函数,因为我们就是用它实现数据在CPU与GPU之间的移动,想在GPU端计算就必须要将数据从CPU拷贝到GPU,想要获得GPU的计算结果就必须将结果拷贝回CPU。 但是在使用这个函数的时候对它的第一个参数存在一些疑惑,经过查找资料后做个简单的总结。 ......
cudaMemcpy 函数 CUDA

OpenCV与CUDA简介

因为算法的需要,正常的CPU算法速度不够需要进行加速,OpenCV中正好加入了GPU计算的模块,OpenCV中有两种GPU的加速方式,一种是通用标准的opencl,另一种是NVIDIA的cuda加速。opencl是苹果公司提出的一种通用标准,多种平台支持的标准。cuda是NVIDIA提出的并行计算平 ......
简介 OpenCV CUDA

CUDA 简单程序的基本框架和自定义设备函数

1 cuda程序的基本框架 框架包含: 头文件 常量或者宏定义 C++自定义函数和cuda核函数的原型声明 main函数 C++自定义函数核CUDA核函数的定义实现其中main函数中 1 int main() 2 { 3 分配主机与设备代码内存 4 初始化主机中的数据 5 将某些数据从主机复制到设备 ......
函数 框架 程序 设备 CUDA

《CUDA编程:基础与实践》读书笔记(4):CUDA流

## 1. CUDA流 一个CUDA流指的是由主机发出的在一个设备中执行的CUDA操作序列。除主机端发出的流之外,还有设备端发出的流,但本文不考虑后者。一个CUDA流中的各个操作按照主机发布的次序执行;但来自两个不同CUDA流的操作不一定按照某个次序执行,有可能是并发或者交错地执行。 任何CUDA操 ......
CUDA 基础 笔记

CUDA 编程基础

基于c/c++的编程方法 支持异构编程的扩展方法 简单明了的apis,能够轻松的管理存储系统 cuda支持的编程语言:c/c++/python/fortran/java… 1、CUDA并行计算基础 异构计算 CUDA 安装 CUDA 程序的编写 CUDA 程序编译 利用NVProf查看程序执行情况 ......
基础 CUDA

CUDA 配置环境(二):Windows10+QT5.14+CUDA11.3+MSVC2017

准备安装QT,参考教程: 安装CUDA11.3 配置环境 与在VS2017中的配置不同,VS2017可以在选项卡中对CUDA的编译调试环境进行配置,而在QT中,这都需要在工程文件.pro中,通过代码来实现。下面介绍如何新建一个可运行CUDA代码的QT工程。 (1)新建一个QT Console App ......
CUDA Windows 环境 11.3 2017

CUDA 配置环境(三):nvcc fatal : Could not set up the environment for Microsoft Visual Studio using 已解决

解决在QT中编写CUDA程序出现nvcc fatal : Could not set up the environment for Microsoft Visual Studio using的问题问题详情 在QT编写CUDA代码,在已经配好.pro文件中的代码,并且CUDA安装没有问题,还可以在VS ......
environment Microsoft 环境 Visual Studio

CUDA 配置环境(一):Windowns10+VS2017+CUDA11.3

准备 安装好VS2017和CUDA11.3,这两个软件的安装都很简单,网上也有很多的教程,对于对应的系统环境变量的配置,一般安装成功后,都会自动添加好,只需要按照网上的教程检查一下即可,下面我会给出我个人感觉不错的安装教程。 VS2017安装 CUDA安装 CUDA自带例程(1)首先测试CUDA安装 ......
CUDA Windowns 环境 2017 11.3

Qt CUDA混合编程BUG(二)

问题描述(一) QT引用外部库,debug、release均编译通过,但是运行程序时失败,报错提示为:程序异常结束,The process was ended forcefully. 21:44:21: 程序异常结束。 21:44:21: The process was ended forceful ......
CUDA BUG Qt

非root安装CUDA 11.7

## 下载 CUDA官网找到对应版本 https://developer.nvidia.com/cuda-11-7-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=CentOS&target_version=7&t ......
root CUDA 11.7 11

Qt CUDA混合编程BUG(一)

QT+CUDA混合编程BUG(一):在QT中进行CUDA编程,CUDA库与其他外部库冲突,debug失败 问题描述 在QT中进行CUDA编程,单独使用CUDA编程时并未出现难以解决的问题,但当我讲CUDA处理的部分,加入已搭建完毕一项较大的QT项目工程时,CUDA的lib库与项目使用到的其他外部li ......
CUDA BUG Qt

CUDA 安装教程

1 cuda的下载及安装 1.1 查看适合的cuda版本 我电脑上支持的cuda是11.6的 1.2 cuda toolkit下载 https://developer.nvidia.com/cuda-toolkit-archive 进入上述网页,找到适合的cuda 1.3 cuda toolkit安 ......
教程 CUDA

CUDA 安装(一看就会)

1.背景学习深度学习的话,肯定需要安装PyTorch和TensorFlow,安装这两个深度学习框架之前得安装CUDA.CUDA是什么?CUDA是一个并行计算平台和编程模型,能够使得使用GPU进行通用计算变得简单和优雅。Nvidia官方提供的CUDA 库是一个完整的工具安装包,其中提供了 Nvidia ......
CUDA

Qt 编写CUDA程序

本文基于的情况是,Qt,CUDA和VS已经安装完成且能够正常运行的情况 1.创建一个空的Qt项目 2.创建一个.cu文件,本文创建的为kernel.cu 内容如下 1 #include "cuda_runtime.h" 2 #include "device_launch_parameters.h" ......
程序 CUDA Qt