tensorflow-gpu tensorflow cudnn cuda

《CUDA编程:基础与实践》读书笔记(3):同步、协作组、原子函数

## 1. 单指令多线程模式 从硬件上看,一个GPU被分为若干个SM。线程块在执行时将被分配到还没完全占满的SM中,一个线程块不会被分配到不同的SM中,一个SM可以有一个或多个线程块。不同线程块之间可以并发或顺序地执行。当某些线程块完成计算任务后,对应的SM会部分或完全地空闲,然后会有新的线程块被分 ......
协作组 原子 函数 基础 笔记

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch源码编译报错——USE_CUDA=OFF——编译好的pytorch不支持CUDA的问题解决

如题: pytorch源码编译报错——USE_CUDA=OFF 在编译pytorch源码的时候发现错误,虽然编译环境中已经安装好CUDA和cudnn,环境变量也都设置好,但是编译好的pytorch包wheel总是在运行torch.cuda.is_available() 显示false,于是从编译源码 ......
pytorch 平台 人工智能 CUDA 高性能

CUDA11.3编译pytorch2.0.1报错:error: ‘nvmlProcessInfo_v1_t’ was not declared in this scope

问题如题: CUDA11.3编译pytorch2.0.1报错:error: ‘nvmlProcessInfo_v1_t’ was not declared in this scope 解决方法参考: https://github.com/pytorch/pytorch/issues/100618 简 ......

《CUDA编程:基础与实践》读书笔记(2):CUDA内存

## 1. 全局内存 核函数中的所有线程都能够访问全局内存(global memory)。全局内存的容量是所有设备内存中最大的,但由于它没有放在GPU芯片内部,因此具有相对较高的延迟和较低的访问速度,`cudaMalloc`分配的就是全局内存。此外,当处理逻辑上的二维或者三维问题时,还可以使用`cu ......
CUDA 内存 基础 笔记

《CUDA编程:基础与实践》读书笔记(1):CUDA编程基础

## 1. GPU简介 GPU与CPU的主要区别在于: - CPU拥有少数几个快速的计算核心,而GPU拥有成百上千个不那么快速的计算核心。 - CPU中有更多的晶体管用于数据缓存和流程控制,而GPU中有更多的晶体管用于算数逻辑单元。 所以,GPU依靠众多的计算核心来获得相对较高的并行计算性能。 一块 ......
基础 CUDA 笔记

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch环境报错——torch.cuda.is_available()显示false——NVIDIA显卡驱动版本过低导致pytorch无法使用cuda

在使用这个HPC平台的时候发现了这么一个问题,那就是编译好的pytorch-cuda和anaconda官方安装的pytorch-cuda均不能调用cuda计算,这个现象十分的诡异,经过长时间的调查发现了问题所在——NVIDIA驱动版本过低。 给出该HPC的显卡驱动版本: ......

【Ubuntu】Cuda10.2与cuDNN7.6.5的安装

本文是 Cuda10.2 与 cuDNN7.6.5 安装记录,系统环境是 Ubuntu18.04 所使用的显卡是 **GeForce RTX 2080**,因为不是30系的显卡,所以 Cuda 安装 10.2 就足够了 因为项目需要,要配置一下深度学习环境,一直没有整理和总结配置过程,就想记录一下, ......
Ubuntu cuDNN7 cuDNN Cuda 10.2

tensorflow猫狗大战笔记

第一步:数据集的加工 import cv2import os #使用os.walk()函数遍历指定文件夹train及其所有子文件夹。dir='train' #读取图片路径的设定 需要在程序文件里建立train文件夹 将需要更改尺寸的图片放入for root,dirs,files in os.walk ......
tensorflow 大战 笔记

cuda系列详细教程

随着人工智能的发展与人才的内卷,很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备,往往想更好的提速,满足更高时效性,必将更多类似矩阵相关运算交给CUDA处理。同时,面对市场诸多教程与诸多博客岑子不起的教程或高昂教程费用,使读者(特别是小白)容易迷糊,无法快 ......
教程 cuda

CUDA简单介绍

### 并行计算 并行计算(parallel computing)是一种计算形式,它将大的问题分解为许多可以并行的小问题。 并行计算分为:任务并行(task parallel)和数据并行(data parallel) * 任务并行指多个任务同时执行 * 数据并行指多个数据可以同时处理,每个数据由独立 ......
CUDA

tensorflow 版本不同 报错合集

1、 "AttributeError: module 'tensorflow' has no attribute 'random_normal'"问题解决办法 使用 import tensorflow.compat.v1 as tftf.disable_v2_behavior() 替换 import ......
tensorflow 版本

在分布式nvidia cuda-pytorch中同时使用MPI和NCCL会造成死锁——分布式pytorch的backend不能同时使用MPI和NCCL

参考原文: https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/mpi.html#inter-gpu-communication-with-cuda-aware-mpi 说实话,我不太认为有人在使用分布式pytorch的时候会同时开两个 ......
分布式 同时 pytorch NCCL cuda-pytorch

tensorflow安装

TensorFlow下载和安装详解(两种常用方式) | 艾奇编程网 (91yiqixue.com) 碰到错误信息解决错误信息(大概3-4个错误信息) 错误信息Cannot uninstall 'six'. It is a distutils installed project and thus we ......
tensorflow

cuda11.5 paddlepaddle-gpu安装出错

检查安装paddlepaddle-gpu 版本为cuda11.5没有对应的版本 报错信息 Running verify PaddlePaddle program ... I0802 16:31:52.487021 271111 interpretercore.cc:237] New Executor ......
paddlepaddle-gpu paddlepaddle cuda 11.5 gpu

centos7使用yum安装cuda或者单独安装cuda-runtime和nvcc

最近在配置grounded-sam环境,官方提供了镜像,但是镜像我下载看了,有17个g,还不包含项目所需安装包,因为这个官方镜像使用的是conda,所以很多包是用不到的,比较冗余,而且如果传输到内网又很麻烦。 于是我自己配置基础镜像,事实证明,比较耗时。 我使用的基础镜像是我为sam配置的,但是里面 ......
cuda cuda-runtime centos7 runtime centos

transformer/tensorflow报错:ValueError: tensorflow.__spec__ is None , free(): invalid pointer

# transformer/tensorflow报错:ValueError: tensorflow.__spec__ is None , free(): invalid pointer 由于tensorflow版本(tf1)和transformer版本不匹配产生。 解决办法: ``` 1.升级ten ......

nvidia显卡驱动中的cuda版本和实际安装的cuda库版本的关系

1,CUDA Driver Version是跟nvidia的GPU驱动(nvidia-driver)绑定在一起的: 你在终端通过命令更新下载驱动后,再执行nvidia-smi得到如下图中右上角显示的cuda版本,例如我的: 上图表明:我现在的驱动版本是440.95.01,可以支持<=10.2版本的c ......
版本 显卡驱动 cuda 显卡 实际

机器学习实战-基于Python3和C++(5)- python之tensorflow(1)

[TOC] # tensor ```pyhon import tensorflow as tf x=tf.constant(19) y=tf.constant(22) x+y z=x+y print(z) tf.Tensor(41, shape=(), dtype=int32) a=tf.const ......
tensorflow 实战 机器 Python3 Python

ubuntu搭建cuda开发环境

##驱动安装 添加ppa后查看推荐的驱动 ``` sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ubuntu-drivers devices ``` 显示nvidia-driver-535为推荐版本,安装 ``` s ......
环境 ubuntu cuda

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch环境的软件升级——pytorch_cuda_1.13升级为pytorch_cuda_2.0.1

aarch64架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本 X86架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本 如何拉取指定CPU架构并且指定ubuntu版本并且指定cuda和cudnn版本的docker镜像 如何拉取指定CPU架构 ......

深度学习TensorFlow和CUDA、cudnn、Pytorch以及英伟达显卡对应版本对照表

一、TensorFlow对应版本对照表 版本Python 版本编译器cuDNNCUDA tensorflow-2.9.0 3.7-3.10 8.1 11.2 tensorflow-2.8.0 3.7-3.10 8.1 11.2 tensorflow-2.7.0 3.7-3.9 8.1 11.2 te ......
对照表 TensorFlow 显卡 深度 Pytorch

1、CUDA安装配置

1、CUDA的介绍 CUDA是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,是一种并行计算平台和编程模型,该架构使GPU能够解决复杂的计算问题。CUDA英文全称是Compute Unified Device Architecture。 基于CUDA编程可以 ......
CUDA

在 Python 中使用 Tensorflow 预测燃油效率

预测燃油效率对于优化车辆性能和减少碳排放至关重要,这可以使用python库tensorflow进行预测。在本文中,我们将探讨如何利用流行的机器学习库 Tensorflow 的强大功能来使用 Python 预测燃油效率。通过基于 Auto MPG 数据集构建预测模型,我们可以准确估计车辆的燃油效率。让 ......
燃油 Tensorflow 效率 Python

Tensorflow数据的基本操作

```python # tensorflow里引入一个新的数据类型-张量(tensor),与numpy的ndarray类似,是一个多维数组。和numpy的区别在于:numpy的ndarray只支持CPU计算,而张量支持GPU,可以通过GPU加速,提高速度,同时张量还支持自动微分计算,更适合深度学习 ......
基本操作 Tensorflow 数据

如何拉取指定CPU架构的并且指定ubuntu版本的并且指定cuda和cudnn版本的docker镜像

本篇讲的重点是如何拉取带有cuda和cudnn的docker镜像,因此这些的镜像源的频道为NVIDIA: 官方地址: https://hub.docker.com/r/nvidia/cuda 根据官方资料我们知道NVIDIA的docker的tag分为三类: base版本、runtime版本、deve ......
版本 架构 镜像 ubuntu docker

Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性|附代码数据

全文下载链接:http://tecdat.cn/?p=26562 最近我们被客户要求撰写关于循环神经网络的研究报告,包括一些图形和统计输出。 自 2000 年 1 月以来的股票价格数据。我们使用的是 Microsoft 股票。 该项目包括: 将时间序列数据转换为分类问题。 使用 TensorFlow ......

苹果mac m1,m2芯片安装 pytorch和tensorflow的GPU版本

一、下载M芯片的anaconda,并安装 二 、安装GPU版本的pytorch1.安装 Xcode xcode-select --install 2.创建环境 conda create -n torch-gpu python=3.11 conda activate torch-gpu 3.打开pyt ......
tensorflow 芯片 苹果 pytorch 版本

Macbook Pro M1 max Apple Silicon MacOSX 13.4.1 安装Tensorflow

前置条件:homebrew 1.在终端输入命令行,安装mini forge. brew install miniforge 2.创建tensorflow运行环境,同时在该运行环境中安装python,截止2023年7月26日,tensorflow支持到python3.11以前的版本。 conda cr ......
Tensorflow Macbook Silicon MacOSX Apple

2. CUDA--Heterogeneous data parallel computing

Using CUDA C to develop a simple data parallel program 2.1 Data parallelism Taking an example about Calculate image. 2.2 CUDA C program structure CUDA ......
Heterogeneous computing parallel CUDA data

VS2022 CUDA 遇到的一些问题记录

头文件 #include"device_launch_parameters.h" cudaDeviceSynchronize() 需要使用 #include"cuda_runtime.h" dim3需要使用。 在windows下使用linux库来实现对内核函数计时 参考资料:【CUDA 基础】2.3 ......
问题 2022 CUDA VS