tensorflow gpu

GPU计算性能参数分析

GPU计算性能参数分析 单核CPU无论在PC端,还是服务器上,基本上已经退出历史舞台,目前主流的计算平台是使用多核(multiple cores)的CPU,以及众核(many cores)的GPU。另外处理器与内存访问速度差距也不断增大,为克服访存瓶颈,主要采用两种方法。其中多核CPU与单核CPU, ......
性能参数 性能 参数 GPU

pytorch分布式训练报错:Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 35000

之前使用的比较老的torch 1.8.1,换到torch 2.0后报错 "rank 1 and rank 0 both on CUDA device 35000" 将main函数开头部分的初始化 ```python distributed.init_process_group(backend='nc ......
分布式 rank Duplicate detected pytorch

聊透 GPU 通信技术——GPU Direct、NVLink、RDMA 审核中

最近人工智能大火,AI 应用所涉及的技术能力包括语音、图像、视频、NLP 等多方面,而这些都需要强大的计算资源支持。AI 技术对算力的需求是非常庞大的,虽然 GPU 的计算能力在持续提升,但是对于 AI 来说,单卡的计算能力就算再强,也是有极限的,这就需要多 GPU 组合。而 GPU 多卡的组合,主 ......
通信技术 GPU Direct NVLink 技术

Ziya-LLaMA-13B 模型在GPU 上部署

# Ziya-LLaMA-13B 模型在GPU 上部署 Ziya-LLaMA-13B是IDEA-CCNL基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习 ......
Ziya-LLaMA 模型 LLaMA Ziya GPU

使用 TensorFlow 进行机器学习

使用 TensorFlow 进行机器学习 这是使用 TensorFlow 进行机器学习的官方代码存储库。 使用 TensorFlow(Google 最新、最好的机器学习库)开始进行机器学习。 概括 第 2 章- TensorFlow 基础知识 概念 1:定义张量 概念 2:评估操作 概念 3:互动会 ......
TensorFlow 机器

centos安装支持gpu加速的ffmpeg

阿里云ECS环境: 规格:ecs.gn6i-c16g1.4xlarge 显卡:T4 镜像:centos7.5 cuda安装版本:12.2 1.安装显卡驱动 https://www.nvidia.com/Download/Find.aspx?lang=cn wget https://cn.downlo ......
centos ffmpeg gpu

ARM和X86、X86和X64、Intel和AMD、CPU和GPU介绍

一、ARM和X86 X86 和 ARM 都是CPU设计的一个架构。X86 用的是复杂指令集。ARM用的是精简指令集。指令集其实就是机器码,机器码上是汇编,汇编之上是程序语言例如java、c、c#。复杂指令集是在硬件层面上设计了很多指令,所以编程会简单些。精简指令集是在硬件层面上设计的指令比较少,所以 ......
X86 Intel 86 ARM AMD

hashcat GPU算力 H/s 收集(表格)

hashcat GPU算力 H/s 收集 |hashcat 版本| AMD | NVIDIA| 破解速度| 测试时间 | 测试信息来源 | | | | | | | | | 6.2.6 | | RTX 4090 | 300GH/s NTLM和200kh/s | 2022 | https://roll. ......
表格 hashcat GPU

Anaconda平台下从0到1安装TensorFlow环境详细教程(Windows10+Python)

1.安装Anaconda Anaconda下载链接:Free Download | Anaconda 下载完成之后,开始安装,修改安装路径至指定文件夹下,由于安装过程比较简单,此处略过; 2.TensorFlow使用时可以采用CPU,也可采用GPU,此处使用带有独立显卡的计算机进行演示(不带独立显卡 ......
TensorFlow Anaconda Windows 环境 教程

GPU单机多卡训练

多卡训练的主要思想是将训练数据分成多个批次或样本,在每个GPU上分别处理这些数据,然后将各个GPU计算得到的梯度进行聚合,最终更新模型参数。这样可以显著加快训练过程,特别是对于大规模的深度学习模型。 多卡训练需要考虑到数据划分、梯度聚合和模型参数同步等问题,以确保各个GPU上的计算结果能够正确地协同 ......
单机 GPU

Tensorflow的简单神经网络

# 导入库 import tensorflow as tf import numpy as np from tensorflow import keras #定义和编译一个神经网络 model = tf.keras.Sequential([keras.layers.Dense(units=1, in ......
神经网络 Tensorflow 神经 网络

基于LXD搭建实验室GPU服务器(四)——LXD部署

在之前的文章中,我们完成了宿主机的配置,接下来将进行LXD的部署。 在实验室环境下,多人共用GPU服务器,由于大家所需的系统环境可能不同,一个用户修改系统文件会影响其它用户,甚至会有小白胡乱修改文件导致服务器崩溃的可能。我们可以通过不给sudo权限来减轻这个问题,但是这不仅对用户来说不方便,也大大增... ......
LXD 实验室 服务器 GPU

使用 TensorFlow 进行机器学习

使用 TensorFlow 进行机器学习 这是使用 TensorFlow 进行机器学习的官方代码存储库。 使用 TensorFlow(Google 最新、最好的机器学习库)开始进行机器学习。 概括 第 2 章- TensorFlow 基础知识 概念 1:定义张量 概念 2:评估操作 概念 3:互动会 ......
TensorFlow 机器

基于LXD搭建实验室GPU服务器(三)——配置frp网穿并注册服务

在之前博客中,我们对宿主机进行了基本配置和基本深度学习环境的配置,在本文中,我们将介绍如何对服务器进行frp网穿,本文的内容可用于后续的lxd容器中,实现每个容器皆可使用公网ip访问。 若不需要配置网穿,则可以跳过此文。 配置网穿可以在局域网外访问服务器,我们需要一台具有公网ip的服务器。 ......
实验室 服务器 LXD GPU frp

基于LXD搭建实验室GPU服务器(二)——宿主机的深度学习环境安装

在上一篇博客中,我们介绍了服务器的基本配置,例如换源、sshd配置、防火墙配置等。 在本文中,我们将继续介绍如何在宿主机配置基本的深度学习环境,包括nvidia驱动,cuda,anaconda,torch等。 ......
宿主机 宿主 深度 实验室 环境

This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.

This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.To enable the following instructions: AVX2 FM ......

基于LXD搭建实验室GPU服务器(一)——宿主机的基本配置

从零搭建服务器是一个看似简单实则有些繁琐的操作,本文旨在记录并整合这些操作,使得后续搭建可以成为一个流水线般简单流程的过程。 操作系统的安装过程网络上资源非常多,本文不再赘述。 本文将对刚安装的ubuntu20.04.06操作系统进行基本配置。 ......

抢占GPU的脚本

我主要利用Python多进程编程,通过占用GPU内存,从而达到占用GPU的目的。关于代码的解释见我的[个人博客](https://yigengjiang.github.io/the_art_of_gpu_occupation/),以下主要介绍如何使用该脚本。 我的Python版本为3.11,执行命令 ......
脚本 GPU

如何评估计算机的算力:从 CPU 到 GPU 的演变

计算机的算力一直是科学技术发展的重要驱动力之一。从最早的计算机到现代的超级计算机,计算机的算力不断提高,为人类社会带来了前所未有的变革。其中,CPU(中央处理器)和 GPU(图形处理器)是计算机中最为核心的两个组件,它们的算力和性能对于计算机的整体性能具有决定性的影响。 ## **CPU和GPU** ......
计算机 CPU GPU

Hello Cuda(一)——GPU设备检测

``` #include "device_launch_parameters.h" #include int main(int argc, char*argv[]) { int deviceCount; // 设备数目 cudaGetDeviceCount(&deviceCount); for(in ......
设备 Hello Cuda GPU

解决方案 | 1分钟快速解决 win10 任务管理器性能不显示GPU?

1 问题 环境:win10 22h2 2 解决方法 win+r输入dxdiag回车,查看下面信息: (1)确认你的Windows10版本号大于1909,如果确认,在任务管理器进程页右键名称一栏,将GPU勾选上即可。如果Windows10版本过旧,更新至1909版本或以上即可。 (2)还是上面图片点击 ......
解决方案 性能 任务 方案 win

tensorflow模型训练保存minist OCR

import tensorflow as tf from tensorflow.python.framework.convert_to_constants import convert_variables_to_constants_v2 from tensorflow.python.tools im ......
tensorflow 模型 minist OCR

GPU与CUDA C编程基本知识

## 一 、CPU与GPU的异同 CPU:延迟导向内核,所谓延迟,指指令发出到得到结果中间经历的时间。 GPU:吞吐导向内核,所谓吞吐量指单位时间内处理的指令数量。其适合于计算密集或者数据并行的场合。 ## 二、CUDA ### 2.1 简介 CUDA(Compute Unified Device ......
基本知识 知识 CUDA GPU

使用 UCS(On-Premises) 管理您的GPU资源池,释放AI大模型算力潜能

UCS(On-Premises)旨在将云上的服务能力延伸至各行业的客户的本地数据中心,结合volcano的AI作业管理及智能调度能力、xGPU的GPU虚拟化能力,帮助用户快速在IDC构建云原生的AI基础设施,更细粒度的使用GPU资源,让用户聚焦AI的业务开发,最大限度释放AI大模型算力潜能。 ......
潜能 On-Premises Premises 模型 资源

强化学习算法如何将GPU利用率提高到100%——在线强化学习如何将GPU利用率提升至100%

一直有个疑问,那就是“强化学习算法如何将GPU利用率提高到100%”,在一些论坛中也有人会提出这样的问题,但是一直也没有人比较正面的回答过这个问题,为此正好自己又想到了这么一个问题,于是想在这里正面的谈论下这个问题。 ......
利用率 100% 算法 GPU

Systrace看GPU渲染花费时间之Fence

一、前言 如上图所示的 Systrace 中,VSYNC-app 基本上没有什么变化,但是 VSYNC-sf 却一直在更新有可能是什么原因? VSYNC-app 的作用通知 app 去开始进行绘制渲染更新 UI 了,DispSync 按照屏幕的刷新率的速率去通知 app,因此 app 会以跟屏幕刷新 ......
Systrace 时间 Fence GPU

区分GPU和CPU

做项目,一直不清楚GPU和CPU的概念。 超算:一群计算机连接一起,获得更强大的计算能力,使用GPU技术。 以前是 串行计算,现在是 并行提交任务计算。 CPU由于物理限制,工艺壁垒,主频无法突破,GPU在高速增长。 GPU是专门为处理图形任务而产生的芯片 对于GPU来说,它的任务是在屏幕上合成显示 ......
GPU CPU

VTK 实例66:GPU加速光线投影体绘制

1 #include <vtkAutoInit.h> 2 VTK_MODULE_INIT(vtkRenderingOpenGL2); 3 VTK_MODULE_INIT(vtkRenderingVolumeOpenGL2); 4 VTK_MODULE_INIT(vtkRenderingFreeTyp ......
光线 实例 VTK GPU

LAXCUS和GPU软硬件结合,构建强大算力生态

在国内无法使用或者买到英伟达GH200超算情况下,利用了LAXCUS分布式操作系统强大的分布式计算能力,也能达到或者超过GH200计算性能,实现软件平替硬件的超算解决方案。 ......
软硬 生态 LAXCUS GPU

Anaconda+PyCharm+Pytorch/tensorflow环境配置个人总结

Anaconda是一个非常方便的python版本管理工具,可以很方便地切换不同版本的Python进行测试。同时不同版本之间也不存在相互的干扰。 PyCharm是一款常见的Python IDE,pytorch和TensorFlow是目前两个主流的深度学习框架。 Anaconda安装 前往官方网址下载最 ......
tensorflow Anaconda PyCharm Pytorch 环境