gpu

LAXCUS和GPU软硬件结合,构建强大算力生态

在国内无法使用或者买到英伟达GH200超算情况下,利用了LAXCUS分布式操作系统强大的分布式计算能力,也能达到或者超过GH200计算性能,实现软件平替硬件的超算解决方案。 ......
软硬 生态 LAXCUS GPU

在消费级GPU调试LLM的三种方法:梯度检查点,LoRA和量化

前言 LLM的问题就是权重参数太大,无法在我们本地消费级GPU上进行调试,所以我们将介绍3种在训练过程中减少内存消耗,节省大量时间的方法:梯度检查点,LoRA和量化。 本文转载自DeepHub IMBA 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技 ......
检查点 梯度 方法 LoRA GPU

llama2模型部署方案的简单调研-GPU显存占用(2023年7月25日版)

https://blog.csdn.net/Fatfish7/article/details/131925595 先说结论全精度llama2 7B最低显存要求:28GB全精度llama2 13B最低显存要求:52GB全精度llama2 70B最低显存要求:280GB 16精度llama2 7B预测最 ......
显存 模型 方案 llama2 llama

山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能

import cv2 GPU加速功能部署参考代码video = cv2.VideoCapture('input.mp4') fourcc = cv2.VideoWriter_fourcc(*'XVID') output = cv2.VideoWriter('output.mp4', fourcc, ... ......
热点分析 布谷 高质量 源码 芯片

在消费级GPU调试LLM的三种方法:梯度检查点,LoRA和量化

LLM的问题就是权重参数太大,无法在我们本地消费级GPU上进行调试,所以我们将介绍3种在训练过程中减少内存消耗,节省大量时间的方法:梯度检查点,LoRA和量化。 梯度检查点 梯度检查点是一种在神经网络训练过程中使动态计算只存储最小层数的技术。 为了理解这个过程,我们需要了解反向传播是如何执行的,以及 ......
检查点 梯度 方法 LoRA GPU

k8s GPU设备插件

设备插件 特性状态: Kubernetes v1.26 [stable] Kubernetes 提供了一个 设备插件框架, 你可以用它来将系统硬件资源发布到 Kubelet。 供应商可以实现设备插件,由你手动部署或作为 DaemonSet 来部署,而不必定制 Kubernetes 本身的代码。目标设 ......
插件 设备 k8s GPU k8

cuda11.5 paddlepaddle-gpu安装出错

检查安装paddlepaddle-gpu 版本为cuda11.5没有对应的版本 报错信息 Running verify PaddlePaddle program ... I0802 16:31:52.487021 271111 interpretercore.cc:237] New Executor ......
paddlepaddle-gpu paddlepaddle cuda 11.5 gpu

ubuntu系统升级软件sudo apt upgrade后GPU崩溃报错,显示驱动版本不匹配——ubuntu系统版本过低导致的问题

ubuntu系统升级软件(sudo apt upgrade)后,GPU崩溃报错,查看系统日志: Aug 2 06:25:02 lcwt rsyslogd: [origin software="rsyslogd" swVersion="8.32.0" x-pid="2059" x-info="http ......
版本 ubuntu 系统 upgrade 问题

PyTorch 中的多 GPU 训练和梯度累积作为替代方案

动动发财的小手,点个赞吧! 在[本文](https://towardsdatascience.com/multiple-gpu-training-in-pytorch-and-gradient-accumulation-as-an-alternative-to-it-e578b3fc5b91 "So ......
梯度 PyTorch 方案 GPU

Linux查看显卡 GPU信息

**1.Linux查看显卡信息:** 1.1查询显卡信息 ``` lspci | grep -i vga ``` ![](https://img2023.cnblogs.com/blog/2119461/202307/2119461-20230731164605559-905544991.png) ......
显卡 Linux 信息 GPU

X86架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本

本文操作步骤与 aarch64架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本大致相同,只是CPU架构不同而已,因此这里只记录不同的地方。 重点: 一个个人心得,那就是要编译pytorch源码最好是选择docker环境,因为这种环境下配置比较纯净,一定要避免那种自己使用 ......
pytorch-gpu 架构 源码 pytorch 版本

深度学习环境配置pytorch-GPU版本

一、下载与安装Anaconda 官网: https://www.anaconda.com/download 安装时添加环境变量勾选上,这样可以减少一步操作,不用再去自己手动添加了。 二、在anaconda里面创建虚拟环境 ![image](https://img2023.cnblogs.com/bl ......
pytorch-GPU 深度 pytorch 版本 环境

苹果mac m1,m2芯片安装 pytorch和tensorflow的GPU版本

一、下载M芯片的anaconda,并安装 二 、安装GPU版本的pytorch1.安装 Xcode xcode-select --install 2.创建环境 conda create -n torch-gpu python=3.11 conda activate torch-gpu 3.打开pyt ......
tensorflow 芯片 苹果 pytorch 版本

pytorch GPU模型训练的环境搭建

1、GPU(CUDA、cuDNN) 验证cmd nvidia-smi 2、Python(anaconda) 3、Pytorch ......
模型 pytorch 环境 GPU

multi-GPU环境下的batch normalization需要特殊实现吗?

3年前曾经写过关于分布式环境下batch normalization是否需要特殊实现的讨论: batch normalization的multi-GPU版本该怎么实现? 【Tensorflow 分布式PS/Worker模式下异步更新的情况】 当时我给出的观点就是在多卡环境下batch normali ......
normalization multi-GPU 环境 multi batch

nvidia-smi显示GPU上无进程但GPU显存却被占用

问题:有时我们在使用GPU的时候,因为某个原因,导致GPU被占,但有无法通过nvidia-smi 看到进程编号,就会产生一个现象,GPU被未知程序所占用,我们只能使用GPU的一部分,针对这种现象怎么解决呢 方法1. 重启电脑,如果win系统的话,直接关机重启即可;如果是linux系统,有图形界面的话 ......
显存 nvidia-smi GPU 进程 nvidia

特定Adreno GPU的Android设备发生冻屏问题

1)特定Adreno GPU的Android设备发生冻屏问题​2)Unity版本升级后,iOS加载UnityFramework bundle闪退3)关于RectTransfrom.rect在屏幕空间中表示的相关问题4)Unity Mesh泄露问题 这是第345篇UWA技术知识分享的推送,精选了UWA ......
Android Adreno 设备 问题 GPU

多节点高性能计算GPU集群的构建

建议参考原文: https://www.volcengine.com/docs/6535/78310 一直都在使用超算的GPU集群,但是从来没有实际操作过,虽然在自己的个人的三台主机上安装过小型的MPI集群,但是毕竟没有实际超算平台的构建经验,比如NCCL的超算平台上的安装及配置,InfiniBan ......
节点 集群 高性能 GPU

GPU的硬件组成及运行原理

# GPU的硬件组成 `GPU` 是一种专门为图形处理而设计的处理器,它的设计目标是在处理大规模、高并发的图形数据时提供高效的计算能力。与 `CPU` 相比,`GPU` 的处理器数量更多,每个处理器的计算能力相对较弱,但它们可以同时处理大量的数据,从而提供更高的计算效率。 `GPU` 的硬件组成包括 ......
原理 硬件 GPU

5.6 使用GPU

深度学习模型的计算默认情况下是在cpu上进行的。 我们可以用torch.cuda.device_count()查看设备上GPU的数量: print(torch.cuda.device_count()) 输出: 设备上有一块显卡。 在pytorch中,cpu和gpu分别用torch.device('c ......
5.6 GPU

CPU与GPU的算力差别演示

之前我们在[使用GPU训练神经网络的历史](https://mp.weixin.qq.com/s/Cm9ALAegSiokgjXAJxfevA)这篇文章介绍过GPU和CPU的差别: * GPU采用无数简单的处理单元和内存体系结构,以支持超大规模的并行计算。 * GPU专注于高度并行的数值密集型计算( ......
差别 CPU GPU

如何知道游戏中不同型号GPU带宽的瓶颈

1)如何知道游戏中不同型号GPU带宽的瓶颈​2)​Unity如何避免文字单字成行3)如何检测部分安卓机型是否支持GPU Instance4)如何筛选重复动画 这是第344篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等技术知识点,助力大家更全面地掌握和学习。 UW ......
瓶颈 带宽 GPU

项目立项说明书:GPU自动化

项目名称: GPU 自动化 项目概述: 本项目旨在开发一个 GPU 自动化系统,通过编写脚本和使用自动化工具,实现对 GPU 的管理、监控和任务调度。该系统将提供一种方便和高效的方式来管理大规模 GPU 集群,优化资源利用和任务执行,并提供实时的性能监控和报告。 项目目标: 实现 GPU 资源的自动 ......
说明书 项目 GPU

微软计划在 Direct3D 12 新增工作图功能,可解除 GPU 与 CPU 间通信带宽限制

导读 微软计划在 3D 图形程序开发接口 Direct3D 12 中加入工作图(Work Graphs)功能,这项功能可解除目前 GPU 程序开发模型中的限制,让 GPU 通用运算能够处理更多的工作负载,更广泛地被应用。 IT之家注意到,在传统情况下,GPU 的工作负载需要由 CPU 决定,即 GP ......
Direct3D 带宽 Direct3 功能 Direct

Linux和Windows系统下安装深度学习框架所需支持:Anaconda、Paddlepaddle、Paddlenlp、pytorch,含GPU、CPU版本详细安装过程

Linux和Windows系统下安装深度学习框架所需支持:Anaconda、Paddlepaddle、Paddlenlp、pytorch,含GPU、CPU版本详细安装过程 ......

龙芯公司透露,已完成通用计算 GPU 相关 IP 设计

导读 龙芯公司透露,公司目前在通用计算 GPU 方面已经完成了相关 IP 的设计,并正在进行验证和优化。 该公司计划在 2024 年第一季度推出第一个集成自研通用计算 GPU 核的 SoC 芯片。此外,龙芯还将在此基础上开发兼顾显卡和计算加速卡功能的 GPGPU 芯片,并计划于同年下半年流片。 早在 ......
公司 GPU IP

测试gpu_矩阵计算tensorflow2|pytorch

tensorflow import tensorflow as tf import timeit physical_gpus = tf.config.list_physical_devices("GPU") # 获得本地GPU列表 physical_cpus = tf.config.list_phy ......
矩阵 tensorflow2 tensorflow pytorch gpu

Efficient GPU-Accelerated Subgraph Matching

# Efficient GPU-Accelerated Subgraph Matching ## 总结 核心在利用GPU并行计算,为此设计了更适合GPU查询的数据结构,并混合BFS-DFS(先广度过滤再深度匹配)实现更好的时空复杂度 ## 动机 现有的算法都是先过滤再枚举。常规的CPU算法一次只能计 ......

GPU扫盲

# 前言 相信对于软件工程师来说, CPU并不陌生. 人工智能以及机器学习带火了GPU. 经常听到的就是, GPU计算比CPU快, 但具体是怎么快的却从未刨根问底. 之前在听到GPU的时候, 我有过这样的疑问: 1. GPU是什么? 2. 为什么比CPU快? 快在哪里? 如果各方面碾压那CPU不就淘 ......
GPU

CuPy:将 NumPy 数组调度到 GPU 上运行

### 楔子 **提到 Python 的科学计算,必然离不开 NumPy 这个库,但 NumPy 在设计之初没有考虑对 GPU 的支持。正如 NumPy 的作者 Travis Oliphant 所说,如果当时给 NumPy 添加了 GPU 的支持,就没有后来的 Tensorflow、Torch 等深 ......
数组 NumPy CuPy GPU