HPC

LetGo: A Lightweight Continuous Framework for HPC Applications Under Failures

letgo 摘要 HPC需要容错,而检查点技术开销太大。 提出letgo,能在崩溃时继续执行HPC。为什么能提?1.有的HPC应用有比较好的内在容错能力,可以重新利用默认机制。 用五个benchmark,结果不错 introduction letgo能够存在的依据: 一旦发出导致崩溃的错误信号,就可 ......

超算集群安装OpenFOAM-LIGGGHTS-CFDEM(普通用户权限-以CSU HPC CentOS7.9为例)

普通用户权限超算集群安装OpenFOAM-LIGGGHTS-CFDEM,由于缺少root权限,无法根据CFDEM官方instruction进行安装。 本文以CSU超算平台为例,利用普通用户权限进行编译安装。文章修正了已有教程中部分问题,特别感谢希望先生与记得小蘋初见教程。 1. 安装必要依赖包 此部 ......

使用NVIDIA HPC SDK构建cuda-samples

NVIDIA HPC SDK虽然附带了CUDA、cuBLAS等库,但安装路径与CUDA Toolkit有差异。cuda-samples有些示例用到了cuBLAS等数学库,按照文档直接make会找不到库文件。 翻找示例的Makefile想找全局的设置,发现有行ALL_CCFLAGS += $(EXTR ......
cuda-samples samples NVIDIA cuda HPC

Amazon EC2 Hpc7g 实例现已在更多区域推出

即日起,Amazon Elastic Compute Cloud (Amazon EC2) Hpc7g 实例将在亚太地区(东京)、欧洲地区(爱尔兰)和 Amazon GovCloud(美国西部)区域推出。Amazon EC2 Hpc7g 实例由 Amazon Graviton 处理器提供支持,这些处... ......
实例 区域 更多 Amazon Hpc7g

Different HPC-focoused containerization solutions

Why WASM containerzation in HPC systems recommended in the paper in the "privilege aspect" [TOC] paper can be accessed here: https://dl.acm.org/doi/10 ......

双路CameraLink Base/ HPC 接口 单宽FMC 子卡模块

概要 QT7420 是一款双路Camera Link Base/ HPC 接口的单宽FMC 子卡模块,它提供工业标准的摄像机链路接口,为用户提供了利用FPGA 解决大运算量处理的能力。这些应用利用兼容的摄像机进行诸如帧抓取、数字视频通信和图像处理等。QT7420 的PCB 采用兼容设计,如果需要支持 ......
CameraLink 模块 接口 Base HPC

CCF HPC China2023|澎峰科技:使能先进计算,赋能行业应用

CCF HPC China2023圆满落幕! 桂秋八月,为期三天的中国高性能计算领域最高规格盛会——2023CCF全球高性能计算学术年会(HPC China)在青岛红岛国际展览中心圆满落幕。行业超算大咖、顶级学界精英、先锋企业领袖参会者齐聚山东青岛,共同探讨高性能计算、人工领域、大数据等诸多前沿领域 ......
行业应用 先进 行业 China 科技

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——如何在MPI中支持multiprocessing和fork操作——如何在HPC平台上使用pytorch——是否可以通过调度器的提交参数绕过HPC的计费系统

本文要讨论的就是如何在MPI中支持multiprocessing和fork操作,但是这个问题同时也是如何在HPC平台如何使用pytorch的问题,可以说这两个问题其实是同一个问题,而这个问题的解决过程中又产生了另一个问题,你就是是否可以通过调度器的提交参数绕过HPC的计费系统? ......

ubuntu配置安装HPC

hostname > /etc/hostname cat>/etc/hosts<<EOF 127.0.0.1 localhost 168.7.10.234 master01 168.7.10.235 master02 168.7.10.236 cli 168.7.10.237 agent EOF # ......
ubuntu HPC

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——调度器dstart的ssh启动方式不可用

根据华为的官方文档: https://support.huawei.com/enterprise/zh/doc/EDOC1100228705/d1f5a239#ZH-CN_TOPIC_0000001212004449 可以知道,HPC的启动方式如果不指定--mca plm_rsh_agent方式启动 ......
平台 人工智能 高性能 人工 方式

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——官方的运行配置文件中的错误修正——MPI启动配置

官方的HPC运行配置文件: 相关知识已在前文给出具体介绍,这里不再讨论,有需要可以翻阅之前blog。 启动HPC上MPI的命令: /opt/batch/cli/bin/dsub -n xxxxxxx -A xxxxxxxxxxxx --priority 9999 --job_retry 10 --j ......
平台 人工智能 高性能 人工 错误

华为高性能计算(HPC)文档——技术支持>智能计算解决方案>高性能计算>HPC

链接地址: https://support.huawei.com/enterprise/zh/server-solutions/hpc-pid-253585671 ......
高性能 HPC gt 技术支持 解决方案

CCF HPC China2023 | 盛大开幕,邀您关注澎峰科技

2023年8月24日,以“算力互联·智领未来”为主题的第十九届全国高性能计算学术年会(CCF HPC China 2023)在青岛·红岛国际会议展览中心拉开帷幕。特邀嘉宾涵盖行业大咖,主持阵容同样是“重量级”——来自国家并行计算机工程技术研究中心、中国工程物理研究院、中国科学院计算机网络信息中心、国 ......
China 科技 2023 CCF HPC

邀请函|澎峰科技邀您参加CCF HPC China2023

一年一度的全球超算盛会! 以“算力互联·智领未来”为主题的第十九届全国高性能计算学术年会(CCF HPC China 2023)将于8月24-26日(展览23-25日)在青岛·红岛国际会议展览中心举办。 · 九大院士领衔 打造顶级超算盛会 力邀中外院士、戈登贝尔奖获得者等行业身具影响力人物,为行业发 ......
邀请函 China 科技 2023 CCF

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch源码编译的一些注意事项

配置过程: (base) root@afa50e5922a4:~/pytorch# python setup.py develop Building wheel torch-2.1.0a0+git3c70d4b -- Building version 2.1.0a0+git3c70d4b cmake ......
平台 人工智能 高性能 源码 人工

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch源码编译报错——USE_CUDA=OFF——编译好的pytorch不支持CUDA的问题解决

如题: pytorch源码编译报错——USE_CUDA=OFF 在编译pytorch源码的时候发现错误,虽然编译环境中已经安装好CUDA和cudnn,环境变量也都设置好,但是编译好的pytorch包wheel总是在运行torch.cuda.is_available() 显示false,于是从编译源码 ......
pytorch 平台 人工智能 CUDA 高性能

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch环境报错——torch.cuda.is_available()显示false——NVIDIA显卡驱动版本过低导致pytorch无法使用cuda

在使用这个HPC平台的时候发现了这么一个问题,那就是编译好的pytorch-cuda和anaconda官方安装的pytorch-cuda均不能调用cuda计算,这个现象十分的诡异,经过长时间的调查发现了问题所在——NVIDIA驱动版本过低。 给出该HPC的显卡驱动版本: ......

HPC中常见的调度器介绍

在高性能计算(HPC)环境中,调度器是负责管理和分配计算资源(如计算节点、处理器核心、内存等)给待执行任务的重要组件。不同的HPC系统可能使用不同的调度器,根据系统架构和用户需求的不同,调度器有各自的特点和区别。以下是一些常见的HPC调度器及其区别: ......
常见 HPC

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch环境的软件升级——pytorch_cuda_1.13升级为pytorch_cuda_2.0.1

aarch64架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本 X86架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本 如何拉取指定CPU架构并且指定ubuntu版本并且指定cuda和cudnn版本的docker镜像 如何拉取指定CPU架构 ......

HPC扩容agent&CLI节点步骤梳理

0. 修改待扩容节点主机名称,配置待扩容节点时间同步服务器。 1. 添加新增加节点条目到/etc/hosts,保证各节点hosts文件一致。 2. 在扩容节点添加相关用户,通过以下脚本在portal节点获取脚本文件,拷贝到待扩容节点执行。 userlist=(donau_guest ccs_agen ......
节点 步骤 agent HPC CLI

HPC云化部署的优势和挑战

HPC云化部署指的是将高性能计算(HPC)工作负载部署在云计算平台上,这种方式带来了一些明显的优势,但同时也面临一些挑战。以下是HPC云化部署的主要优势和挑战: ......
优势 HPC

HPC 算力测试

#安装前配置 curl 168.7.10.2:8000/local.repo > /etc/yum.repos.d/kylin_aarch64.repoyum install -y libatomic environment-modules vim nfs-utils &>/dev/nullmkdi ......
HPC

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的异构计算——CPU和GPU的混合计算模式

好消息,居然有经费了,账号可以接着用了,可以接着玩超算了。 ......
平台 人工智能 高性能 人工 模式

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的CPU亲和性设置

地址链接: https://www.dlaicc.com/ 很不幸的是课题组没有经费了,这个超算账号已然被华为官方停掉了,想想自己囊中羞涩还是一切作罢,估计关于超算方面的东西也就快分享到这里了。 ......

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的单任务task的多CPU运行模式

超算是离我们平时生活比较远的一个事情,即使是对于一个计算机专业方向的学生来说,正好实验室得到了华为的超算平台的使用账号,于是就摸索了一下,不得不承认这个东西确实不是普通人能搞的明白的。 基本概念: 一个工作Job可以开多个副本,每个副本都是mpirun -N 所开出的,每个副本又被叫做任务task, ......
平台 人工智能 高性能 人工 任务

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC平台异构计算——NVIDIA GPU

使用华为的超算平台已经好长时间了,一直有个疑问,那就是这个超算平台是否支持异构计算,于是用命令试验了一下,具体命令: /opt/batch/cli/bin/dsub -n task_test -A xxxxxxxxxxxx -eo error.txt -oo output.txt -R "gpu=1 ......
平台 人工智能 高性能 人工 智能

浅谈HPC中的Lustre

本文分享自天翼云开发者社区《浅谈HPC中的Lustre》,作者:n****m 1. 什么是 lustre? Lustre 体系结构是一个为集群设计的存储体系结构。 其核心组件是运行在 Linux 操作系统上、 支持标准的 POSIX* UNIX 文件系统接口、 并遵循 GPL2.0 许可的 Lust ......
Lustre HPC

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的python运行环境的配置——arm环境下的mpi4py配置

据目前所知,这是国内可以找到的第一次公开的实现在国产的超算平台上,尤其是arm超算平台上实现了python运行环境的配置。 ......
环境 平台 人工智能 高性能 人工

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的python运行环境的配置——arm环境下的mpi4py配置

据目前所知,这是国内可以找到的第一次公开的实现在国产的超算平台上,尤其是arm超算平台上实现了python运行环境的配置。 登入平台,选择高性能计算HPC,可以看到有两个选项,一个是控制台,一个是登录节点。其中,控制台是启动超算代码运行的入口,在里面我们可以编写运行模板,指定需要的计算资源及运行代码 ......
环境 平台 人工智能 高性能 人工

高性能计算HPC-基础知识

高性能计算(缩写 HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计 算资源操作)的计算系统和环境。有许多类型的 HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。 高性能计算集群性能指标 FLOPS 是指每秒浮点运算次数,Flops 用作计 ......
高性能 基础知识 基础 知识 HPC
共31篇  :1/2页 首页上一页1下一页尾页