HPC
LetGo: A Lightweight Continuous Framework for HPC Applications Under Failures
letgo 摘要 HPC需要容错,而检查点技术开销太大。 提出letgo,能在崩溃时继续执行HPC。为什么能提?1.有的HPC应用有比较好的内在容错能力,可以重新利用默认机制。 用五个benchmark,结果不错 introduction letgo能够存在的依据: 一旦发出导致崩溃的错误信号,就可 ......
超算集群安装OpenFOAM-LIGGGHTS-CFDEM(普通用户权限-以CSU HPC CentOS7.9为例)
普通用户权限超算集群安装OpenFOAM-LIGGGHTS-CFDEM,由于缺少root权限,无法根据CFDEM官方instruction进行安装。 本文以CSU超算平台为例,利用普通用户权限进行编译安装。文章修正了已有教程中部分问题,特别感谢希望先生与记得小蘋初见教程。 1. 安装必要依赖包 此部 ......
使用NVIDIA HPC SDK构建cuda-samples
NVIDIA HPC SDK虽然附带了CUDA、cuBLAS等库,但安装路径与CUDA Toolkit有差异。cuda-samples有些示例用到了cuBLAS等数学库,按照文档直接make会找不到库文件。 翻找示例的Makefile想找全局的设置,发现有行ALL_CCFLAGS += $(EXTR ......
Amazon EC2 Hpc7g 实例现已在更多区域推出
即日起,Amazon Elastic Compute Cloud (Amazon EC2) Hpc7g 实例将在亚太地区(东京)、欧洲地区(爱尔兰)和 Amazon GovCloud(美国西部)区域推出。Amazon EC2 Hpc7g 实例由 Amazon Graviton 处理器提供支持,这些处... ......
Different HPC-focoused containerization solutions
Why WASM containerzation in HPC systems recommended in the paper in the "privilege aspect" [TOC] paper can be accessed here: https://dl.acm.org/doi/10 ......
双路CameraLink Base/ HPC 接口 单宽FMC 子卡模块
概要 QT7420 是一款双路Camera Link Base/ HPC 接口的单宽FMC 子卡模块,它提供工业标准的摄像机链路接口,为用户提供了利用FPGA 解决大运算量处理的能力。这些应用利用兼容的摄像机进行诸如帧抓取、数字视频通信和图像处理等。QT7420 的PCB 采用兼容设计,如果需要支持 ......
CCF HPC China2023|澎峰科技:使能先进计算,赋能行业应用
CCF HPC China2023圆满落幕! 桂秋八月,为期三天的中国高性能计算领域最高规格盛会——2023CCF全球高性能计算学术年会(HPC China)在青岛红岛国际展览中心圆满落幕。行业超算大咖、顶级学界精英、先锋企业领袖参会者齐聚山东青岛,共同探讨高性能计算、人工领域、大数据等诸多前沿领域 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——如何在MPI中支持multiprocessing和fork操作——如何在HPC平台上使用pytorch——是否可以通过调度器的提交参数绕过HPC的计费系统
本文要讨论的就是如何在MPI中支持multiprocessing和fork操作,但是这个问题同时也是如何在HPC平台如何使用pytorch的问题,可以说这两个问题其实是同一个问题,而这个问题的解决过程中又产生了另一个问题,你就是是否可以通过调度器的提交参数绕过HPC的计费系统? ......
ubuntu配置安装HPC
hostname > /etc/hostname cat>/etc/hosts<<EOF 127.0.0.1 localhost 168.7.10.234 master01 168.7.10.235 master02 168.7.10.236 cli 168.7.10.237 agent EOF # ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——调度器dstart的ssh启动方式不可用
根据华为的官方文档: https://support.huawei.com/enterprise/zh/doc/EDOC1100228705/d1f5a239#ZH-CN_TOPIC_0000001212004449 可以知道,HPC的启动方式如果不指定--mca plm_rsh_agent方式启动 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——官方的运行配置文件中的错误修正——MPI启动配置
官方的HPC运行配置文件: 相关知识已在前文给出具体介绍,这里不再讨论,有需要可以翻阅之前blog。 启动HPC上MPI的命令: /opt/batch/cli/bin/dsub -n xxxxxxx -A xxxxxxxxxxxx --priority 9999 --job_retry 10 --j ......
华为高性能计算(HPC)文档——技术支持>智能计算解决方案>高性能计算>HPC
链接地址: https://support.huawei.com/enterprise/zh/server-solutions/hpc-pid-253585671 ......
CCF HPC China2023 | 盛大开幕,邀您关注澎峰科技
2023年8月24日,以“算力互联·智领未来”为主题的第十九届全国高性能计算学术年会(CCF HPC China 2023)在青岛·红岛国际会议展览中心拉开帷幕。特邀嘉宾涵盖行业大咖,主持阵容同样是“重量级”——来自国家并行计算机工程技术研究中心、中国工程物理研究院、中国科学院计算机网络信息中心、国 ......
邀请函|澎峰科技邀您参加CCF HPC China2023
一年一度的全球超算盛会! 以“算力互联·智领未来”为主题的第十九届全国高性能计算学术年会(CCF HPC China 2023)将于8月24-26日(展览23-25日)在青岛·红岛国际会议展览中心举办。 · 九大院士领衔 打造顶级超算盛会 力邀中外院士、戈登贝尔奖获得者等行业身具影响力人物,为行业发 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch源码编译的一些注意事项
配置过程: (base) root@afa50e5922a4:~/pytorch# python setup.py develop Building wheel torch-2.1.0a0+git3c70d4b -- Building version 2.1.0a0+git3c70d4b cmake ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch源码编译报错——USE_CUDA=OFF——编译好的pytorch不支持CUDA的问题解决
如题: pytorch源码编译报错——USE_CUDA=OFF 在编译pytorch源码的时候发现错误,虽然编译环境中已经安装好CUDA和cudnn,环境变量也都设置好,但是编译好的pytorch包wheel总是在运行torch.cuda.is_available() 显示false,于是从编译源码 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch环境报错——torch.cuda.is_available()显示false——NVIDIA显卡驱动版本过低导致pytorch无法使用cuda
在使用这个HPC平台的时候发现了这么一个问题,那就是编译好的pytorch-cuda和anaconda官方安装的pytorch-cuda均不能调用cuda计算,这个现象十分的诡异,经过长时间的调查发现了问题所在——NVIDIA驱动版本过低。 给出该HPC的显卡驱动版本: ......
HPC中常见的调度器介绍
在高性能计算(HPC)环境中,调度器是负责管理和分配计算资源(如计算节点、处理器核心、内存等)给待执行任务的重要组件。不同的HPC系统可能使用不同的调度器,根据系统架构和用户需求的不同,调度器有各自的特点和区别。以下是一些常见的HPC调度器及其区别: ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的pytorch环境的软件升级——pytorch_cuda_1.13升级为pytorch_cuda_2.0.1
aarch64架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本 X86架构CPU下Ubuntu系统环境源码编译pytorch-gpu-2.0.1版本 如何拉取指定CPU架构并且指定ubuntu版本并且指定cuda和cudnn版本的docker镜像 如何拉取指定CPU架构 ......
HPC扩容agent&CLI节点步骤梳理
0. 修改待扩容节点主机名称,配置待扩容节点时间同步服务器。 1. 添加新增加节点条目到/etc/hosts,保证各节点hosts文件一致。 2. 在扩容节点添加相关用户,通过以下脚本在portal节点获取脚本文件,拷贝到待扩容节点执行。 userlist=(donau_guest ccs_agen ......
HPC云化部署的优势和挑战
HPC云化部署指的是将高性能计算(HPC)工作负载部署在云计算平台上,这种方式带来了一些明显的优势,但同时也面临一些挑战。以下是HPC云化部署的主要优势和挑战: ......
HPC 算力测试
#安装前配置 curl 168.7.10.2:8000/local.repo > /etc/yum.repos.d/kylin_aarch64.repoyum install -y libatomic environment-modules vim nfs-utils &>/dev/nullmkdi ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的异构计算——CPU和GPU的混合计算模式
好消息,居然有经费了,账号可以接着用了,可以接着玩超算了。 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的CPU亲和性设置
地址链接: https://www.dlaicc.com/ 很不幸的是课题组没有经费了,这个超算账号已然被华为官方停掉了,想想自己囊中羞涩还是一切作罢,估计关于超算方面的东西也就快分享到这里了。 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的单任务task的多CPU运行模式
超算是离我们平时生活比较远的一个事情,即使是对于一个计算机专业方向的学生来说,正好实验室得到了华为的超算平台的使用账号,于是就摸索了一下,不得不承认这个东西确实不是普通人能搞的明白的。 基本概念: 一个工作Job可以开多个副本,每个副本都是mpirun -N 所开出的,每个副本又被叫做任务task, ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC平台异构计算——NVIDIA GPU
使用华为的超算平台已经好长时间了,一直有个疑问,那就是这个超算平台是否支持异构计算,于是用命令试验了一下,具体命令: /opt/batch/cli/bin/dsub -n task_test -A xxxxxxxxxxxx -eo error.txt -oo output.txt -R "gpu=1 ......
浅谈HPC中的Lustre
本文分享自天翼云开发者社区《浅谈HPC中的Lustre》,作者:n****m 1. 什么是 lustre? Lustre 体系结构是一个为集群设计的存储体系结构。 其核心组件是运行在 Linux 操作系统上、 支持标准的 POSIX* UNIX 文件系统接口、 并遵循 GPL2.0 许可的 Lust ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的python运行环境的配置——arm环境下的mpi4py配置
据目前所知,这是国内可以找到的第一次公开的实现在国产的超算平台上,尤其是arm超算平台上实现了python运行环境的配置。 ......
大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC的python运行环境的配置——arm环境下的mpi4py配置
据目前所知,这是国内可以找到的第一次公开的实现在国产的超算平台上,尤其是arm超算平台上实现了python运行环境的配置。 登入平台,选择高性能计算HPC,可以看到有两个选项,一个是控制台,一个是登录节点。其中,控制台是启动超算代码运行的入口,在里面我们可以编写运行模板,指定需要的计算资源及运行代码 ......