加速

baichuan2-13b-chat加速

当前加速框架层出不穷,到底哪个能一统天下未可知,那在当前阶段我们加速大模型该选取哪个框架呢。目前存在的大模型加速框架:VLLM,TGI,FasterTransformer,DeepSpeed-MII,FlexFlow Server,LMDeploy等等等等。但是这些框架大部分支持的模型都很少,或只支 ......
baichuan2 baichuan b-chat chat 13

搭建 Zerotier Moon为异地组网网络加速

由于Zerotier服务器在国外,导致在国内的速度不快,所以官方推荐设置自己的moon服务器做节点加速。moon服务器需要24小时不挂机,并且有固定ip,对硬件要求不高,所以云服务器比较符合做moon服务器 第一步:在云服务器linux上安装Zerotier客户端: curl -s https:// ......
异地 Zerotier 网络 Moon

CDN加速

一、简介 二、应用场景 系统有很多的静态资源的,并且请求量也是超级大的。例如:移动端APP,有很多的图片,小视频以及流媒体等,对于网站来说,不仅有上面那些资源之外,还有大量的HTML 文件,css文件以及Javascript文件。目前这些静态资源均是放在Nginx服务器上的,请求量很大,并且这些文件 ......
CDN

使用单卡v100 32g或更低显存的卡,使用peft工具qlora或lora混合精度训练大模型chatGLM2-6b,torch混合精度加速稳定训练,解决qlora loss变成nan的问题!

最近新换了工作,以后的工作内容会和大模型相关,所以先抽空跑了一下chatGLM2-6b的demo,使用Qlora或lora微调模型 今天简单写个文档记录一下,顺便也是一个简单的教程,并且踩了qlora loss变成nan训练不稳定的问题 本教程并没有写lora的原理,需要的话自行查阅 1.chatG ......
精度 qlora 显存 的卡 chatGLM2

阿里云镜像加速器

是什么: https://promotion.aliyun.com/ntms/act/kubernetes.html 注册一个属于自己的阿里云账号(可复用淘宝账号) 获取加速器地址连接 控制台 -> 容器镜像服务 -> 镜像工具 -> 镜像加速器 mkdir -p /etc/docker tee / ......
加速器 镜像

Python - pip 加速

# 持久加速 mkdir -p ~/.pip # 清华 source cat << EOF > ~/.pip/pip.conf [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple [install] trusted-host = ......
Python pip

github访问加速

1.首先打开 : https://www.ipaddress.com/ 查询以下三个链接的DNS解析地址 github.com assets-cdn.github.com github.global.ssl.fastly.net 2.修改hosts地址: 接着,打开系统hosts文件(需管理员权限) ......
github

【CNN 取代 Transformer 加速 SAM】Fast SAM 笔记

将 SAM 任务转换为经过广泛研究的实例分割任务,并仅使用 SAM 作者发布的SA-1B数据集的1/50进行训练现有的实例分割方法 问题 1: 本文要解决什么问题? SAM 的计算成本高,主要来自于 处理高分辨率输入的 Transformer 架构。本文想要加速 SAM 模型的推理速度。 问题 2: ......
Transformer SAM 笔记 Fast CNN

免费加速

目的 此目的是为了在电脑上,可以免费倍速播放一些视频,比如:百度网盘、爱奇艺,凡是可以浏览器播放的,基本都可以加速,除非播放网站做了检测。 操作 点击浏览器右上角,扩展功能, 点击管理扩展 点击获取扩展 找到视频播放控制 点击获取 选择添加扩展 再次点击浏览器右上角,找到扩展,点击关闭的眼睛,使其睁 ......

使用 std::setvbuf 加速输入输出

市面上的快读和快写,大致过程是手动扩大缓冲区,并手动将数字转化为字符,使用 fread / fwrite 进行最终缓冲区的输入和输出。 考虑阅读 std::setvbuf 的文档(link),发现这东西可以设置自己的缓冲区,为自己所用,同时可以设置大小。由此,我们不难写出如下的神秘代码: #incl ......
setvbuf std

业务出海、高效传输、动态加速,尽在云栖大会「CDN与边缘计算」专场

2023杭州·云栖大会,即将热力来袭。 一场云计算盛会,500+前沿话题,3000+科技展品,与阿里云一起,共赴72小时的Tech沉浸之旅。 今日,「CDN与边缘计算」Tech专场,重磅议题抢先知晓! 01 「CDN与边缘计算」Tech 海外跨境CDN场景下有何加速方案? CDN加速技术如何实现高效 ......
专场 边缘 大会 业务 动态

IMX6ULL SPI应用-6轴陀螺仪加速度传感器ICM-20608-G

1 6轴陀螺仪加速度传感器ICM-20608-G 1.1 概述 The ICM-20608-G is a 6-axis MotionTracking device that combines a 3-axis gyroscope, and a 3-axis accelerometer in a sm ......
陀螺仪 加速度 陀螺 传感器 IMX6ULL

用pytorch 2.1 加速 numpy 代码

参考 https://pytorch.org/blog/compiling-numpy-code/ 在mac M2 机器上, 快了50%, 但没有好几倍。可能和依赖libomp有关 brew install libomp python test_np.py test_np.py 代码如下 impor ......
pytorch 代码 numpy 2.1

Docker的安装、镜像加速配置

wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo yum -y install docker-ce systemctl enable doc ......
镜像 Docker

FlashAttention 如何加速Attention计算?

代数聚合 计算向量\(\mathbf x^l \in \mathbb R^{1 \times d}\)的softmax值 \[m(\mathbf x^l) = max(x_i^{l}) \\ f(\mathbf x^l) = [e^{x_1^l-m(\mathbf x^l)}, \cdots, e^ ......
FlashAttention Attention

图形图像硬件加速器卡设计原理图:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

一、板卡概述 本板卡基于Xilinx公司的FPGA XC7VX690T-FFG1761 芯片,支持PCIeX8、两组 64bit DDR3容量8GByte,HPC的FMC连接器,板卡支持各种FMC子卡扩展。软件支持windows,Linux操作系统。 二、功能和技术指标: 板卡功能 参数内容 主处理 ......

【产品有效期验证之加速实验方法】

使用期限:大于等于5年评价路径:整机测试临床使用模式:贮存、待机、运行加速环境实验:是一种激发实验,通过强化应力环境来进行可靠性实验。加速水平通常用加速因子来体现。加速因子:设备正常工作应力下寿命与加速环境下的寿命之比。使用工具:环境实验箱1、温度加速因子(TAF)Arrhenius模型计算:Lno ......
有效期 方法 产品

国内npm源镜像(npm加速下载) 指定npm镜像

npm 官方原始镜像网址是:https://registry.npmjs.org/淘宝 NPM 镜像:https://registry.npm.taobao.org阿里云 NPM 镜像:https://npm.aliyun.com腾讯云 NPM 镜像:https://mirrors.cloud.te ......
镜像 npm

github加速与添加ssh密钥

part1-github加速 此处推荐Fetch GitHub Hosts,文章的中间位置有手动添加dns的内容,十分完备,此处不赘述。不知道是不是我家网络抽风,总是得代理才能进githubQAQ难受 part2-github添加ssh密钥 github中托管了许多开源项目的源码,此处感谢githu ......
密钥 github ssh

一键开启bbr加速命令

vps开启bbr加速,有原版bbr,暴力bbr和bbr-plus,可以自己测试速度用哪个 wget -N --no-check-certificate "https://raw.githubusercontent.com/chiakge/Linux-NetSpeed/master/tcp.sh" & ......
命令 bbr

开源DNN加速器Gemmini

ucb-bar/gemmini: Berkeley's Spatial Array Generator (github.com) Gemmini The Gemmini project is developing a full-system, full-stack DNN hardware expl ......
加速器 Gemmini DNN

高速信号处理卡原理图:383-基于kintexUltraScaleXCKU060的双路QSFP+光纤PCIe卡光纤加速计算

基于kintex UltraScale XCKU060的双路QSFP+光纤PCIe 卡 一、板卡概述 本板卡系我司自主研发,基于Xilinx UltraScale Kintex系列FPGA XCKU060-FFVA1156-2-I架构,支持PCIE Gen3 x8模式的高速信号处理板卡,搭配两路40 ......

基于 ACK Fluid 的混合云优化数据访问(三):加速第三方存储的读访问,降本增效并行

作者:车漾 前文回顾: 本系列将介绍如何基于 ACK Fluid 支持和优化混合云的数据访问场景,相关文章请参考: 基于 ACK Fluid 的混合云优化数据访问(一):场景与架构 基于 ACK Fluid 的混合云优化数据访问(二):搭建弹性计算实例与第三方存储的桥梁 在前一篇文章《搭建弹性计算实 ......
第三方 数据 Fluid ACK

黑群晖配置缓存,为NAS加速

不啰嗦直接上操作 ......
缓存 NAS

dotnet 8 WPF 支持在 RDP 远程桌面状态下启用渲染硬件加速

本文将和大家介绍在 dotnet 8 里 WPF 引入的新功能之一,在 RDP 远程桌面状态下启用渲染硬件加速 在 dotnet 8 之前,在用户进行 RDP 远程桌面时 WPF 应用将默认关闭硬件渲染加速以获得更好的兼容性。随着系统层的渲染架构的优化,比如在 WDDM 驱动模型里面,进行远程桌面的 ......
桌面 状态 硬件 dotnet WPF

AudioLDM 2,加速!

AudioLDM 2 由刘濠赫等人在 AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining 一文中提出。 AudioLDM 2 接受文本提示作为输入并输出对应的音频,其可用于生成逼真的声效、人类 ......
AudioLDM

深度学习(cudnn加速)

cudnn为网络每一卷积层选最优实现方法,加速网络训练。 设置如下: torch.backends.cudnn.benchmark = True 加速条件如下: 1. 输入数据在训练过程中一般不变化。 2. 数据量较大,并可以同时加载到GPU内存中。 3. 训练次数比较多。 ......
深度 cudnn

全域Serverless+AI,华为云加速大模型应用开发

华为云FunctionGraph技术极大的优化了AI应用的开发过程,让AI团队可以更关注业务实现,而无需关注底层技术细节。 ......
应用开发 Serverless 模型 AI

docker入门加实战——docker安装并配置阿里云加速

docker入门加实战——docker安装并配置阿里云加速 为什么要学习docker 在开发和部署项目的过程中,经常会遇到如下问题: 软件安装包名字复杂,不知道去哪里找 安装软件和部署项目步骤复杂,容易出错 这就是我们今天要学习Docker技术要解决的问题。有了Docker以后,项目的部署会如丝般顺 ......
docker 实战

【短道速滑十】非局部均值滤波的指令集优化和加速(针对5*5的搜索特例,可达到单核1080P灰度图 28ms/帧的速度)。

通过指令集以及其他优化方式加速非局部均值滤波算法的速度,比网络中公开的算法速度(CPU版本)至少快二倍以上,结合多线程技术,可以做到接近其GPU的速度。针对5*5的搜索特例,做了特别优化,可达到单核1080P灰度图 28ms/帧的速度,如果用双线程,可满足实时处理的需求。 ......
均值 短道 速滑 灰度 特例