加速

baichuan2-13b-chat加速

当前加速框架层出不穷，到底哪个能一统天下未可知，那在当前阶段我们加速大模型该选取哪个框架呢。目前存在的大模型加速框架：VLLM，TGI,FasterTransformer,DeepSpeed-MII,FlexFlow Server,LMDeploy等等等等。但是这些框架大部分支持的模型都很少，或只支 ......

baichuan2 baichuan b-chat chat 13更新时间 2023-11-02

搭建 Zerotier Moon为异地组网网络加速

由于Zerotier服务器在国外，导致在国内的速度不快，所以官方推荐设置自己的moon服务器做节点加速。moon服务器需要24小时不挂机，并且有固定ip，对硬件要求不高，所以云服务器比较符合做moon服务器第一步：在云服务器linux上安装Zerotier客户端： curl -s https:// ......

异地 Zerotier 网络 Moon更新时间 2023-11-02

CDN加速

一、简介二、应用场景系统有很多的静态资源的，并且请求量也是超级大的。例如：移动端APP，有很多的图片，小视频以及流媒体等，对于网站来说，不仅有上面那些资源之外，还有大量的HTML 文件，css文件以及Javascript文件。目前这些静态资源均是放在Nginx服务器上的，请求量很大，并且这些文件 ......

CDN更新时间 2023-11-02

使用单卡v100 32g或更低显存的卡，使用peft工具qlora或lora混合精度训练大模型chatGLM2-6b，torch混合精度加速稳定训练,解决qlora loss变成nan的问题！

最近新换了工作，以后的工作内容会和大模型相关，所以先抽空跑了一下chatGLM2-6b的demo，使用Qlora或lora微调模型今天简单写个文档记录一下，顺便也是一个简单的教程，并且踩了qlora loss变成nan训练不稳定的问题本教程并没有写lora的原理，需要的话自行查阅 1.chatG ......

精度 qlora 显存的卡 chatGLM2更新时间 2023-11-02

阿里云镜像加速器

是什么： https://promotion.aliyun.com/ntms/act/kubernetes.html 注册一个属于自己的阿里云账号（可复用淘宝账号）获取加速器地址连接控制台 -> 容器镜像服务 -> 镜像工具 -> 镜像加速器 mkdir -p /etc/docker tee / ......

加速器镜像更新时间 2023-10-31

Python - pip 加速

# 持久加速 mkdir -p ~/.pip # 清华 source cat << EOF > ~/.pip/pip.conf [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple [install] trusted-host = ......

Python pip更新时间 2023-10-31

github访问加速

1.首先打开： https://www.ipaddress.com/ 查询以下三个链接的DNS解析地址 github.com assets-cdn.github.com github.global.ssl.fastly.net 2.修改hosts地址：接着,打开系统hosts文件(需管理员权限) ......

github更新时间 2023-10-31

【CNN 取代 Transformer 加速 SAM】Fast SAM 笔记

将 SAM 任务转换为经过广泛研究的实例分割任务，并仅使用 SAM 作者发布的SA-1B数据集的1/50进行训练现有的实例分割方法问题 1：本文要解决什么问题？ SAM 的计算成本高，主要来自于处理高分辨率输入的 Transformer 架构。本文想要加速 SAM 模型的推理速度。问题 2： ......

Transformer SAM 笔记 Fast CNN更新时间 2023-10-31

免费加速

目的此目的是为了在电脑上，可以免费倍速播放一些视频，比如：百度网盘、爱奇艺，凡是可以浏览器播放的，基本都可以加速，除非播放网站做了检测。操作点击浏览器右上角，扩展功能，点击管理扩展点击获取扩展找到视频播放控制点击获取选择添加扩展再次点击浏览器右上角，找到扩展，点击关闭的眼睛，使其睁 ......

更新时间 2023-10-30

使用 std::setvbuf 加速输入输出

市面上的快读和快写，大致过程是手动扩大缓冲区，并手动将数字转化为字符，使用 fread / fwrite 进行最终缓冲区的输入和输出。考虑阅读 std::setvbuf 的文档（link），发现这东西可以设置自己的缓冲区，为自己所用，同时可以设置大小。由此，我们不难写出如下的神秘代码： #incl ......

setvbuf std更新时间 2023-10-30

业务出海、高效传输、动态加速，尽在云栖大会「CDN与边缘计算」专场

2023杭州·云栖大会，即将热力来袭。一场云计算盛会，500+前沿话题，3000+科技展品，与阿里云一起，共赴72小时的Tech沉浸之旅。今日，「CDN与边缘计算」Tech专场，重磅议题抢先知晓！ 01 「CDN与边缘计算」Tech 海外跨境CDN场景下有何加速方案？ CDN加速技术如何实现高效 ......

专场边缘大会业务动态更新时间 2023-10-24

IMX6ULL SPI应用-6轴陀螺仪加速度传感器ICM-20608-G

1 6轴陀螺仪加速度传感器ICM-20608-G 1.1 概述 The ICM-20608-G is a 6-axis MotionTracking device that combines a 3-axis gyroscope, and a 3-axis accelerometer in a sm ......

陀螺仪加速度陀螺传感器 IMX6ULL更新时间 2023-10-23

用pytorch 2.1 加速 numpy 代码

参考 https://pytorch.org/blog/compiling-numpy-code/ 在mac M2 机器上, 快了50%，但没有好几倍。可能和依赖libomp有关 brew install libomp python test_np.py test_np.py 代码如下 impor ......

pytorch 代码 numpy 2.1更新时间 2023-10-23

Docker的安装、镜像加速配置

wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo yum -y install docker-ce systemctl enable doc ......

镜像 Docker更新时间 2023-10-23

FlashAttention 如何加速Attention计算？

代数聚合计算向量\(\mathbf x^l \in \mathbb R^{1 \times d}\)的softmax值 \[m(\mathbf x^l) = max(x_i^{l}) \\ f(\mathbf x^l) = [e^{x_1^l-m(\mathbf x^l)}, \cdots, e^ ......

FlashAttention Attention更新时间 2023-10-22

图形图像硬件加速器卡设计原理图：270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

一、板卡概述本板卡基于Xilinx公司的FPGA XC7VX690T-FFG1761 芯片，支持PCIeX8、两组 64bit DDR3容量8GByte，HPC的FMC连接器，板卡支持各种FMC子卡扩展。软件支持windows，Linux操作系统。二、功能和技术指标：板卡功能参数内容主处理 ......

接口接口卡加速器图形图像图形更新时间 2023-10-18

【产品有效期验证之加速实验方法】

使用期限：大于等于5年评价路径：整机测试临床使用模式：贮存、待机、运行加速环境实验：是一种激发实验，通过强化应力环境来进行可靠性实验。加速水平通常用加速因子来体现。加速因子：设备正常工作应力下寿命与加速环境下的寿命之比。使用工具：环境实验箱1、温度加速因子（TAF）Arrhenius模型计算：Lno ......

有效期方法产品更新时间 2023-10-17

国内npm源镜像（npm加速下载）指定npm镜像

npm 官方原始镜像网址是：https://registry.npmjs.org/淘宝 NPM 镜像：https://registry.npm.taobao.org阿里云 NPM 镜像：https://npm.aliyun.com腾讯云 NPM 镜像：https://mirrors.cloud.te ......

镜像 npm更新时间 2023-10-17

github加速与添加ssh密钥

part1-github加速此处推荐Fetch GitHub Hosts，文章的中间位置有手动添加dns的内容，十分完备，此处不赘述。不知道是不是我家网络抽风，总是得代理才能进githubQAQ难受 part2-github添加ssh密钥 github中托管了许多开源项目的源码，此处感谢githu ......

密钥 github ssh更新时间 2023-10-14

一键开启bbr加速命令

vps开启bbr加速，有原版bbr，暴力bbr和bbr-plus，可以自己测试速度用哪个 wget -N --no-check-certificate "https://raw.githubusercontent.com/chiakge/Linux-NetSpeed/master/tcp.sh" & ......

命令 bbr更新时间 2023-10-12

开源DNN加速器Gemmini

ucb-bar/gemmini: Berkeley's Spatial Array Generator (github.com) Gemmini The Gemmini project is developing a full-system, full-stack DNN hardware expl ......

加速器 Gemmini DNN更新时间 2023-10-12

高速信号处理卡原理图：383-基于kintexUltraScaleXCKU060的双路QSFP+光纤PCIe卡光纤加速计算

基于kintex UltraScale XCKU060的双路QSFP+光纤PCIe 卡一、板卡概述本板卡系我司自主研发，基于Xilinx UltraScale Kintex系列FPGA XCKU060-FFVA1156-2-I架构，支持PCIE Gen3 x8模式的高速信号处理板卡，搭配两路40 ......

光纤信号处理 kintexUltraScaleXCKU 信号原理更新时间 2023-10-12

基于 ACK Fluid 的混合云优化数据访问（三）：加速第三方存储的读访问，降本增效并行

作者：车漾前文回顾：本系列将介绍如何基于 ACK Fluid 支持和优化混合云的数据访问场景，相关文章请参考：基于 ACK Fluid 的混合云优化数据访问（一）：场景与架构基于 ACK Fluid 的混合云优化数据访问（二）：搭建弹性计算实例与第三方存储的桥梁在前一篇文章《搭建弹性计算实 ......

第三方数据 Fluid ACK更新时间 2023-10-11

黑群晖配置缓存，为NAS加速

不啰嗦直接上操作 ......

缓存 NAS更新时间 2023-10-11

dotnet 8 WPF 支持在 RDP 远程桌面状态下启用渲染硬件加速

本文将和大家介绍在 dotnet 8 里 WPF 引入的新功能之一，在 RDP 远程桌面状态下启用渲染硬件加速在 dotnet 8 之前，在用户进行 RDP 远程桌面时 WPF 应用将默认关闭硬件渲染加速以获得更好的兼容性。随着系统层的渲染架构的优化，比如在 WDDM 驱动模型里面，进行远程桌面的 ......

桌面状态硬件 dotnet WPF更新时间 2023-10-11

AudioLDM 2，加速！

AudioLDM 2 由刘濠赫等人在 AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining 一文中提出。 AudioLDM 2 接受文本提示作为输入并输出对应的音频，其可用于生成逼真的声效、人类 ......

AudioLDM更新时间 2023-10-10

深度学习（cudnn加速）

cudnn为网络每一卷积层选最优实现方法，加速网络训练。设置如下： torch.backends.cudnn.benchmark = True 加速条件如下： 1. 输入数据在训练过程中一般不变化。 2. 数据量较大，并可以同时加载到GPU内存中。 3. 训练次数比较多。 ......

深度 cudnn更新时间 2023-10-09

全域Serverless+AI，华为云加速大模型应用开发

华为云FunctionGraph技术极大的优化了AI应用的开发过程，让AI团队可以更关注业务实现，而无需关注底层技术细节。 ......

应用开发 Serverless 模型 AI更新时间 2023-10-09

docker入门加实战——docker安装并配置阿里云加速

docker入门加实战——docker安装并配置阿里云加速为什么要学习docker 在开发和部署项目的过程中，经常会遇到如下问题：软件安装包名字复杂，不知道去哪里找安装软件和部署项目步骤复杂，容易出错这就是我们今天要学习Docker技术要解决的问题。有了Docker以后，项目的部署会如丝般顺 ......

docker 实战更新时间 2023-10-08

【短道速滑十】非局部均值滤波的指令集优化和加速（针对5*5的搜索特例，可达到单核1080P灰度图 28ms/帧的速度）。

通过指令集以及其他优化方式加速非局部均值滤波算法的速度，比网络中公开的算法速度（CPU版本）至少快二倍以上，结合多线程技术，可以做到接近其GPU的速度。针对5*5的搜索特例，做了特别优化，可达到单核1080P灰度图 28ms/帧的速度，如果用双线程，可满足实时处理的需求。 ......

均值短道速滑灰度特例更新时间 2023-10-08

共370篇 :3/13页 首页上一页123456下一页尾页