transformer attention mlps bert

云端开炉,线上训练,Bert-vits2-v2.2云端线上训练和推理实践(基于GoogleColab)

对于笔者这样的穷哥们来讲，GoogleColab就是黑暗中的一道光，就算有训练时长限制，也能凑合用了，要啥自行车？要饭咱也就别嫌饭馊了，本次我们基于GoogleColab在云端训练和推理Bert-vits2-v2.2项目，复刻那黑破坏神角色莉莉丝(lilith)。 ......

云端 GoogleColab Bert-vits Bert vits更新时间 2023-12-19

Sw-YoloX An anchor-free detector based transformer for sea surface object detection

Sw-YoloX An anchor-free detector based transformer for sea surface object detection 基于Transformer用于海上目标检测的无锚检测器：Sw-YoloX 1)由于不同海洋状态下的活体和漂浮物体数据稀缺且昂贵，我们 ......

anchor-free transformer detection Sw-YoloX detector更新时间 2023-12-19

Is Attention Better Than Matrix Decomposition?

Is Attention Better Than Matrix Decomposition? * Authors: [[Zhengyang Geng]], [[Meng-Hao Guo]], [[Hongxu Chen]], [[Xia Li]], [[Ke Wei]], [[Zhouchen Li ......

Decomposition Attention Better Matrix Than更新时间 2023-12-18

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation * Authors: [[Meng-Hao Guo]], [[Cheng-Ze Lu]], [[Qibin Hou]], [[Zhengning ......

Convolutional Segmentation Rethinking Attention Semantic更新时间 2023-12-18

CCNet: Criss-Cross Attention for Semantic Segmentation

CCNet: Criss-Cross Attention for Semantic Segmentation * Authors: [[Zilong Huang]], [[Xinggang Wang]], [[Yunchao Wei]], [[Lichao Huang]], [[Humphrey S ......

Segmentation Criss-Cross Attention Semantic CCNet更新时间 2023-12-18

Dual Attention Network for Scene Segmentation：双线并行的注意力

Dual Attention Network for Scene Segmentation * Authors: [[Jun Fu]], [[Jing Liu]], [[Haijie Tian]], [[Yong Li]], [[Yongjun Bao]], [[Zhiwei Fang]], [[H ......

Segmentation 注意力 Attention Network Scene更新时间 2023-12-18

Vision Transformer with Super Token Sampling

Vision Transformer with Super Token Sampling * Authors: [[Huaibo Huang]], [[Xiaoqiang Zhou]], [[Jie Cao]], [[Ran He]], [[Tieniu Tan]] Local library 初读 ......

Transformer Sampling Vision Super Token更新时间 2023-12-18

Attention Is All You Need

Attention Is All You Need * Authors: [[Ashish Vaswani]], [[Noam Shazeer]], [[Niki Parmar]], [[Jakob Uszkoreit]], [[Llion Jones]], [[Aidan N. Gomez]], ......

Attention Need All You Is更新时间 2023-12-18

Expectation-Maximization Attention Networks for Semantic Segmentation 使用了EM算法的注意力

Expectation-Maximization Attention Networks for Semantic Segmentation * Authors: [[Xia Li]], [[Zhisheng Zhong]], [[Jianlong Wu]], [[Yibo Yang]], [[Zho ......

Expectation-Maximization Maximization Segmentation 算法 Expectation更新时间 2023-12-18

Bottleneck Transformers for Visual Recognition

Bottleneck Transformers for Visual Recognition * Authors: [[Aravind Srinivas]], [[Tsung-Yi Lin]], [[Niki Parmar]], [[Jonathon Shlens]], [[Pieter Abbee ......

Transformers Recognition Bottleneck Visual for更新时间 2023-12-18

SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation * Authors: [[Qiang Wan]], [[Zilong Huang]], [[Jiachen Lu]], [[Gang Yu]] ......

Squeeze-enhanced Segmentation Transformer SeaFormer Semantic更新时间 2023-12-18

UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery

UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery * Authors: [[Libo Wang]], [[Rui Li]], [[ ......

segmentation transformer UNetFormer UNet-like efficient更新时间 2023-12-18

CBAM: Convolutional Block Attention Module

CBAM: Convolutional Block Attention Module * Authors: [[Sanghyun Woo]], [[Jongchan Park]], [[Joon-Young Lee]], [[In So Kweon]] doi:https://doi.org/10. ......

Convolutional Attention Module Block CBAM更新时间 2023-12-18

PSANet: Point-wise Spatial Attention Network for Scene Parsing双向注意力

PSANet: Point-wise Spatial Attention Network for Scene Parsing * Authors: [[Hengshuang Zhao]], [[Yi Zhang]], [[Shu Liu]], [[Jianping Shi]], [[Chen Cha ......

双向注意力 Point-wise Attention Network更新时间 2023-12-18

SegViT: Semantic Segmentation with Plain Vision Transformers

SegViT: Semantic Segmentation with Plain Vision Transformers * Authors: [[Bowen Zhang]], [[Zhi Tian]], [[Quan Tang]], [[Xiangxiang Chu]], [[Xiaolin We ......

Segmentation Transformers Semantic SegViT Vision更新时间 2023-12-18

BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT

alias: Zhu2023a tags: 超标记注意力 rating: ⭐ share: false ptype: article BiFormer: Vision Transformer with Bi-Level Routing Attention * Authors: [[Lei Zhu] ......

轻量 Transformer 标记 Attention BiFormer更新时间 2023-12-18

Object Tracking Network Based on Deformable Attention Mechanism

Object Tracking Network Based on Deformable Attention Mechanism Local library 初读印象 comment:: （DeTrack）采用基于可变形注意力机制的编码器模块和基于自注意力机制的编码器模块相结合的方式进行特征交互。基于 ......

Deformable Attention Mechanism Tracking Network更新时间 2023-12-18

A Deformable Attention Network for High-Resolution Remote Sensing Images Semantic Segmentation可变形注意力

A Deformable Attention Network for High-Resolution Remote Sensing Images Semantic Segmentation * Authors: [[Renxiang Zuo]], [[Guangyun Zhang]], [[Rong ......

High-Resolution Segmentation 注意力 Deformable Resolution更新时间 2023-12-18

2021-CVPR-Transformer Tracking

Transformer Tracking 相关性在跟踪领域起着关键作用，特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而，相关操作本身是一个局部线性匹配过程，导致语义信息的丢失并容易陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。还有比相关性更好的特征 ......

CVPR-Transformer Transformer Tracking 2021 CVPR更新时间 2023-12-18

GCGP：Global Context and Geometric Priors for Effective Non-Local Self-Attention加入了上下文信息和几何先验的注意力

Global Context and Geometric Priors for Effective Non-Local Self-Attention * Authors: [[Woo S]] 初读印象 comment:: （GCGP）提出了一个新的关系推理模块，它包含了一个上下文化的对角矩阵和二维相 ......

先验上下文 Self-Attention 几何注意力更新时间 2023-12-18

Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT中的位置编码

Rethinking and Improving Relative Position Encoding for Vision Transformer * Authors: [[Kan Wu]], [[Houwen Peng]], [[Minghao Chen]], [[Jianlong Fu]], ......

Transformer Rethinking Improving Encoding Relative更新时间 2023-12-18

Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)

近日，Bert-vits2-v2.2如约更新，该新版本v2.2主要把Emotion 模型换用CLAP多模态模型，推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成，让推理音色更具情感特色，并且推出了新的预处理webuI，操作上更加亲民和接地气。更多情报请 ......

Bert-vits 模型 Bert vits miko更新时间 2023-12-18

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition：使用大核卷积调制来简化注意力

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition * Authors: [[Qibin Hou]], [[Cheng-Ze Lu]], [[Ming-Ming Cheng]], [[Jiashi Feng]] ......

卷积 Transformer-Style Conv2Former Recognition Transformer更新时间 2023-12-17

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解

初读印象 comment:: (Swin-transformer)代码：https://github. com/microsoft/Swin-Transformer 动机将在nlp上主流的Transformer转换到cv上。存在以下困难： nlp中单词标记是一个基本单元，但是视觉元素在尺度上有很大 ......

Transformer Hierarchical Shifted Windows Vision更新时间 2023-12-17

Fully Attentional Network for Semantic Segmentation：FLANet

Fully Attentional Network for Semantic Segmentation * Authors: [[Qi Song]], [[Jie Li]], [[Chenghong Li]], [[Hao Guo]], [[Rui Huang]] 初读印象 comment:: (F ......

Segmentation Attentional Semantic Network FLANet更新时间 2023-12-17

Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation；OCRNet

Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation * Authors: [[Yuhui Yuan]], [[Xiaokang Chen]], [[Xilin Chen]], [[ ......

Segmentation Object-Contextual Representations Transformer Contextual更新时间 2023-12-17

从滑动窗口到YOLO、Transformer：目标检测的技术革新

本文全面回顾了目标检测技术的演进历程，从早期的滑动窗口和特征提取方法到深度学习的兴起，再到YOLO系列和Transformer的创新应用。通过对各阶段技术的深入分析，展现了计算机视觉领域的发展趋势和未来潜力。关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验 ......

Transformer 目标技术 YOLO更新时间 2023-12-17

Instruction-Following Agents with Multimodal Transformer

概述提出了InstructRL，包含一个multimodal transformer用来将视觉obs和语言的instruction进行编码，以及一个transformer-based policy，可以基于编码的表示来输出actions。前者在1M的image-text对和NL的text上进行训 ......

Instruction-Following Instruction Transformer Multimodal Following更新时间 2023-12-16

关于UIView transform使用注意点

先上代码 let tView = UIView()override func viewDidLoad() { tView.backgroundColor = .orange view.addSubview(tView)} override func viewWillLayoutSubViews() ......

transform UIView更新时间 2023-12-16

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

前言在视频生成场景中，用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪 ......

真实感 Transformer 模型照片视频更新时间 2023-12-15

共560篇 :2/19页 首页上一页12345下一页尾页