【论文阅读】CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention

4.1 Self-attention

# 1. 问题引入 我们在之前的课程里遇到的都是输入是一个向量,输出是类别或者标量.但如果输入是向量的集合且向量长度还会变化,又应该怎么处理呢? ![image](https://img2023.cnblogs.com/blog/2264614/202307/2264614-202307021649 ......
什么是 Kernel Smoother ?它与 Self Attention 有什么关系?

[1] **带权滑动平均(Weighted Moving Average, WMA)** 是标量场上的滑动窗口内的加权平均,数学上等价于卷积。[^WMA] [2] **Kernel Smoother** 是一种特殊的 WMA 方法,特殊在于权重是由**核函数**决定的,相互之间越接近的点具有越高的权 ......
Attention is All you need

转载:https://zhuanlan.zhihu.com/p/46990010 Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采用了RNN模型, ......
Self-attention with Functional Time Representation Learning

[TOC] > [Xu D., Ruan C., Kumar S., Korpeoglu E. and Achan K. Self-attention with functional time representation learning. NIPS, 2019.](http://arxiv.or ......

Time Interval Aware Self-Attention for Sequential Recommendation

[TOC] > [Li J., Wang Y., McAuley J. Time interval aware self-attention for sequential recommendation. WSDM, 2020.](https://dl.acm.org/doi/10.1145/3336 ......

Rank Correlation

[TOC] > [Kumar R., Vassilvitskii S. Generalized distances between rankings. WWW, 2010.](https://dl.acm.org/doi/10.1145/1772690.1772749) ## 概 有些时候, 我们会 ......
attention层计算过程: 相似度函数fatt计算输入X和查询向量q之间的相似度e; 相似度e经过softmax计算得到权重 a。 向量e和a的长度与输入X的第一个维度相同。 权重a与输入X相乘,得到输出y。 相似度计算可使用 点积dot prodecut,由于输入X的维度通常较高,q.X值会很 ......
Attention、Self-Attention 与 Multi-Head Attention

Corpus语料库与DB数据库 World Knowledge世界常识库:OALD牛津高阶/Synonyms/Phrases/…, 新华字典/成语词典/辞海, 行业词典,大英百科,Wikipedia,… 全局信息: Corpus语料库、行业通用数据库(例如Springer/Google Schola ......

业务场景(用户交互) + Corpus语料库/数据库建立 + Attention 与 Self-Attention:世界常识库|全局信息|语法信息|句法信息|Context上下文信息

一、场景(用户交互): 1. 用户发起新会话Session,初始化交互系统,等待 用户输入 或 传入任务文档; 2. 用户实时输入,触发实时交互,设当前输入句子为S: 当前输入句子 S 长度未定,并且可能是动态字符流式输入: 因此可以用 Sliding Window滑动窗口, 提取 当前输入单词Wo ......
self—attention 自注意力机制 一、输入 在学习自注意力机制之前,我们学到的神经网络的输入都是一个向量,输出可能是一个数值或者是一个类别。 1.举个例子。假设输入的向量是一排向量,而且输入的向量的数目是会改变的, 最简单的输入长度会改变的向量就是文字处理,假设我们的输入是一个句子的话。 ......
论文阅读 | Learn from Others and Be Yourself in Heterogeneous Federated Learning

**在异构联邦学习中博采众长做自己** 代码:https://paperswithcode.com/paper/learn-from-others-and-be-yourself-in **摘要** 联邦学习中有异质性问题和灾难性遗忘。首先,由于非I.I.D(相同独立分布)数据和异构体系结构,模型在 ......

关于vi编辑出现E325: ATTENTION的解决方案

解决方案 1 - vi filename进入编辑器,查看报错信息,出现E325: ATTENTION 例如:E325: ATTENTION Found a swap file by the name "rm /var/opt/gitlab/gitlab-rails/etc/.gitlab.yml.s ......
Neural Attentive Session-based Recommendation

[TOC] >[ Li J., Ren P., Chen Z., Ren Z., Lian T. and Ma J. Neural attentive session-based recommendation. CIKM, 2017.](http://arxiv.org/abs/1711.04725 ......

Efficient Graph Generation with Graph Recurrent Attention Networks

[TOC] > [Liao R., Li Y., Song Y., Wang S., Nash C., Hamilton W. L., Duvenaud D., Urtasun R. and Zemel R. NIPS, 2019.](http://arxiv.org/abs/1910.00760) ......

Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers概述

0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督语义分割 发表时间: CVPR 2022(2022.3.5) 1.针对的问题 目前主流的弱监督语义分割方法通常首先训练分类模型,基于类别激活图(CAM)或其变种生成初始伪标签;然后对伪标签进行细化作为监督信息训练一 ......

《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》特征交叉论文阅读

背景 这是一篇利用多头attention机制来做特征交叉的论文 模型结构 AutoInt的模型结构如上图所示,搞模型包含 Embedding Layer、Interacting Layer、Output Layer三个部分,其中Embedding Layer和Output Layer和普通模型没什么 ......

E325: ATTENTION Found a swap file by the name "/etc/ssh/.sshd_config.swp"

今天使用vim /etc/ssh/.sshd_config命令报下面这个错误 查询后发现是上次修改内容没有保存,意外退出造成的,生成了一个.swp文件。我按了一下回车就回到编辑页面了,没有保存上次的编辑。其他解决方法还原上次编辑结果,使用命令vim -r 文件名 命令恢复上次编辑结果,使用 rm - ......
Identity server4 Exception: Correlation failed. Unknown location

在 登录后跳转就报错了,在一番折腾后,原来是 服务端为http,将服务端改为https 解决 ......


面对的问题是什么? 复杂输入,多个变长的向量 这里自然会想到RNN,后面会有比较 具体的场景, 可以是一段话,每个word一个向量,可以用one hot,但大多时候是用embedding 可以是一段印频,每25ms一个向量,按10ms滑动,可以看出音频的数据量是非常大的 也可以是一张图片。。。 输出 ......
Representation Learning for Attributed Multiplex Heterogeneous Network

Cen Y., Zou X., Zhang J., Yang H., Zhou J. and Tang J. Representation learning for attributed multiplex heterogeneous network. KDD, 2019. 概 本文在 Attrib ......

Deep-Learning-Based Spatio-Temporal-Spectral Integrated Fusion of Heterogeneous Remote Sensing Images

Deep-Learning-Based Spatio-Temporal-Spectral Integrated Fusion of Heterogeneous Remote Sensing Images abstract 为了解决STF中的生成heterogeneous images问题: 为此,本 ......

Attention Is All You Need—transformer详解

Attention Is All You Need 论文 transformer代码 以下大部分是根据论文理解进行的总结和概括,如有疑问,欢迎交流~ transformer仅仅使用注意力机制,没有使用任何的卷积或者RNN结构。 传统RNN结构的当前隐层状态$h_t$需要当前时刻的输入以及上一时刻的隐 ......
参考:https://blog.csdn.net/weixin_52668444/article/details/115288690 传统的机器翻译为例子来说明为什么我们需要Attention。 encoder的工作原理和RNN类似,将词向量输入到Encoder中之后,我们将最后一个hidden s ......

Heterogeneous Graph Attention Network

Wang X., Ji H., Shi C., Wang B., Cui P., Yu P. and Ye Y. Heterogeneous graph attention network. WWW, 2019. 概 Attention + 异构图. 符号说明 $\mathcal{G} = (\ma ......
Heterogeneous Deep Graph Infomax

Ren Y., Liu B., Huang C., Dai P., Bo L. and Zhang J. Heterogeneous deep graph infomax. arXiv preprint arXiv:1911.08538, 2019. 概 本文介绍了异构图的一种无监督学习方法. 这里 ......
文献阅读《AcsiNet: Attention-Based Deep Learning Network for CSI Prediction in FDD MIMO Systems》

这篇文献的作者是南华大学的林文斌老师,于2023年3月3日发表在IEEE WIRELESS COMMUNICATIONS LETTERS。 文章直接对上行 CSI 矩阵使用离散傅里叶逆变换进行压缩,然后将其输入一个基于注意力(attention-based)的深度学习网络,该网络可以专注于关键的 C ......

Hugging News #0414: Attention 在多模态情景中的应用、Unity API 以及 Gradio 主题构建器

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! 社区动向 Attention ......
Attributed Graph Clustering |A Deep Attentional Embedding Approach

论文阅读01-Attributed Graph Clustering: A Deep Attentional Embedding Approach 1. 创新点idea Two-step的图嵌入方法不是目标导向的,聚类效果不好,提出一种基于目标导向的属性图聚类框架。 所谓目标导向,就是说特征提取和聚 ......
