transformer simplifying论文block

SegViT: Semantic Segmentation with Plain Vision Transformers

SegViT: Semantic Segmentation with Plain Vision Transformers * Authors: [[Bowen Zhang]], [[Zhi Tian]], [[Quan Tang]], [[Xiangxiang Chu]], [[Xiaolin We ......

Segmentation Transformers Semantic SegViT Vision更新时间 2023-12-18

BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT

alias: Zhu2023a tags: 超标记注意力 rating: ⭐ share: false ptype: article BiFormer: Vision Transformer with Bi-Level Routing Attention * Authors: [[Lei Zhu] ......

轻量 Transformer 标记 Attention BiFormer更新时间 2023-12-18

《X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages》论文学习

《X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages》论文学习 ......

Multi-Modalities Bootstrapping Modalities Languages Advanced更新时间 2023-12-18

2021-CVPR-Transformer Tracking

Transformer Tracking 相关性在跟踪领域起着关键作用，特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而，相关操作本身是一个局部线性匹配过程，导致语义信息的丢失并容易陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。还有比相关性更好的特征 ......

CVPR-Transformer Transformer Tracking 2021 CVPR更新时间 2023-12-18

Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT中的位置编码

Rethinking and Improving Relative Position Encoding for Vision Transformer * Authors: [[Kan Wu]], [[Houwen Peng]], [[Minghao Chen]], [[Jianlong Fu]], ......

Transformer Rethinking Improving Encoding Relative更新时间 2023-12-18

2023年12月论文推荐

12月已经过了一半了，还有2周就是2024年了，我们来推荐下这两周我发现的一些好的论文，另外再推荐2篇很好的英文文章。 https://avoid.overfit.cn/post/4a878fde9a3f4cf3a29de4e742580d6b ......

论文 2023更新时间 2023-12-18

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition：使用大核卷积调制来简化注意力

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition * Authors: [[Qibin Hou]], [[Cheng-Ze Lu]], [[Ming-Ming Cheng]], [[Jiashi Feng]] ......

卷积 Transformer-Style Conv2Former Recognition Transformer更新时间 2023-12-17

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解

初读印象 comment:: (Swin-transformer)代码：https://github. com/microsoft/Swin-Transformer 动机将在nlp上主流的Transformer转换到cv上。存在以下困难： nlp中单词标记是一个基本单元，但是视觉元素在尺度上有很大 ......

Transformer Hierarchical Shifted Windows Vision更新时间 2023-12-17

SiReN Sign-Aware Recommendation Using Graph Neural Networks论文阅读笔记

Abstract 目前使用GNN的推荐系统主要利用高评分的正向用户-物品交互信息。但是如何利用低评分来表示用户的偏好是一个挑战，因为低评分仍然可以提供有用的信息。所以在本文中提出了基于GNN模型的有符号感知推荐系统SiReN，SiReN有三个关键组件构造一个符号二部图更精确的表示用户的偏好，分为两 ......

Recommendation Sign-Aware Networks 笔记 Neural更新时间 2023-12-17

Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation；OCRNet

Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation * Authors: [[Yuhui Yuan]], [[Xiaokang Chen]], [[Xilin Chen]], [[ ......

Segmentation Object-Contextual Representations Transformer Contextual更新时间 2023-12-17

从滑动窗口到YOLO、Transformer：目标检测的技术革新

本文全面回顾了目标检测技术的演进历程，从早期的滑动窗口和特征提取方法到深度学习的兴起，再到YOLO系列和Transformer的创新应用。通过对各阶段技术的深入分析，展现了计算机视觉领域的发展趋势和未来潜力。关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验 ......

Transformer 目标技术 YOLO更新时间 2023-12-17

Instruction-Following Agents with Multimodal Transformer

概述提出了InstructRL，包含一个multimodal transformer用来将视觉obs和语言的instruction进行编码，以及一个transformer-based policy，可以基于编码的表示来输出actions。前者在1M的image-text对和NL的text上进行训 ......

Instruction-Following Instruction Transformer Multimodal Following更新时间 2023-12-16

关于UIView transform使用注意点

先上代码 let tView = UIView()override func viewDidLoad() { tView.backgroundColor = .orange view.addSubview(tView)} override func viewWillLayoutSubViews() ......

transform UIView更新时间 2023-12-16

《ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst》论文学习

一、Abstract 构建能够感知现实世界多种模态信信号，并解决各种任务的通用模型，是人工智能领域一个吸引人的目标。在本文中，我们介绍了ChatBridge，这是一个新颖的多模态语言模型，它利用语言的表达能力作为催化剂，来弥合不同模态之间的差距。我们证明，只需要使用双模态的语言配对数据（image ......

Language ChatBridge Modalities Bridging Catalyst更新时间 2023-12-16

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》论文学习

一、ABSTRACT 最新的GPT-4展示了非凡的多模态能力，例如直接从手写文本生成网站和识别图像中的幽默元素。这些特性在以往的视觉-语言模型中很少见。然而，GPT-4背后的技术细节仍然未公开。我们认为，GPT-4增强的多模态生成能力源自于复杂的大型语言模型（LLM）的使用。为了检验这一现象，我们 ......

Vision-language Understanding Enhancing Advanced Language更新时间 2023-12-16

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

前言在视频生成场景中，用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪 ......

真实感 Transformer 模型照片视频更新时间 2023-12-15

纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来(转)

近年来，在自动驾驶领域，鸟瞰视角（BEV）空间中的3D目标检测作为一种普遍的方法逐渐脱颖而出。尽管与视角视图方法相比，BEV方法在精度和速度估计方面得到了改进，但将BEV技术部署到实际自动驾驶车辆中仍然具有挑战性。这主要归因于它们依赖于基于视觉 Transformer （ViT）的架构，这使得相对于 ......

卷积巅峰 Transformer 模型成就更新时间 2023-12-15

【论文阅读】HTTP 流量和恶意 URL 的异常检测

Part 1关于论文基本信息题目：HTTP 流量和恶意 URL 的异常检测源码：sec2vec源代码摘要在本文中，我们将展示如何利用自然语言处理（NLP）中已知的方法来检测 HTTP 请求中的异常情况和恶意 URL。目前大多数针对类似问题的解决方案要么基于规则，要么使用人工选择的特征进 ......

恶意流量论文 HTTP URL更新时间 2023-12-15

PANE-GNN Unifying Positive and Negative Edges in Graph Neural Networks for Recommendation论文阅读笔记

Abstract 目前利用GNN的推荐系统主要关注用户的正面反馈，而忽略了负面反馈提供的见解。于是我们提出了PANG- GNN，该模型将图神经网络的正面和负面边统一在一起。PANG-GNN首先将原始评分图根据正面和负面反馈划分为两个不同的二分图。接下来分别使用两个独立的嵌入，即感兴趣嵌入和无兴趣嵌入 ......

Recommendation PANE-GNN Negative Networks Unifying更新时间 2023-12-14

【论文阅读笔记】【多模态-Vision-Language Pretraining】 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP ICML 2022 (Spotlight) 读论文思考的问题论文试图解决什么问题？写作背景是什么？问题：在视觉-语言预训练（VLP）中，如何更加高效地利用充斥着噪声的海量图文对数据，提升预训练效果？如何设计模型，使得预训练后的模型在理解（understanding-based）任务 ......

Language Vision-Language 模态 Vision Language-Image更新时间 2023-12-14

论文精读：STMGCN利用时空多图卷积网络进行移动边缘计算驱动船舶轨迹预测（STMGCN: Mobile Edge Computing-Empowered Vessel Trajectory Prediction Using Spatio-Temporal Multigraph Convolutional Network）

《STMGCN: Mobile Edge Computing-Empowered Vessel Trajectory Prediction Using Spatio-Temporal Multigraph Convolutional Network》论文链接：https://doi.org/10. ......

卷积 STMGCN Computing-Empowered Spatio-Temporal Convolutional更新时间 2023-12-12

共1280篇 :3/43页 首页上一页123456下一页尾页

526互联