Vision

VIT Vision Transformer

VIT Vision Transformer 目录VIT Vision TransformerViT模型结构图像划分PatchLinear Projection of Flatted PatchesPatch+Position Embedding分类向量和位置向量EncoderMLP Head（全连 ......

Transformer Vision VIT更新时间 2023-12-29

UNIQUE VISION Programming Contest 2023 Christmas (AtCoder Beginner Contest 334)

UNIQUE VISION Programming Contest 2023 Christmas (AtCoder Beginner Contest 334) A - Christmas Present 代码: #include <bits/stdc++.h> using namespace std ......

Contest Programming Christmas Beginner AtCoder更新时间 2023-12-26

信而泰X-Vision助力网络质量监测

网络背景与挑战 Internet的最早起源于美国国防部高级研究计划署DARPA（Defence Advanced Research Projects Agency）的前身ARPAnet，该网于1969年投入使用。由此，ARPAnet成为现代计算机网络诞生的标志。网络的数字化发展、业务模式的变化,致 ......

X-Vision 质量 Vision 网络更新时间 2023-12-19

Vision Transformer with Super Token Sampling

Vision Transformer with Super Token Sampling * Authors: [[Huaibo Huang]], [[Xiaoqiang Zhou]], [[Jie Cao]], [[Ran He]], [[Tieniu Tan]] Local library 初读 ......

Transformer Sampling Vision Super Token更新时间 2023-12-18

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions 可变形卷积v3

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions * Authors: [[Wenhai Wang]], [[Jifeng Dai]], [[Zhe Chen]], [[Z ......

卷积 Convolutions InternImage Large-Scale Deformable更新时间 2023-12-18

SegViT: Semantic Segmentation with Plain Vision Transformers

SegViT: Semantic Segmentation with Plain Vision Transformers * Authors: [[Bowen Zhang]], [[Zhi Tian]], [[Quan Tang]], [[Xiangxiang Chu]], [[Xiaolin We ......

Segmentation Transformers Semantic SegViT Vision更新时间 2023-12-18

BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT

alias: Zhu2023a tags: 超标记注意力 rating: ⭐ share: false ptype: article BiFormer: Vision Transformer with Bi-Level Routing Attention * Authors: [[Lei Zhu] ......

轻量 Transformer 标记 Attention BiFormer更新时间 2023-12-18

Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT中的位置编码

Rethinking and Improving Relative Position Encoding for Vision Transformer * Authors: [[Kan Wu]], [[Houwen Peng]], [[Minghao Chen]], [[Jianlong Fu]], ......

Transformer Rethinking Improving Encoding Relative更新时间 2023-12-18

MetaFormer Is Actually What You Need for Vision：通用的ViT架构才是关键

MetaFormer Is Actually What You Need for Vision * Authors: [[Weihao Yu]], [[Mi Luo]], [[Pan Zhou]], [[Chenyang Si]], [[Yichen Zhou]], [[Xinchao Wang]] ......

MetaFormer 架构 Actually 关键 Vision更新时间 2023-12-17

Open-World Object Manipulation using Pre-trained Vision-Language Models

概述提出MOO: Manipulation of Open-World Objects 用预训练的VLM在图像中标记instruction的object的坐标，传入policy进行控制，可以zero-shot泛化到novel object，还支持手指、点击输入指令。问题机器人泛化到训练中没有见 ......

Vision-Language Manipulation Pre-trained Open-World Language更新时间 2023-12-17

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解

初读印象 comment:: (Swin-transformer)代码：https://github. com/microsoft/Swin-Transformer 动机将在nlp上主流的Transformer转换到cv上。存在以下困难： nlp中单词标记是一个基本单元，但是视觉元素在尺度上有很大 ......

Transformer Hierarchical Shifted Windows Vision更新时间 2023-12-17

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》论文学习

一、ABSTRACT 最新的GPT-4展示了非凡的多模态能力，例如直接从手写文本生成网站和识别图像中的幽默元素。这些特性在以往的视觉-语言模型中很少见。然而，GPT-4背后的技术细节仍然未公开。我们认为，GPT-4增强的多模态生成能力源自于复杂的大型语言模型（LLM）的使用。为了检验这一现象，我们 ......

Vision-language Understanding Enhancing Advanced Language更新时间 2023-12-16

【论文阅读笔记】【多模态-Vision-Language Pretraining】 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP ICML 2022 (Spotlight) 读论文思考的问题论文试图解决什么问题？写作背景是什么？问题：在视觉-语言预训练（VLP）中，如何更加高效地利用充斥着噪声的海量图文对数据，提升预训练效果？如何设计模型，使得预训练后的模型在理解（understanding-based）任务 ......

Language Vision-Language 模态 Vision Language-Image更新时间 2023-12-14

[论文阅读] Replacing softmax with ReLU in Vision Transformers

Pre title: Replacing softmax with ReLU in Vision Transformers accepted: Arxiv 2023 paper: https://export.arxiv.org/abs/2309.08586 code: None 关键词：atten ......

Transformers Replacing softmax Vision 论文更新时间 2023-12-12

Retentive Networks Meet Vision Transformers，视觉RetNet

alias: Fan2023 tags: RetNet rating: ⭐ share: false ptype: article RMT: Retentive Networks Meet Vision Transformers 初读印象 comment:: (RMT)Retentive Netwo ......

Transformers Retentive Networks 视觉 RetNet更新时间 2023-12-10

Improving Computer Vision Accuracy using Convolutions

Improving Computer Vision Accuracy using Convolutions ‍ 在前面的课程中，你们了解了如何使用包含三层的深度神经网络（DNN）进行时装识别，这三层分别是输入层（数据的形状）、输出层（所需输出的形状）和隐藏层。你试验了不同大小的隐藏层、训练epoch ......

Convolutions Improving Computer Accuracy Vision更新时间 2023-11-29

Beyond Hello World, A Computer Vision Example

Beyond Hello World, A Computer Vision Example dlaicourse/Course 1 - Part 4 - Lesson 2 - Notebook.ipynb at master · lmoroney/dlaicourse (github.com) St ......

Computer Example Beyond Vision Hello更新时间 2023-11-29

Computer vision: models, learning and inference

http://www.computervisionmodels.com/ 13.2.3 SIFT detector SIFT 尺度不变特征转换 s a second method for identifying interest points 一个尺度和对应兴趣点定位 14 15 16 ......

inference Computer learning vision models更新时间 2023-11-28

An invitation to 3-d vision: from images to geometric models英文pdf下载

Ma Y, Soatto S, Košecká J, et al. An invitation to 3-d vision: from images to geometric models[M]. New York: springer, 2004. https://www.eecis.udel.ed ......

invitation geometric images models vision更新时间 2023-11-12

《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》阅读笔记

论文标题《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》 Swin 这个词貌似来自后面的 Shifted Windows Shifted Windows：移动窗口 Hierarchical：分层作者 ......

Transformer Hierarchical Shifted Windows 笔记更新时间 2023-11-11

2023-8-24 Pyramid Vision Transformer 2023人工智能大会青年科学家论坛

人工智能 2023 Transformer 科学家人工更新时间 2023-11-06

【纯 Transformer 也可以取代 CNN 用于CV】Vision Transformer (ViT) 论文精读

原始题目 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 中文名称一张图像等价于 16x16 Words: Transformers 来做大规模的图像识别发表时间 2020年10月22日平台 ......

Transformer Vision 论文 CNN ViT更新时间 2023-10-31

Swin-transformer论文阅读笔记（Swin Transformer: Hierarchical Vision Transformer using Shifted Windows）

论文标题：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文作者：Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephe ......

Transformer Swin-transformer Swin Hierarchical transformer更新时间 2023-10-31

ChatGPT-4 Vision 催生万亿产业

（做了多年视觉分析，谨以忐忑的心情写下本文） 2023年9月25日，微软发布ChatGPT-Vision的研究报告（文章末尾有下载地址），同日openai发布重要更新：听，说，看。 2023年10月3日，openai发布Dall-E3.0。距离ChatGPT获得全部人类技能，还差触觉，嗅觉和味觉。 ......

ChatGPT 产业 Vision更新时间 2023-10-23

ChatGPT大更新-视觉（vision）

最近ChatGPT除了语音外，vision（视力）也有上线。国外网友的几个例子。看起来能力还是很强的。除了拍照，画图，草稿都可以识别。这么下去，最适合的ChatGPT应用，可能是机器人了。 ......

视觉 ChatGPT vision更新时间 2023-10-11

UNIQUE VISION Programming Contest 2023 Autumn(AtCoder Beginner Contest 323)

UNIQUE VISION Programming Contest 2023 Autumn(AtCoder Beginner Contest 323) A. Weak Beats 解题思路: 按题意模拟即可。代码: #include <bits/stdc++.h> using namespace ......

Contest Programming Beginner AtCoder UNIQUE更新时间 2023-10-08

【NIPS2021】Twins: Revisiting the Design of Spatial Attention in Vision Transformers

来自美团技术团队♪（＾∀＾●）ﾉｼ论文地址：https://arxiv.org/abs/2104.13840 代码地址：https://git.io/Twins 一、写在前面本文提出了两种视觉转换器架构，即Twins-PCPVT和Twins-SVT。 Twins-PCPVT 将金字塔 Trans ......

Transformers Revisiting Attention Spatial Design更新时间 2023-10-07

EfficientFormer:高效低延迟的Vision Transformers

我们都知道Transformers相对于CNN的架构效率并不高，这导致在一些边缘设备进行推理时延迟会很高，所以这次介绍的论文EfficientFormer号称在准确率不降低的同时可以达到MobileNet的推理速度。 Transformers能否在获得高性能的同时，跑得和MobileNet一样快?为 ......

EfficientFormer Transformers Vision更新时间 2023-09-26

【NIPS2021】Focal Self-attention for Local-Global Interactions in Vision Transformers

来自微软（*^____^*）论文地址：[2107.00641] Focal Self-attention for Local-Global Interactions in Vision Transformers (arxiv.org) 代码地址：microsoft/Focal-Transforme ......

Self-attention Local-Global Interactions Transformers attention更新时间 2023-09-18

Proj CDeepFuzz Paper Reading: Software Testing with Large Language Model: Survey, Landscape, and Vision

## Abstract 本文: Task: Review on the use of LLMs in software testing Method: 1. analyzes 52 relevant studies ## 1. Intro ![](https://img2023.cnblogs.co ......

CDeepFuzz Landscape Language Software Reading更新时间 2023-09-07

共57篇 :1/2页 首页上一页12下一页尾页