大模型
1.NLP 模型
GPT :OpenAI的GPT系列 ChatGPT
BERT:Google 基于 Transformer (变换器)的双向编码器表示 (BERT) 技术由 Google 开发,
通过在所有层中共同调整左右情境,利用无标记文本预先训练深度双向表示
Gemini
llama Mata的模型 https://github.com/facebookresearch/llama :人工智能大语言模型 LLaMA (Large Language Model Meta AI)
2.CV 模型
CNN: RNN: transformer
视觉Transformer架构(ViT):
https://github.com/facebookresearch/detr
https://github.com/facebookresearch/dino
1.分类和定位:
2.目标检测:
RCNN是将CNN引入目标检测的开山之作
目标检测框架 mmdetection detectron2
YOLO系列
DETR DEtection TRansformer: DETR由四个主要模块组成:backbone,编码器,解码器以及预测头
DINO 端到端目标检测器DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
Grounding DINO: open-set object detection-开放世界目标检测问题-根据人类文字输入去检测任意类别的目标
close-set detector由三个重要部分组成:Backbone用于提取特征,Neck用于特征增强,Head用于bbox预测。
利用 contrastive loss建立图像特征和文字特征的关联
3.语义分割和实例分割:
SAM 是一个新的用于图像分割的任务、模型和数据集
4.追踪:= 目标检测和定位
3.跨模态大模型
NLP-CV: CLIP 打破文字和图像之间的壁垒
1.CLIP(Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型
指利用对比学习的方法,通过大规模(互联网收集的4亿量级)的“图像文本对”数据集的预训练,使得模型能够理解图像和语言之间的关联性
2.图片生成:
1.Latent Diffusion: 基于潜在扩散模型(LDMs)算法而研发的一款用于AI作画的开源训练框架
Github上火爆开源的Stable Diffusion便是基于LDMs开发的 Diffusers库,它包含了目前可用的大部分稳定扩散模型
是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建
太乙模型,首个开源的中文Stable Diffusion模型,基于0.2亿筛选过的中文图文对训练
2.Midjourney : 基于条件生成对抗网络
Discord是一个即时聊天通讯平台,同时提供了语言、视频聊天功能--> 独立的 https://beta.midjourney.com
MidJourney 和 Discord 是两个不同的产品
MidJourney 开发者团队开发了一个基于 Discord 机器人的应用程序,从而为 Discord 用户提供了更加方便的 AI 图像处理服务。
3.DALLE-2 : OpenAI
4.AIGC-生成式人工智能
1.文字-图片-语音-动画-视频
2.其他
ControlNet 是作者提出的一个新的神经网络概念,就是通过额外的输入来控制预训练的大模型,比如 stable diffusion。这个本质其实就是端对端的训练
通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的
5.综合
Edit Everything: A Text-Guided Generative System for Images Editing : Segment Anything Model+CLIP+Stable Diffusion.
https://github.com/OPPO-Mente-Lab/Edit_Everything
仅文本输入的 CLIP 策略来完全取代手动点(manual point)
Edit anything in images powered by segment-anything, ControlNet, StableDiffusion,
Grounded-SAM: Marrying Grounding-DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything
https://github.com/IDEA-Research/Grounded-Segment-Anything
国内
BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型 BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability
CaMA: A Chinese-English Bilingual LLaMA Model
打地基
基础研究:Relu,Dropout,Adam,BN,AtrousConv,DCN系列
分类骨架:VGG,ResNet(系列),SeNet,NIN,Inception系列,MobileNet系列,ShuffleNet系列
语义分割:FCN,U-Net,PSPNet,Deeplab系列
实例分割:Mask R-CNN,PanNet
目标检测:Faster R-CNN,Yolo系列,FPN,SSD,CenterNet,CornerNet,FCOS,Cascade R-CNN,DETR
生成对抗:GAN,CGAN,DCGAN,pix2pix,CycleGAN,W-GAN
loss 相关:Focalloss,IOUloss系列,diceloss, CTCloss
部署加速:tf int8,network-slimming,KD
其他方面:CAM,Grad-CAM,Soft-NMS,CRNN,DBNet
机构和期刊会议
机构:
粤港澳大湾区研究院(IDEA)
Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes
浙江大学图像技术研究与应用(ITRA)团队
Facebook AI Research
会议和期刊
CVPR 、ICCV、SIGGRAPH
TPAMI、TIP、TCSVT、CVPR、AAAI、IJCAI、ICML、ECCV 等权威期刊会议发表论文百余
CV三大会议
CVPR 是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议计算机视觉领域的三大顶会,统称ICE
1.CVPR 国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,会议的主要内容是计算机视觉与模式识别技术。
2.ICCV 国际计算机视觉大会,由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议
3.ECCV 全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉三大会议
人工智能的顶会
AAAI 国际人工智能协会
IJCAI 全称为人工智能国际联合大会(International Joint Conference on Artificial Intelligence)
机器学习顶会
ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会
期刊:
TPAMI是计算机视觉和人工智能领域公认的顶级国际期刊
TIP 是IEEE Transactions on Image Processing(TIP)专注于图像处理、成像系统和图像扫描、显示和打印的信号处理方面
TCSVT是 IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)涵盖了所有视频技术的电路和系统方面
参考
中国计算机学会推荐国际学术会议和期刊目录 https://www.ccf.org.cn/Academic_Evaluation/By_category/