AI-人工智能大模型-526互联

大模型

1.NLP 模型
   GPT ：OpenAI的GPT系列 ChatGPT
   BERT：Google 基于 Transformer (变换器)的双向编码器表示 (BERT) 技术由 Google 开发,
           通过在所有层中共同调整左右情境,利用无标记文本预先训练深度双向表示
		 Gemini  
   llama Mata的模型 https://github.com/facebookresearch/llama ：人工智能大语言模型 LLaMA （Large Language Model Meta AI）
2.CV 模型
      CNN： RNN：  transformer
      视觉Transformer架构（ViT）：
  		  https://github.com/facebookresearch/detr
		  https://github.com/facebookresearch/dino
    1.分类和定位： 
    2.目标检测：
	    RCNN是将CNN引入目标检测的开山之作  
	    目标检测框架 mmdetection  detectron2
		YOLO系列
	    DETR DEtection TRansformer： DETR由四个主要模块组成：backbone,编码器,解码器以及预测头
	    DINO 端到端目标检测器DINO： DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
	    Grounding DINO：  open-set object detection-开放世界目标检测问题-根据人类文字输入去检测任意类别的目标
		    close-set detector由三个重要部分组成：Backbone用于提取特征,Neck用于特征增强,Head用于bbox预测。
			利用 contrastive loss建立图像特征和文字特征的关联
	3.语义分割和实例分割：
	    SAM 是一个新的用于图像分割的任务、模型和数据集
    4.追踪：= 目标检测和定位		   
3.跨模态大模型	  
 NLP-CV： CLIP 打破文字和图像之间的壁垒
    1.CLIP(Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型
      指利用对比学习的方法,通过大规模（互联网收集的4亿量级）的“图像文本对”数据集的预训练,使得模型能够理解图像和语言之间的关联性
	  
    2.图片生成：	
       1.Latent Diffusion： 基于潜在扩散模型(LDMs)算法而研发的一款用于AI作画的开源训练框架
         Github上火爆开源的Stable Diffusion便是基于LDMs开发的  Diffusers库,它包含了目前可用的大部分稳定扩散模型
		    是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建
		太乙模型,首个开源的中文Stable Diffusion模型,基于0.2亿筛选过的中文图文对训练 	
       2.Midjourney ： 基于条件生成对抗网络		   
	           Discord是一个即时聊天通讯平台,同时提供了语言、视频聊天功能--> 独立的 https://beta.midjourney.com
			   MidJourney 和 Discord 是两个不同的产品
			    MidJourney 开发者团队开发了一个基于 Discord 机器人的应用程序,从而为 Discord 用户提供了更加方便的 AI 图像处理服务。
	   3.DALLE-2 ： OpenAI
4.AIGC-生成式人工智能 
    1.文字-图片-语音-动画-视频
  
    2.其他
      ControlNet 是作者提出的一个新的神经网络概念,就是通过额外的输入来控制预训练的大模型,比如 stable diffusion。这个本质其实就是端对端的训练
	   通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的
5.综合
    Edit Everything: A Text-Guided Generative System for Images Editing	： Segment Anything Model+CLIP+Stable Diffusion. 
	     https://github.com/OPPO-Mente-Lab/Edit_Everything
		 仅文本输入的 CLIP 策略来完全取代手动点（manual point）
	Edit anything in images powered by segment-anything, ControlNet, StableDiffusion,
	
	Grounded-SAM: Marrying Grounding-DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything 
	   https://github.com/IDEA-Research/Grounded-Segment-Anything

国内

 BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型 BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability
 CaMA: A Chinese-English Bilingual LLaMA Model

打地基

 基础研究：Relu,Dropout,Adam,BN,AtrousConv,DCN系列
 分类骨架：VGG,ResNet(系列),SeNet,NIN,Inception系列,MobileNet系列,ShuffleNet系列
 语义分割：FCN,U-Net,PSPNet,Deeplab系列
 实例分割：Mask R-CNN,PanNet
 目标检测：Faster R-CNN,Yolo系列,FPN,SSD,CenterNet,CornerNet,FCOS,Cascade R-CNN,DETR
 生成对抗：GAN,CGAN,DCGAN,pix2pix,CycleGAN,W-GAN
 loss 相关：Focalloss,IOUloss系列,diceloss, CTCloss
 部署加速：tf int8,network-slimming,KD
 其他方面：CAM,Grad-CAM,Soft-NMS,CRNN,DBNet

机构和期刊会议

机构： 
  粤港澳大湾区研究院(IDEA) 
      Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes
  浙江大学图像技术研究与应用（ITRA）团队
  Facebook AI Research  
会议和期刊
  CVPR 、ICCV、SIGGRAPH
   TPAMI、TIP、TCSVT、CVPR、AAAI、IJCAI、ICML、ECCV 等权威期刊会议发表论文百余
 CV三大会议	   
   CVPR 是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议计算机视觉领域的三大顶会,统称ICE	   
  1.CVPR 国际计算机视觉与模式识别会议（CVPR）是IEEE一年一度的学术性会议,会议的主要内容是计算机视觉与模式识别技术。
  2.ICCV 国际计算机视觉大会,由IEEE主办,与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议
  3.ECCV 全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉三大会议 
人工智能的顶会  
   AAAI 国际人工智能协会
   IJCAI 全称为人工智能国际联合大会（International Joint Conference on Artificial Intelligence）
机器学习顶会
   ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会
期刊：
   TPAMI是计算机视觉和人工智能领域公认的顶级国际期刊
   TIP  是IEEE Transactions on Image Processing(TIP)专注于图像处理、成像系统和图像扫描、显示和打印的信号处理方面
   TCSVT是 IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)涵盖了所有视频技术的电路和系统方面

参考

 中国计算机学会推荐国际学术会议和期刊目录 https://www.ccf.org.cn/Academic_Evaluation/By_category/