数据处理动作——增删改查输入输出-map-flattern-agg-concat-merge

发布时间 2023-12-28 13:37:57作者: 辰令

numpy pytorch mindspore

import numpy as np

def zscore(x,axis=None):
    xmean = x.mean(axis=axis, keepdims=True)
	xstd = np.std(x,axis=axis,keepdims=True)
	zscore = (x-xmean)/xstd
	return zscore
###说明
     指定如何加,不同软件和框架有默认或者隐式处理
	 维度-把上一个维度当作自己的元素
    仅仅定义axis=0的numpy求和,和数学中的求和是不一样的!
	仅仅指定axis,numpy.sum会沿着这个维度求和没错,但是同时也把这个维度消灭了!.维度被消灭了,所以结果少了一维。
    那么正确方式是什么呢?——添加keepdims=True这个参数

数据处理

 <隐式操作-对用户透明>
 不同软件和框架有默认或者隐式处理

判断:

   is
   file type	   

动作:

数据动作

   增: add  put  fill  push
   删: drop delete  remove clear  trim
   改: update 
        类型转换  transform
   查: select find  whereis 

流程动作:action transformation

  输入、输出 throw   source  sink   MEMORY	 cache  persist checkpoint
  遍历: for in; foreach map
  过滤: filter	
  组合: zip
  展开: flatten	
  其他: flatMap	
  广播: Broadcast 
  窗口: window	
  参数: Parameter config  
  规约: fold reduce
  分组: group  groupByKey  Partitions coalesce repartition
  聚合: aggragate 	  

数据概念

01.映射与遍历 map   flatMap  foreach  Iterator  flatten filter filterNot  filterKeys mapValue
02.规约与聚合  fold  reduce  aggregate  max  min
03.混洗       shuffle 
04.分区和分组  partition  groupBy  grouped
05.数据变换  zip unzip  zipWithIndex concat   toArray toList  collect range
06.逻辑判断  empty  isEmpty contains containsSlice
07.查看-查找 head tail  last init take drop  slice  size  count  find apply 
            indexOf lastIndexOf indexWhere  lastIndexWhere  indexOfSlice  lastIndexOfSlice
            startsWith endsWith
08.其他重要 drop dropWhile  take takeWhile
            排序: sorted sortWith sortBy 
            去重: distinct
            集合操作: diff  union intersect
            insert append
            add  remove clear  
            put  remove  clear   update  keys keySet values 
            trim
            pop push  update clear top
            get getOrElse
 09.其他不常见: 转置 transpose  反转 reverse  转换 transform
                 mkString addString stringPrefix  copyToArray clone
    填充 fill 滑动 sliding

数据库-SQL以及DataFrame与Pandas 以及excel

 增删改查
  索引 分片 slice 
  组合 : union / concat  
  联合 :join pd.merge()
  分组: group goupBy
  形式和维度: stack unstack melt pivot
  数学运算: 算数运算 逻辑运算 代数运算 初等函数运算	
            线性代数-矩阵运算
            统计运算
  apply 
  表格数据	: 聚合意味着这个轴将坍缩(折叠),之所以会坍缩,就是因为执行了“约减”操作
    pivot不能处理index和columns组合是重复的数据,但是pivot_table可以处理
     pivot 函数只有三个参数:index 用于指定索引,columns用于指定列,values用于指定透视的数值
	
    pivot_table有四个最重要的参数 index、values、columns、aggfunc		
	 
   melt 融合数据,把宽格式转换为长格式
     参数id_vars表示ID变量,value_vars表示值变量,
	 var_name用于指定id变量的列名,value_name用于指定值变量的列名。		 
  
计算、分类、筛选、查找  
 
Excel: 处理数据常用的两大利器就是VLOOKUP和透视表
 数据透视表 -- 报表=多种格式+动态数据
    透视表是一种可以对数据动态排布并且分类汇总的表格格式
透视表:

   Excel:插入->数据透视表
   Python:
   data = pd.pivot_table(data,
       index=['X','XX'],   #行
       columns=['Y','YY'], #列
       values=['Z','ZZ'], #值
       aggfunc=[np.sum,np.mean,len], #汇总 均值 计数
       margins=True) #汇总信息 不需要汇总 False	
	
内容匹配:
   Excel:=vlookup(lookup_value,table_array,col_index_num,range_lookup)
   Python:data = pd.merge(data1, data2, how='left', on=['XXX','YYY'])	

处理数据新方式

 Large Language Model(LLM)
 Transformer 带来AI+艺术,从语言开始遇到多模态,碰撞艺术火花
    原理化研发 前瞻化设计 高效化仿真 精细化检测
	智能化调控 科学化运维
预训练(Pre-training)、微调(Fine-tuning)和提示(Promoting)的角度
   pre-training : Masked Language Model和Next Token Prediction
   Fine-tuning  :微调方法:全量模型微调和参数高效的微调方法
   微调: In-context learning、Prompt tuning和Instruction tuning
 prompt 
  随着竞争到后期,技术的鸿沟被抹平,数据会成为最重要的战略资源,
    尤其是专业领域里的高质量私域数据,更是稀缺资源,
    还涉及数据资产的采集、产权、安全隐私等问题。	 

国外

人工智能生成内容(AIGC)--生成模型	
    DALL·E、Midjourney、Stable Diffusion等文本生成图
OpenAI最新发布的多模态预训练大模型 GPT-4   
 CLIP (Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 
      OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型
	   CLIP是一种基于对比学习的多模态模型-多模态神经网络,它能有效地借助自然语言的监督来学习视觉的概念
	  Learning Transferable Visual Models From Natural Language Supervision (ICML 2021) 
       https://github.com/OpenAI/CLIP
	OpenAI作为业界领先机构已发布语言类大模型ChatGPT(2022)和GPT-4(2023)、语音大模型Whisper(2022)、视觉大模型DALL-E(2021),
	微软将GPT-4相关能力整合入Windows 11系统、office365、Bing等重点产品形成Copilot系列应用;

微软		   Microsoft 365 Copilot
苹果开源的-不可商用
    https://github.com/apple/ml-ferret
谷歌于2023年12月6日发布的人工智能模型,可同时识别文本、图像、音频、视频和代码五种类型信息	
   谷歌推出多模态大模型Gemini(2023)     
Meta发布语言大模型LLaMA(2023) 

国内

  产业端实战
     百度、阿里、还是腾讯、华为
  研究院: 2021年3月由智源研究院发布的“悟道1.0”。
     2021年         华为基于昇腾 AI 与鹏城实验室联合发布了鹏程盘古大模型
     2022年3月16日  百度发布文心一言,成为中国第一个类ChatGPT产品。
     2022年9月      阿里发布了“通义”大模型系列,包含NLP大模型AlicMind、视觉大模型CV,多模态大模型M6	通义千问	 
 太乙模型,首个开源的中文Stable Diffusion模型,基于0.2亿筛选过的中文图文对训练 	

应用

 云端API服务
  特定垂直领域的解决方案
     办公类的Microsoft Pilot,社交类的CallAnnie
利用:
   恐惧来自于被时代抛弃的风险,热情则来自于科技企业内嵌的、对创新的追求
重复造轮子的游戏不会一直持续下去,因为所需的原材料实在是太多,也太贵了,而且并非每个国家都能得到,并非每个企业都能支付高昂的价格
 从训练成本到运营成本的转变