一、Transforms的结构及用法

导入transforms

from torchvision import transforms

作用：图片输入transforms后，可以得到一些预期的变换

1. Transforms的python用法

写在前面：tensor数据类型

通过transforms.ToTensor去说明两个问题：第一，transforms该如何使用；第二，Tensor数据类型相较于普通数据类型有什么区别，为什么需要tensor这个数据类型。

（1）将PIL或numpy.ndarray类型的图片转化为tensor数据类型

具体方法：transforms.Totensor()

from torchvision import transforms
tensor_trans=transforms.ToTensor()  #创建transforms.ToTensor()工具
tensor_img=tensor_trans(pic)   #pic为要转化为tensor类的PIL或numpy.ndarray类型的图像数据

举例：

from torchvision import transforms
from PIL import Image

#读入图像如果读取绝对路径要把\改为\\，如果读取相对路径，则没有这样的困扰
img_path="E:\\Desktop\\hymenoptera_data\\hymenoptera_data\\train\\ants\\0013035.jpg"  #图片路径
img=Image.open(img_path)
print(img)

#将PIL类型图片转化为tensor类型的图片
tensor_trans=transforms.ToTensor()
tensor_img=tensor_trans(img)
print(tensor_img)

#将numpy.ndarray类型的图片转化为tensor类型
import cv2
cv_img=cv2.imread(img_path)  #将图片转化为ndarray数据
tensor_cv_img=tensor_trans(cv_img)
print(tensor_cv_img)

补充：如何读取tensor类型的图片数据

方法：同样是上一篇提到的SummaryWriter中的add_image函数。下面是一个代码实例。

from torch.utils.tensorboard import SummaryWriter
writer=SummaryWriter("logs")
writer.add_image("Tensor_img",tensor_img)
writer.close()

（2）为什么需要tensor数据类型？

tensor数据类型内部包含了神经网络理论基础需要的一些参数

二、常见的Transforms

功能	数据类型	对应函数
输入	PIL	Image.open()
输出	tensor	Totensor()
作用	narrays	cv.imread()

1. Compose类详解

主要作用：将不同的transforms结合到一起，不同类型的数据先经过一个中心裁剪，再合成一个tensor类型的数据

（1）关于Compose类中call函数的一些说明

随便写个类举例子：

class Person:
    def __call__(self, name):
        print("__call__ "+"Hello "+name)

    def hello(self,name):
        print("hello "+name)

person=Person()
person("zhangsan")     #[Run] __call__ Hello zhangsan
person.hello("lisi")   #[Run] hello lisi

总结：

像def __call__这样的函数是不需要用”.函数名“这样的方式去调用的，可以直接使用”对象名(参数)“这样的方法去调用
但def hello这样的函数需要用”对象名.函数(参数)“的形式调用

（2）Compose调用例子

from torchvision import transforms
img=transforms.compose([transforms.CenterCrop(10),transforms.ToTensor()])

2. ToTensor类详解

上面有提到，Totensor的主要作用为将图像数据转化为tensor类型

（1）ToTensor输入数据类型

只支持输入以下两类的数据：

PIL类型的图像数据
numpy.ndarray类型的图像数据

（2）Totensor的使用

from PIL import Image
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms

img=Image.open("E:\\Desktop\\hymenoptera_data\\hymenoptera_data\\train\\ants\\0013035.jpg")   #读取图片

writer=SummaryWriter("logs")

#Totensor的使用
trans_totensor=transforms.ToTensor()
img_tensor=trans_totensor(img)   #将PIL类型的图片转化为tensor类型
writer.add_image("ToTensor",img_tensor)  #将tensor数据类型的图像可视化
writer.close()

3. ToPILImage类详解

主要作用：将tensor类型的图像数据转化为PIL类型
支持两种类型数据的输入：tensor、numpy.ndarray
返回：一个PIL的Image

4. Normalize类详解

主要作用：归一化tensor Image，并输入该组图像的均值或标准差，进行归一化处理
归一化公式：

\[input(channel)=\frac{input(channel)-mean(channel)}{std(channel)} \]

（1）Normalize输入图像数据类型

必须为tensor类型

（2）Normalize的使用

from PIL import Image
from torchvision import transforms

img=Image.open("E:\\Desktop\\hymenoptera_data\\hymenoptera_data\\train\\ants\\0013035.jpg")   #读取图片

#Normalize的使用
trans_norm=transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])  #设置mean和std，因为是三通道数据，所以输入维度有3维
img_norm=trans_norm(img_tensor)  #标准化tensor图像数据类型
writer.add_image("Normalize",img_norm)  #将标准化后的图像可视化
writer.close()

可以对比原来的图片（下）和标准化后的图片（上）：颜色都变了诶！

从代码上看不出啥东西，所以这里从标准化计算公式的角度去解释：

代码中设定的均值mean和std都是0.5，那么有：

\[\frac{input-0.5}{0.5}=2×input-1 \]
这条公式的意义在于：假如\(input\)图片像素值在\([0,1]\)这个范围内，那么标准化后会变成\([-1,1]\)这样一个范围内的图像数据
用下面的代码验证这条公式：

print(img_tensor[0][0][0])  #[Run] tensor(0.8275)
trans_norm=transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])  #设置mean和std，因为是三通道数据，所以输入维度有3维
img_norm=trans_norm(img_tensor)  #标准化tensor图像数据类型
print(img_norm[0][0][0])    #[Run] tensor(0.6549)  0.6549=2*0.8275-1