Pytorch中的交叉熵CE和均方误差MSE分别是如何计算的？-526互联

本文主要关注输入输出的形状，通过两种标签形式探索一下其计算机制。

交叉熵损失函数

实验设置：假设采用AutoEncoder+分类器。AE负责重构图像，计算MSE。分类器通过latent vector计算23个类别的概率向量。

    import torch nn as nn
    net = AutoEncoder(num_classes=23)
    import torch.nn.functional as F
    loss_fn = nn.CrossEntropyLoss()
    x_spec = torch.rand(64, 128, 313)  # 假设输入四维张量，单通道
    x_label = torch.randint(0, 23, size=(64,))  # 23个类别
    pred, feature = net(x_wav, x_spec, x_label)
    print(pred.shape)  # (64, 23)
    print(x_label.shape) # (64,)
    print(feature.shape)  # (64, 1, 128, 313)

1. 分别用 torch.nn.CrossEntropy()和F.crossentropy()，通过形状为(64,)的实数标签计算

2. 分别用torch.nn.CrossEntropy()和F.crossentropy()，把(64,)的实数标签转换为形状为(64, 23)的One-Hot标签计算

print(loss_fn(pred, x_label))
    print(F.cross_entropy(pred, x_label, reduction="none").shape)

    one_hot = torch.zeros(pred.shape, device=pred.device)
    one_hot = one_hot.scatter_(1, x_label.unsqueeze(1).long(), 1)
    print(loss_fn(pred, one_hot))
    print(F.cross_entropy(pred, one_hot, reduction="none").shape)

输出如下：

tensor(3.1840, grad_fn=<NllLossBackward0>)
torch.Size([64])
tensor(3.1840, grad_fn=<DivBackward1>)
torch.Size([64])

没有区别，实际两者殊途同归，因为CE的计算也有两种方式：

1. 取出预测概率向量的指定维度数值，和groundtruth(真实标签)对比

2. 把真实标签转换为one-hot向量，然后和预测概率向量计算交叉熵，由于除了自身类别之外的维度都是0，因此没有区别。

MSE损失函数

这个就大不相同了，nn.MSELoss()对两个样本计算后返回一个标量数值，

但是通过F.mseloss(input_x, recon_loss, reduction="none")返回的是一个和样本同样形状的张量，需要再通过loss = loss.mean(axis=3).mean(axis=2).mean(axis=1)来规约为(64,)形状的向量，否则所有样本的损失之都会被规约。不过，假如没有reduction="none"参数的话，返回值则是一个标量，已经被规约完了。

longpolling fixed-mse alibaba worker

重磅serverless引擎mse

网关mse-higress大奖higress

引擎2023 mse

能力全新引擎mse