x86平台SIMD编程入门(3):浮点指令

发布时间 2023-11-04 13:14:45作者: MoonZZZ

1、算术指令

算术类型 函数示例 备注
_mm_add_sd_mm256_add_ps
_mm_sub_sd_mm256_sub_ps
_mm_mul_sd_mm256_mul_ps
_mm_div_sd_mm256_div_ps
平方根 _mm_sqrt_sd_mm256_sqrt_ps
倒数 _mm_rcp_ss_mm_rcp_ps_mm256_rcp_ps 快速计算32位浮点数的近似倒数(1/x),最大相对误差小于\(1.5\times 2^{-12}\)
倒数平方根 _mm_rsqrt_ss_mm_rsqrt_ps_mm256_rsqrt_ps 快速计算32位浮点数的近似倒数平方根(1/sqrt(x)),最大相对误差小于\(1.5\times 2^{-12}\)
水平加 _mm_hadd_ps_mm256_hadd_pd 输入两个寄存器[a, b, c, d]和[e, f, g, h],返回[a+b, c+d, e+f, g+h]。
水平减 _mm_hsub_ps_mm256_hsub_pd 输入两个寄存器[a, b, c, d]和[e, f, g, h],返回[a-b, c-d, e-f, g-h]。
交替加减 _mm_addsub_ps_mm256_addsub_pd 输入两个寄存器[a, b, c, d]和[e, f, g, h],返回[a-e, b+f, c-g, d+h]。对于复数乘法比较有用。
点乘 _mm_dp_ps_mm_dp_pd_mm256_dp_ps 输入两个寄存器和一个8位常量,常量高4位表示需要点乘的通道,低4位表示需要广播结果的通道。
四舍五入 _mm_round_ps_mm_floor_ss_mm256_ceil_pd
最大/最小值 _mm_min_ss_mm256_max_pd

x86 SIMD指令中没有一元减号或绝对值指令,但可以通过位操作技巧来实现对应的功能,例如_mm_xor_ps(x, _mm_set1_ps(-0.0f))可实现一元减号运算,_mm_andnot_ps(_mm_set1_ps(-0.0f), x)可实现取绝对值。(因为-0.0f浮点数值只把符号位设置为1,其余位均为0,所以_mm_xor_ps会翻转符号,_mm_andnot_ps会清除符号位。)

2、比较指令

SSE实现了各种浮点数比较运算,如下表所示:

运算符 函数示例
等于 _mm_cmpeq_ss_mm_cmpeq_ps_mm_cmpeq_sd_mm_cmpeq_pd
小于 _mm_cmplt_ss_mm_cmplt_ps_mm_cmplt_sd_mm_cmplt_pd
小于等于 _mm_cmple_ss_mm_cmple_ps_mm_cmple_sd_mm_cmple_pd
大于 _mm_cmpgt_ss_mm_cmpgt_ps_mm_cmpgt_sd_mm_cmpgt_pd
大于等于 _mm_cmpge_ss_mm_cmpge_ps_mm_cmpge_sd_mm_cmpge_pd
不等于 _mm_cmpneq_ss_mm_cmpneq_ps_mm_cmpneq_sd_mm_cmpneq_pd
不小于 _mm_cmpnlt_ss_mm_cmpnlt_ps_mm_cmpnlt_sd_mm_cmpnlt_pd
不小于等于 _mm_cmpnle_ss_mm_cmpnle_ps_mm_cmpnle_sd_mm_cmpnle_pd
不大于 _mm_cmpngt_ss_mm_cmpngt_ps_mm_cmpngt_sd_mm_cmpngt_pd
不大于等于 _mm_cmpnge_ss_mm_cmpnge_ps_mm_cmpnge_sd_mm_cmpnge_pd

AVX将浮点数比较指令统一成了_mm_cmp_xx_mm256_cmp_xx这样的形式,然后通过一个常量来表示比较谓语。比较谓语如下表所示,两个数比较时若其中一个数为NaN,则ordered模式将返回false,unordered模式将返回true,另外signalling只影响MXCSR的值。

比较运算 ordered (non-signalling) unordered (non-signalling) ordered (signalling) unordered (signalling)
a < b _CMP_LT_OQ _CMP_NGE_UQ _CMP_LT_OS _CMP_NGE_US
a <= b _CMP_LE_OQ _CMP_NGT_UQ _CMP_LE_OS _CMP_NGT_US
a == b _CMP_EQ_OQ _CMP_EQ_UQ _CMP_EQ_OS _CMP_EQ_US
a != b _CMP_NEQ_OQ _CMP_NEQ_UQ _CMP_NEQ_OS _CMP_NEQ_US
a >= b _CMP_GE_OQ _CMP_NLT_UQ _CMP_GE_OS _CMP_NLT_US
a > b _CMP_GT_OQ _CMP_NLE_UQ _CMP_GT_OS _CMP_NLE_US
true _CMP_ORD_Q _CMP_TRUE_UQ _CMP_ORD_S _CMP_TRUE_US
false _CMP_FALSE_OQ _CMP_UNORD_Q _CMP_FALSE_OS _CMP_UNORD_S

浮点数比较指令返回另一个寄存器来保存结果,其中比较条件成立的值赋为全1(NaN),其它赋为全0(0.0f)。可以使用_mm_movemask_ps_mm_movemask_pd或AVX中的等效指令来将结果发送到CPU通用寄存器,这些指令收集每个浮点数通道的最高有效位(恰好也是符号位)并打包成标量,然后复制到通用寄存器中。

const __m128 zero = _mm_setzero_ps();
const __m128 eq = _mm_cmpeq_ps(zero, zero);
const int mask = _mm_movemask_ps(eq);
printf("%i\n", mask);

在上面这段代码中,对于__m128的所有4个通道,0 == 0的比较结果都是正确的,eq变量的所有128位都设置为1,然后_mm_movemask_ps收集并返回所有4个浮点数通道的符号位,最终打印出的mask值是15,即二进制的0b1111。比较结果的另外一些用途,就是可以将它们作为其它指令的参数(例如blendv指令)。

除了全通道比较函数外,也有一些函数可以只比较两个寄存器的最低通道,如下表所示:

运算符 函数示例
等于 _mm_comieq_ss_mm_comieq_sd
不等于 _mm_comineq_ss_mm_comineq_sd
小于 _mm_comilt_ss_mm_comilt_sd
小于等于 _mm_comile_ss_mm_comile_sd
大于 _mm_comigt_ss_mm_comigt_sd
大于等于 _mm_comige_ss_mm_comige_sd

3、洗牌指令

3.1、固定顺序洗牌

函数示例 说明 示意图
_mm_movehl_ps 将向量a中的高2个元素复制到dst的高2个元素中,将向量b中的高2个元素复制到dst的低2个元素中。
_mm_movelh_ps 将向量a中的低2个元素复制到dst的低2个元素中,将向量b中的低2个元素复制到dst的高2个元素中。
_mm_unpacklo_ps 取向量a和向量b的低半部分元素并交错存储到dst中。
_mm_unpackhi_ps 取向量a和向量b的高半部分元素并交错存储到dst中。
_mm_movehdup_ps 复制输入向量中的奇数索引元素,并存储到dst中。
_mm_moveldup_ps 复制输入向量中的偶数索引元素,并存储到dst中。
_mm_broadcastss_ps 将输入向量的最低通道元素广播到dst的所有元素中。

3.2、编译时洗牌

这类函数都接收一个编译期确定的常量来控制洗牌顺序,如果传入的控制系数无法在编译期确定,那么将导致编译错误,例如:

const __m128 zero = _mm_setzero_ps();
_mm_shuffle_ps(zero, zero, rand()); //error C2057: expected constant expression

下表仅列举了一些参数是__m128类型的洗牌函数,__m128d__m256__m256d也都有对应的函数,可以类推。示意图中蓝色箭头表示使用控制系数选择的内容,灰色箭头表示不同控制系数可能选择的内容。

函数示例 说明 示意图
_mm_shuffle_ps 右图中,控制常数是0x98(二进制 10 01 10 00)。输出向量的前2个通道来自第一个输入向量的0b00和0b10号通道,后2个通道来自第二个输入向量的0b01和0b10号通道。如果要对单个向量进行置换,可将两个输入向量都设为同一个向量。可以使用宏_MM_SHUFFLE来生成控制常数。
_mm_blend_ps 右图中,控制常数为1(二进制 0 0 0 1),所以只从第二个输入向量中提取了对应的0号通道,其余通道都取自第一个输入向量的对应通道。
_mm_insert_ps 插入单个通道,并可选择将某些通道清零。右图中,控制常数为0x61(二进制 01 10 0001):源索引为0b01,目标索引为0b10,所以第二个输入向量中0b01号通道的F被插入了输出的0b10号通道;最低4位为0b0001,因此0号输出通道被清零。此外,我们也可以选择性地将某些通道清零而无需插入,例如控制常数0b00001001将0号和3号通道清零。(也可以使用_mm_blend_ps_mm_setzero_ps实现等价功能,但这就是两条指令,而不是一条。)
_mm_permute_ps _mm_shuffle_ps类似,区别在于仅对一个输入向量进行洗牌。右图中,控制常数是0x63(二进制 01 10 00 11)。

3.3、运行时洗牌

_mm_blendv_ps_mm_blendv_pd_mm256_blendv_ps_mm256_blendv_pd接收3个参数,通过掩码的符号位从向量a或向量b中选择通道。

_mm_permutevar_ps_mm256_permutevar8x32_ps都接收一个包含源数据的浮点数寄存器和一个包含源索引的整数寄存器,根据整数寄存器中的索引值从浮点数寄存器中选择通道。

4、乘加融合指令

乘加运算 函数示例
(a · b) + c _mm_fmadd_ps_mm256_fmadd_pd
(a · b) - c _mm_fmsub_ps_mm256_fmsub_pd
-(a · b) + c _mm_fnmadd_ps_mm256_fnmadd_pd
-(a · b) - c _mm_fnmsub_ps_mm256_fnmsub_pd

相较于分别使用乘法和加法指令,乘加融合(fused multiply-add, FMA)指令除了性能较高外,还更加精确,因为这些指令只在计算完乘法与加法后进行一次舍入。