[60/62] AVX512FP16: Add reduce operators(add/mul/min/max).

Message ID	20210701061648.9447-61-hongtao.liu@intel.com
State	New
Headers	show Return-Path: <gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org> DMARC-Filter: OpenDMARC Filter v1.4.1 sourceware.org 49756384F02A To: gcc-patches@gcc.gnu.org Subject: [PATCH 60/62] AVX512FP16: Add reduce operators(add/mul/min/max). Date: Thu, 1 Jul 2021 14:16:46 +0800 Message-Id: <20210701061648.9447-61-hongtao.liu@intel.com> In-Reply-To: <20210701061648.9447-1-hongtao.liu@intel.com> References: <20210701061648.9447-1-hongtao.liu@intel.com> Precedence: list From: liuhongt via Gcc-patches <gcc-patches@gcc.gnu.org> Reply-To: liuhongt <hongtao.liu@intel.com> Cc: jakub@redhat.com, dianhong xu <dianhong.xu@intel.com> Errors-To: gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org Sender: "Gcc-patches" <gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org>
Series	Support all AVX512FP16 intrinsics. \| expand [00/62] Support all AVX512FP16 intrinsics. [01/62] AVX512FP16: Support vector init/broadcast for FP16. [02/62] AVX512FP16: Add testcase for vector init and broadcast intrinsics. [03/62] AVX512FP16: Fix HF vector passing in variable arguments. [04/62] AVX512FP16: Add ABI tests for xmm. [05/62] AVX512FP16: Add ABI test for ymm. [06/62] AVX512FP16: Add abi test for zmm [07/62] AVX512FP16: Add vaddph/vsubph/vdivph/vmulph. [08/62] AVX512FP16: Add testcase for vaddph/vsubph/vmulph/vdivph. [09/62] AVX512FP16: Enable _Float16 autovectorization [10/62] AVX512FP16: Add vaddsh/vsubsh/vmulsh/vdivsh. [11/62] AVX512FP16: Add testcase for vaddsh/vsubsh/vmulsh/vdivsh. [12/62] AVX512FP16: Add vmaxph/vminph/vmaxsh/vminsh. [13/62] AVX512FP16: Add testcase for vmaxph/vmaxsh/vminph/vminsh. [14/62] AVX512FP16: Add vcmpph/vcmpsh/vcomish/vucomish. [15/62] AVX512FP16: Add testcase for vcmpph/vcmpsh/vcomish/vucomish. [16/62] AVX512FP16: Add vsqrtph/vrsqrtph/vsqrtsh/vrsqrtsh. [17/62] AVX512FP16: Add testcase for vsqrtph/vsqrtsh/vrsqrtph/vrsqrtsh. [18/62] AVX512FP16: Add vrcpph/vrcpsh/vscalefph/vscalefsh. [19/62] AVX512FP16: Add testcase for vrcpph/vrcpsh/vscalefph/vscalefsh. [20/62] AVX512FP16: Add vreduceph/vreducesh/vrndscaleph/vrndscalesh. [21/62] AVX512FP16: Add testcase for vreduceph/vreducesh/vrndscaleph/vrndscalesh. [22/62] AVX512FP16: Add fpclass/getexp/getmant instructions. [23/62] AVX512FP16: Add testcase for fpclass/getmant/getexp instructions. [24/62] AVX512FP16: Add vmovw/vmovsh. [25/62] AVX512FP16: Add testcase for vmovsh/vmovw. [26/62] AVX512FP16: Add vcvtph2dq/vcvtph2qq/vcvtph2w/vcvtph2uw/vcvtph2uqq/vcvtph2udq [27/62] AVX512FP16: Add testcase for vcvtph2w/vcvtph2uw/vcvtph2dq/vcvtph2udq/vcvtph2qq/vcvtph2uqq. [28/62] AVX512FP16: Add vcvtuw2ph/vcvtw2ph/vcvtdq2ph/vcvtudq2ph/vcvtqq2ph/vcvtuqq2ph [29/62] AVX512FP16: Add testcase for vcvtw2ph/vcvtuw2ph/vcvtdq2ph/vcvtudq2ph/vcvtqq2ph/vcvtuqq2ph. [30/62] AVX512FP16: Add vcvtsh2si/vcvtsh2usi/vcvtsi2sh/vcvtusi2sh. [31/62] AVX512FP16: Add testcase for vcvtsh2si/vcvtsh2usi/vcvtsi2sh/vcvtusi2sh. [32/62] AVX512FP16: Add vcvttph2w/vcvttph2uw/vcvttph2dq/vcvttph2qq/vcvttph2udq/vcvttph2uqq [33/62] AVX512FP16: Add testcase for vcvttph2w/vcvttph2uw/vcvttph2dq/vcvttph2udq/vcvttph2qq/vcvttph… [34/62] AVX512FP16: Add vcvttsh2si/vcvttsh2usi. [35/62] AVX512FP16: Add vcvtph2pd/vcvtph2psx/vcvtpd2ph/vcvtps2phx. [36/62] AVX512FP16: Add testcase for vcvtph2pd/vcvtph2psx/vcvtpd2ph/vcvtps2phx. [37/62] AVX512FP16: Add vcvtsh2ss/vcvtsh2sd/vcvtss2sh/vcvtsd2sh. [38/62] AVX512FP16: Add testcase for vcvtsh2sd/vcvtsh2ss/vcvtsd2sh/vcvtss2sh. [39/62] AVX512FP16: Add intrinsics for casting between vector float16 and vector float32/float64/in… [40/62] AVX512FP16: Add vfmaddsub[132, 213, 231]ph/vfmsubadd[132, 213, 231]ph. [41/62] AVX512FP16: Add testcase for vfmaddsub[132, 213, 231]ph/vfmsubadd[132, 213, 231]ph. [42/62] AVX512FP16: Add FP16 fma instructions. [43/62] AVX512FP16: Add testcase for fma instructions [44/62] AVX512FP16: Add scalar/vector bitwise operations, including [45/62] AVX512FP16: Add testcase for fp16 bitwise operations. [46/62] AVX512FP16: Enable FP16 mask load/store. [47/62] AVX512FP16: Add scalar fma instructions. [48/62] AVX512FP16: Add testcase for scalar FMA instructions. [49/62] AVX512FP16: Add vfcmaddcph/vfmaddcph/vfcmulcph/vfmulcph [50/62] AVX512FP16: Add testcases for vfcmaddcph/vfmaddcph/vfcmulcph/vfmulcph. [51/62] AVX512FP16: Add vfcmaddcsh/vfmaddcsh/vfcmulcsh/vfmulcsh. [52/62] AVX512FP16: Add testcases for vfcmaddcsh/vfmaddcsh/vfcmulcsh/vfmulcsh. [53/62] AVX512FP16: Add expander for sqrthf2. [54/62] AVX512FP16: Add expander for ceil/floor/trunc/roundeven. [55/62] AVX512FP16: Add expander for cstorehf4. [56/62] AVX512FP16: Optimize (_Float16) sqrtf ((float) f16) to sqrtf16 (f16). [57/62] AVX512FP16: Add expander for fmahf4 [58/62] AVX512FP16: Optimize for code like (_Float16) __builtin_ceif ((float) f16). [59/62] AVX512FP16: Support load/store/abs intrinsics. [60/62] AVX512FP16: Add reduce operators(add/mul/min/max). [61/62] AVX512FP16: Add complex conjugation intrinsic instructions. [62/62] AVX512FP16: Add permutation and mask blend intrinsics.

diff --git a/gcc/config/i386/avx512fp16intrin.h b/gcc/config/i386/avx512fp16intrin.h index b8ca9201828..6e0f3a80e54 100644 --- a/gcc/config/i386/avx512fp16intrin.h +++ b/gcc/config/i386/avx512fp16intrin.h @@ -7056,6 +7056,75 @@ _mm_maskz_fmul_round_sch (__mmask8 __A, __m128h __B, __m128h __C, const int __E) #endif /* __OPTIMIZE__ */ +#define _MM512_REDUCE_OP(op) \ + __m256h __T1 = (__m256h) _mm512_extractf64x4_pd ((__m512d) __A, 0); \ + __m256h __T2 = (__m256h) _mm512_extractf64x4_pd ((__m512d) __A, 1); \ + __m256h __T3 = (__T1 op __T2); \ + __m128h __T4 = (__m128h) _mm256_extractf128_pd ((__m256d) __T3, 0); \ + __m128h __T5 = (__m128h) _mm256_extractf128_pd ((__m256d) __T3, 1); \ + __m128h __T6 = (__T4 op __T5); \ + __m128h __T7 = (__m128h) __builtin_shuffle ((__m128h)__T6, \ + (__v8hi) {4, 5, 6, 7, 0, 1, 2, 3}); \ + __m128h __T8 = (__T6 op __T7); \ + __m128h __T9 = (__m128h) __builtin_shuffle ((__m128h)__T8, \ + (__v8hi) {2, 3, 0, 1, 4, 5, 6, 7}); \ + __m128h __T10 = __T8 op __T9; \ + return __T10[0] op __T10[1] + +// TODO reduce +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm512_reduce_add_ph (__m512h __A) +{ + _MM512_REDUCE_OP(+); +} + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm512_reduce_mul_ph (__m512h __A) +{ + _MM512_REDUCE_OP(*); +} + +#undef _MM512_REDUCE_OP +#define _MM512_REDUCE_OP(op) \ + __m512h __T1 = (__m512h) __builtin_shuffle ((__m512d) __A, \ + (__v8di) {4,5,6,7,0,0,0,0}); \ + __m512h __T2 = _mm512_##op(__A, __T1); \ + __m512h __T3 = (__m512h) __builtin_shuffle ((__m512d) __T2, \ + (__v8di) {2,3,0,0,0,0,0,0}); \ + __m512h __T4 = _mm512_##op(__T2, __T3); \ + __m512h __T5 = (__m512h) __builtin_shuffle ((__m512d) __T4, \ + (__v8di) {1,0,0,0,0,0,0,0}); \ + __m512h __T6 = _mm512_##op(__T4, __T5); \ + __m512h __T7 = (__m512h) __builtin_shuffle ((__m512) __T6, \ + (__v16si) {1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0}); \ + __m512h __T8 = _mm512_##op(__T6, __T7); \ + __m512h __T9 = (__m512h) __builtin_shuffle (__T8, \ + (__v32hi) {1,0,0,0,0,0,0,0,\ + 0,0,0,0,0,0,0,0,\ + 0,0,0,0,0,0,0,0,\ + 0,0,0,0,0,0,0,0}\ + ); \ + __m512h __T10 = _mm512_##op(__T8, __T9); \ + return __T10[0] + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm512_reduce_min_ph (__m512h __A) +{ + _MM512_REDUCE_OP(min_ph); +} + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm512_reduce_max_ph (__m512h __A) +{ + _MM512_REDUCE_OP(max_ph); +} + +#undef _MM512_REDUCE_OP + #ifdef __DISABLE_AVX512FP16__ #undef __DISABLE_AVX512FP16__ #pragma GCC pop_options diff --git a/gcc/config/i386/avx512fp16vlintrin.h b/gcc/config/i386/avx512fp16vlintrin.h index d4aa9928406..eea1941617f 100644 --- a/gcc/config/i386/avx512fp16vlintrin.h +++ b/gcc/config/i386/avx512fp16vlintrin.h @@ -3088,6 +3088,111 @@ _mm256_maskz_fcmul_pch (__mmask8 __A, __m256h __B, __m256h __C) __A); } +#define _MM256_REDUCE_OP(op) \ + __m128h __T1 = (__m128h) _mm256_extractf128_pd ((__m256d) __A, 0); \ + __m128h __T2 = (__m128h) _mm256_extractf128_pd ((__m256d) __A, 1); \ + __m128h __T3 = (__T1 op __T2); \ + __m128h __T4 = (__m128h) __builtin_shuffle (__T3, \ + (__v8hi) {4, 5, 6, 7, 0, 1, 2, 3}); \ + __m128h __T5 = (__T3) op (__T4); \ + __m128h __T6 = (__m128h) __builtin_shuffle (__T5, \ + (__v8hi) {2, 3, 0, 1, 4, 5, 6, 7}); \ + __m128h __T7 = __T5 op __T6; \ + return __T7[0] op __T7[1] + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm256_reduce_add_ph (__m256h __A) +{ + _MM256_REDUCE_OP(+); +} + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm256_reduce_mul_ph (__m256h __A) +{ + _MM256_REDUCE_OP(*); +} + +#undef _MM256_REDUCE_OP +#define _MM256_REDUCE_OP(op) \ + __m128h __T1 = (__m128h) _mm256_extractf128_pd ((__m256d) __A, 0); \ + __m128h __T2 = (__m128h) _mm256_extractf128_pd ((__m256d) __A, 1); \ + __m128h __T3 = _mm_##op (__T1, __T2); \ + __m128h __T4 = (__m128h) __builtin_shuffle (__T3, \ + (__v8hi) {2, 3, 0, 1, 6, 7, 4, 5}); \ + __m128h __T5 = _mm_##op (__T3, __T4); \ + __m128h __T6 = (__m128h) __builtin_shuffle (__T5, (__v8hi) {4, 5}); \ + __m128h __T7 = _mm_##op (__T5, __T6); \ + __m128h __T8 = (__m128h) __builtin_shuffle (__T7, (__v8hi) {1, 0}); \ + __m128h __T9 = _mm_##op (__T7, __T8); \ + return __T9[0] + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm256_reduce_min_ph (__m256h __A) +{ + _MM256_REDUCE_OP(min_ph); +} + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm256_reduce_max_ph (__m256h __A) +{ + _MM256_REDUCE_OP(max_ph); +} + +#define _MM_REDUCE_OP(op) \ + __m128h __T1 = (__m128h) __builtin_shuffle (__A, \ + (__v8hi) {4, 5, 6, 7, 0, 1, 2, 3}); \ + __m128h __T2 = (__A) op (__T1); \ + __m128h __T3 = (__m128h) __builtin_shuffle (__T2, \ + (__v8hi){2, 3, 0, 1, 4, 5, 6, 7}); \ + __m128h __T4 = __T2 op __T3; \ + return __T4[0] op __T4[1] + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm_reduce_add_ph (__m128h __A) +{ + _MM_REDUCE_OP(+); +} + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm_reduce_mul_ph (__m128h __A) +{ + _MM_REDUCE_OP(*); +} + +#undef _MM_REDUCE_OP +#define _MM_REDUCE_OP(op) \ + __m128h __T1 = (__m128h) __builtin_shuffle (__A, \ + (__v8hi) {2, 3, 0, 1, 6, 7, 4, 5}); \ + __m128h __T2 = _mm_##op (__A, __T1); \ + __m128h __T3 = (__m128h) __builtin_shuffle (__T2, (__v8hi){4, 5}); \ + __m128h __T4 = _mm_##op (__T2, __T3); \ + __m128h __T5 = (__m128h) __builtin_shuffle (__T4, (__v8hi){1, 0}); \ + __m128h __T6 = _mm_##op (__T4, __T5); \ + return __T6[0] + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm_reduce_min_ph (__m128h __A) +{ + _MM_REDUCE_OP(min_ph); +} + +extern __inline _Float16 +__attribute__ ((__gnu_inline__, __always_inline__, __artificial__)) +_mm_reduce_max_ph (__m128h __A) +{ + _MM_REDUCE_OP(max_ph); +} + +#undef _MM256_REDUCE_OP +#undef _MM_REDUCE_OP + #ifdef __DISABLE_AVX512FP16VL__ #undef __DISABLE_AVX512FP16VL__ #pragma GCC pop_options diff --git a/gcc/testsuite/gcc.target/i386/avx512fp16-reduce-op-1.c b/gcc/testsuite/gcc.target/i386/avx512fp16-reduce-op-1.c new file mode 100644 index 00000000000..35563166536 --- /dev/null +++ b/gcc/testsuite/gcc.target/i386/avx512fp16-reduce-op-1.c @@ -0,0 +1,132 @@ +/* { dg-do run { target avx512fp16 } } */ +/* { dg-options "-O2 -mavx512fp16" } */ + +static void do_test (void); + +#define DO_TEST do_test +#define AVX512FP16 + +#include <immintrin.h> +#include "avx512-check.h" + +__m512h a1 = { -39.3f16, -180.9f16, 13.4f16, 35.4f16, -41.1f16, -14.4f16, 24.5f16, 53.54f16, + 238.4f16, -134.8f16, 24.5f16, 35.6f16, -346.7f16, -43.4f16, -535.3f16, 324.7f16, + 82.5f16, 21.4f16, 24.4f16, 53.4f16, 23.5f16, -24.4f16, -34.5f16, -32.5f16, + 23.6f16, -13.4f16, 24.5f16, 35.5f16, -34.4f16, -24.5f16, -34.5f16, 13.5f16 }; + +__m512h a2 = { 1.25f16, 2.25f16, -0.25f16, 4.0f16, -2.0f16, 4.0f16, -3.0f16, 2.0f16, + -0.5f16, -1.0f16, 1.0f16, -1.0f16, 1.0f16, 1.0f16, 2.0f16, 4.0f16, + 1.25f16, 2.25f16, -4.25f16, 4.0f16, -2.4f16, 4.0f16, -3.0f, 2.0f16, + -4.5f16, 7.6f16, 0.7f16, -8.2f16, 2.1f16, 2.4f16, -2.0f16, 19.4f16 }; + +__attribute__((noinline, noclone)) _Float16 +test_reduce_add_ph (__m512h a) +{ + return _mm512_reduce_add_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_mul_ph (__m512h a) +{ + return _mm512_reduce_mul_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_max_ph (__m512h a) +{ + return _mm512_reduce_max_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_min_ph (__m512h a) +{ + return _mm512_reduce_min_ph (a); +} + +#define SIZE 32 +#define REF_ADDMUL(op, a) \ + __m256h __a1 = _mm256_setzero_ph (); \ + for (int i =0; i < 16; i++) { \ + __a1[i] = (_Float16) a[i] op (_Float16) a[i + 16]; \ + } \ + __m128h __a2 = _mm_setzero_ph (); \ + for (int i =0; i < 8; i++) { \ + __a2[i] = (_Float16) __a1[i] op (_Float16) __a1[i + 8]; \ + } \ + _Float16 __c0 = __a2[0] op __a2[4]; \ + _Float16 __c1 = __a2[1] op __a2[5]; \ + _Float16 __c2 = __a2[2] op __a2[6]; \ + _Float16 __c3 = __a2[3] op __a2[7]; \ + _Float16 __d0 = __c0 op __c2; \ + _Float16 __d1 = __c1 op __c3; \ + _Float16 __e0 = __d0 op __d1; \ + r3 = __e0 + +#define TESTOP(opname, op, a) \ + do { \ + _Float16 r1 = _mm512_reduce_##opname##_ph (a); \ + _Float16 r2 = test_reduce_##opname##_ph (a); \ + _Float16 r3 = a[0]; \ + if (r1 != r2) { \ + __builtin_abort (); \ + } \ + REF_ADDMUL (op, a); \ + if (r1 != r3) { \ + __builtin_abort (); \ + } \ + } while (0) + +#define TEST_ADDMUL_PH(a) \ + do { \ + TESTOP (add, +, a); \ + TESTOP (mul, *, a); \ + } while (0) + + static void + test_512_addmul_ph (void) + { + TEST_ADDMUL_PH (a1); + TEST_ADDMUL_PH (a2); + } + +#undef TESTOP +#define TESTOP(opname, op, a) \ + do { \ + _Float16 r1 = _mm512_reduce_##opname##_ph (a); \ + _Float16 r2 = test_reduce_##opname##_ph (a); \ + _Float16 r3 = a[0]; \ + if (r1 != r2) { \ + __builtin_abort (); \ + } \ + for (int i = 1; i < SIZE; i++) \ + r3 = r3 op a[i]; \ + if (r1 != r3) { \ + __builtin_abort (); \ + } \ + } while (0) + +#define TEST_MINMAX_PH(a) \ + do { \ + TESTOP (min, < a[i] ? r3 :, a); \ + TESTOP (max, > a[i] ? r3 :, a); \ + } while (0) + +static void +test_512_minmax_ph (void) +{ + TEST_MINMAX_PH (a1); + TEST_MINMAX_PH (a2); +} + +static void +do_test (void) +{ + test_512_addmul_ph(); + test_512_minmax_ph(); +} + +#undef SIZE +#undef REF_ADDMUL +#undef TESTOP +#undef TEST_ADDMUL_PH +#undef TEST_MINMAX_PH diff --git a/gcc/testsuite/gcc.target/i386/avx512fp16vl-reduce-op-1.c b/gcc/testsuite/gcc.target/i386/avx512fp16vl-reduce-op-1.c new file mode 100644 index 00000000000..70485d89720 --- /dev/null +++ b/gcc/testsuite/gcc.target/i386/avx512fp16vl-reduce-op-1.c @@ -0,0 +1,244 @@ +/* { dg-do run { target avx512fp16 } } */ +/* { dg-options "-O2 -mavx512fp16 -mavx512vl" } */ + +static void do_test (void); + +#define DO_TEST do_test +#define AVX512FP16 + +#include <immintrin.h> +#include "avx512-check.h" + +__m256h a1 = { -39.3f16, -180.9f16, 13.4f16, 35.4f16, -41.1f16, -14.4f16, 24.5f16, 53.54f16, + 238.4f16, -134.8f16, 24.5f16, 35.6f16, -346.7f16, -43.4f16, -535.3f16, 324.7f16 }; +__m256h a2 = { 82.5f16, 21.4f16, 24.4f16, 53.4f16, 23.5f16, -24.4f16, -34.5f16, -32.5f16, + 23.6f16, -13.4f16, 24.5f16, 35.5f16, -34.4f16, -24.5f16, -34.5f16, 13.5f16 }; + +__m128h b1 = { 1.25f16, 2.25f16, -0.25f16, 4.0f16, -2.0f16, 4.0f16, -3.0f16, 2.0f16 }; +__m128h b2 = { -0.5f16, -1.0f16, 1.0f16, -1.0f16, 1.0f16, 1.0f16, 2.0f16, 4.0f16 }; +__m128h b3 = { 1.25f16, 2.25f16, -4.25f16, 4.0f16, -2.4f16, 4.0f16, -3.0f, 2.0f16 }; +__m128h b4 = { -4.5f16, 7.6f16, 0.7f16, -8.2f16, 2.1f16, 2.4f16, -2.0f16, 1.4f16 }; + +__attribute__((noinline, noclone)) _Float16 +test_reduce_256_add_ph (__m256h a) +{ + return _mm256_reduce_add_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_256_mul_ph (__m256h a) +{ + return _mm256_reduce_mul_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_256_max_ph (__m256h a) +{ + return _mm256_reduce_max_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_256_min_ph (__m256h a) +{ + return _mm256_reduce_min_ph (a); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_add_ph (__m128h b) +{ + return _mm_reduce_add_ph (b); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_mul_ph (__m128h b) +{ + return _mm_reduce_mul_ph (b); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_max_ph (__m128h b) +{ + return _mm_reduce_max_ph (b); +} + +__attribute__((noinline, noclone)) _Float16 +test_reduce_min_ph (__m128h b) +{ + return _mm_reduce_min_ph (b); +} + +#define SIZE 16 +#define REF_ADDMUL(op, a) \ + __m128h __a1 = _mm_setzero_ph (); \ + for (int i = 0; i < 8; i++) { \ + __a1[i] = (_Float16) a[i] op (_Float16) a[i + 8]; \ + } \ + _Float16 __c0 = __a1[0] op __a1[4]; \ + _Float16 __c1 = __a1[1] op __a1[5]; \ + _Float16 __c2 = __a1[2] op __a1[6]; \ + _Float16 __c3 = __a1[3] op __a1[7]; \ + _Float16 __d0 = __c0 op __c2; \ + _Float16 __d1 = __c1 op __c3; \ + _Float16 __e0 = __d0 op __d1; \ + r3 = __e0 + +#define TESTOP(opname, op, a) \ + do { \ + _Float16 r1 = _mm256_reduce_##opname##_ph (a); \ + _Float16 r2 = test_reduce_256_##opname##_ph (a); \ + _Float16 r3 = a[0]; \ + if (r1 != r2) { \ + __builtin_abort (); \ + } \ + REF_ADDMUL (op, a); \ + if (r1 != r3) { \ + __builtin_abort (); \ + } \ + } while (0) + +#define TEST_ADDMUL_PH(a) \ + do { \ + TESTOP (add, +, a); \ + TESTOP (mul, *, a); \ + } while (0) + +static void +test_256_addmul_ph (void) +{ + TEST_ADDMUL_PH (a1); + TEST_ADDMUL_PH (a2); +} + +#undef TESTOP +#define TESTOP(opname, op, a) \ + do { \ + _Float16 r1 = _mm256_reduce_##opname##_ph (a); \ + _Float16 r2 = test_reduce_256_##opname##_ph (a); \ + _Float16 r3 = a[0]; \ + if (r1 != r2) { \ + __builtin_abort (); \ + } \ + for (int i = 1; i < SIZE; i++) \ + r3 = r3 op a[i]; \ + if (r1 != r3) { \ + __builtin_abort (); \ + } \ + } while (0) + +#define TEST_MINMAX_PH(a) \ + do { \ + TESTOP (min, < a[i] ? r3 :, a); \ + TESTOP (max, > a[i] ? r3 :, a); \ + } while (0) + +static void +test_256_minmax_ph (void) +{ + TEST_MINMAX_PH (a1); + TEST_MINMAX_PH (a2); +} + +static void +test_256_ph (void) +{ + test_256_addmul_ph (); + test_256_minmax_ph (); +} + +#undef SIZE +#define SIZE 8 + +#undef REF_ADDMUL +#define REF_ADDMUL(op, a) \ + _Float16 __c0 = a[0] op a[4]; \ + _Float16 __c1 = a[1] op a[5]; \ + _Float16 __c2 = a[2] op a[6]; \ + _Float16 __c3 = a[3] op a[7]; \ + _Float16 __d0 = __c0 op __c2; \ + _Float16 __d1 = __c1 op __c3; \ + _Float16 __e0 = __d0 op __d1; \ + r3 = __e0 + +#undef TESTOP +#define TESTOP(opname, op, a) \ + do { \ + _Float16 r1 = _mm_reduce_##opname##_ph (a); \ + _Float16 r2 = test_reduce_##opname##_ph (a); \ + _Float16 r3 = a[0]; \ + if (r1 != r2) { \ + __builtin_abort (); \ + } \ + REF_ADDMUL (op, a); \ + if (r1 != r3) { \ + __builtin_abort (); \ + } \ + } while (0) + +#undef TEST_ADDMUL_PH +#define TEST_ADDMUL_PH(a) \ + do { \ + TESTOP (add, +, a); \ + TESTOP (mul, *, a); \ + } while (0) + +static void +test_128_addmul_ph (void) +{ + TEST_ADDMUL_PH (b1); + TEST_ADDMUL_PH (b2); + TEST_ADDMUL_PH (b3); + TEST_ADDMUL_PH (b4); +} + +#undef TESTOP +#define TESTOP(opname, op, b) \ + do { \ + _Float16 r1 = _mm_reduce_##opname##_ph (b); \ + _Float16 r2 = test_reduce_##opname##_ph (b); \ + _Float16 r3 = b[0]; \ + if (r1 != r2) { \ + __builtin_abort (); \ + } \ + for (int i = 1; i < SIZE; i++) \ + r3 = r3 op b[i]; \ + if (r1 != r3) { \ + __builtin_abort (); \ + } \ + } while (0) + +#undef TEST_MINMAX_PH +#define TEST_MINMAX_PH(b) \ + do { \ + TESTOP (min, < b[i] ? r3 :, b); \ + TESTOP (max, > b[i] ? r3 :, b); \ + } while (0) + +static void +test_128_minmax_ph (void) +{ + TEST_MINMAX_PH (b1); + TEST_MINMAX_PH (b2); + TEST_MINMAX_PH (b3); + TEST_MINMAX_PH (b4); +} + +static void +test_128_ph (void) +{ + test_128_addmul_ph (); + test_128_minmax_ph (); +} + +static void +do_test (void) +{ + test_256_ph (); + test_128_ph (); +} + + +#undef SIZE +#undef REF_ADDMUL +#undef TESTOP +#undef TEST_ADDMUL_PH +#undef TEST_MINMAX_PH

[60/62] AVX512FP16: Add reduce operators(add/mul/min/max).

Commit Message

Patch