numpy
diff --git a/‎numpy/core/src/common/simd/vsx/arithmetic.h
Lines changed: 103 additions & 0 deletions b/‎numpy/core/src/common/simd/vsx/arithmetic.h
Lines changed: 103 additions & 0 deletions
diff --git a/‎numpy/core/src/common/simd/vsx/conversion.h
Lines changed: 32 additions & 0 deletions b/‎numpy/core/src/common/simd/vsx/conversion.h
Lines changed: 32 additions & 0 deletions
diff --git a/‎numpy/core/src/common/simd/vsx/memory.h
Lines changed: 150 additions & 0 deletions b/‎numpy/core/src/common/simd/vsx/memory.h
Lines changed: 150 additions & 0 deletions
@@ -0,0 +1,103 @@
+#ifndef NPY_SIMD
+    #error "Not a standalone header"
+#endif
+
+#ifndef _NPY_SIMD_VSX_ARITHMETIC_H
+#define _NPY_SIMD_VSX_ARITHMETIC_H
+
+/***************************
+ * Addition
+ ***************************/
+// non-saturated
+#define npyv_add_u8  vec_add
+#define npyv_add_s8  vec_add
+#define npyv_add_u16 vec_add
+#define npyv_add_s16 vec_add
+#define npyv_add_u32 vec_add
+#define npyv_add_s32 vec_add
+#define npyv_add_u64 vec_add
+#define npyv_add_s64 vec_add
+#define npyv_add_f32 vec_add
+#define npyv_add_f64 vec_add
 
+// saturated
+#define npyv_adds_u8  vec_adds
+#define npyv_adds_s8  vec_adds
+#define npyv_adds_u16 vec_adds
+#define npyv_adds_s16 vec_adds
+
+/***************************
+ * Subtraction
+ ***************************/
+// non-saturated
+#define npyv_sub_u8  vec_sub
+#define npyv_sub_s8  vec_sub
+#define npyv_sub_u16 vec_sub
+#define npyv_sub_s16 vec_sub
+#define npyv_sub_u32 vec_sub
+#define npyv_sub_s32 vec_sub
+#define npyv_sub_u64 vec_sub
+#define npyv_sub_s64 vec_sub
+#define npyv_sub_f32 vec_sub
+#define npyv_sub_f64 vec_sub
+
+// saturated
+#define npyv_subs_u8  vec_subs
+#define npyv_subs_s8  vec_subs
+#define npyv_subs_u16 vec_subs
+#define npyv_subs_s16 vec_subs
+
+/***************************
+ * Multiplication
+ ***************************/
+// non-saturated
+// up to GCC 6 vec_mul only supports precisions and llong
+#if defined(__GNUC__) && __GNUC__ < 7
+    #define NPYV_IMPL_VSX_MUL(T_VEC, SFX, ...)              \
+        NPY_FINLINE T_VEC npyv_mul_##SFX(T_VEC a, T_VEC b)  \
+        {                                                   \
+            const npyv_u8 ev_od = {__VA_ARGS__};            \
+            return vec_perm(                                \
+                (T_VEC)vec_mule(a, b),                      \
+                (T_VEC)vec_mulo(a, b), ev_od                \
+            );                                              \
+        }
+
+    NPYV_IMPL_VSX_MUL(npyv_u8,  u8,  0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30)
+    NPYV_IMPL_VSX_MUL(npyv_s8,  s8,  0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30)
+    NPYV_IMPL_VSX_MUL(npyv_u16, u16, 0, 1, 16, 17, 4, 5, 20, 21, 8, 9, 24, 25, 12, 13, 28, 29)
+    NPYV_IMPL_VSX_MUL(npyv_s16, s16, 0, 1, 16, 17, 4, 5, 20, 21, 8, 9, 24, 25, 12, 13, 28, 29)
+
+    // vmuluwm can be used for unsigned or signed 32-bit integers
+    #define NPYV_IMPL_VSX_MUL_32(T_VEC, SFX)                \
+        NPY_FINLINE T_VEC npyv_mul_##SFX(T_VEC a, T_VEC b)  \
+        {                                                   \
+            T_VEC ret;                                      \
+            __asm__ __volatile__(                           \
+                "vmuluwm %0,%1,%2" :                        \
+                "=v" (ret) : "v" (a), "v" (b)               \
+            );                                              \
+            return ret;                                     \
+        }
+
+    NPYV_IMPL_VSX_MUL_32(npyv_u32, u32)
+    NPYV_IMPL_VSX_MUL_32(npyv_s32, s32)
+
+#else
+    #define npyv_mul_u8  vec_mul
+    #define npyv_mul_s8  vec_mul
+    #define npyv_mul_u16 vec_mul
+    #define npyv_mul_s16 vec_mul
+    #define npyv_mul_u32 vec_mul
+    #define npyv_mul_s32 vec_mul
+#endif
+#define npyv_mul_f32 vec_mul
+#define npyv_mul_f64 vec_mul
+
+/***************************
+ * Division
+ ***************************/
+#define npyv_div_f32 vec_div
+#define npyv_div_f64 vec_div
+
+#endif // _NPY_SIMD_VSX_ARITHMETIC_H
@@ -0,0 +1,32 @@
+#ifndef NPY_SIMD
+    #error "Not a standalone header"
+#endif
+
+#ifndef _NPY_SIMD_VSX_CVT_H
+#define _NPY_SIMD_VSX_CVT_H
+
+// convert boolean vectors to integer vectors
+#define npyv_cvt_u8_b8(BL)   ((npyv_u8)  BL)
+#define npyv_cvt_s8_b8(BL)   ((npyv_s8)  BL)
+#define npyv_cvt_u16_b16(BL) ((npyv_u16) BL)
+#define npyv_cvt_s16_b16(BL) ((npyv_s16) BL)
+#define npyv_cvt_u32_b32(BL) ((npyv_u32) BL)
+#define npyv_cvt_s32_b32(BL) ((npyv_s32) BL)
+#define npyv_cvt_u64_b64(BL) ((npyv_u64) BL)
+#define npyv_cvt_s64_b64(BL) ((npyv_s64) BL)
+#define npyv_cvt_f32_b32(BL) ((npyv_f32) BL)
+#define npyv_cvt_f64_b64(BL) ((npyv_f64) BL)
+
+// convert integer vectors to boolean vectors
+#define npyv_cvt_b8_u8(A)   ((npyv_b8)  A)
+#define npyv_cvt_b8_s8(A)   ((npyv_b8)  A)
+#define npyv_cvt_b16_u16(A) ((npyv_b16) A)
+#define npyv_cvt_b16_s16(A) ((npyv_b16) A)
+#define npyv_cvt_b32_u32(A) ((npyv_b32) A)
+#define npyv_cvt_b32_s32(A) ((npyv_b32) A)
+#define npyv_cvt_b64_u64(A) ((npyv_b64) A)
+#define npyv_cvt_b64_s64(A) ((npyv_b64) A)
+#define npyv_cvt_b32_f32(A) ((npyv_b32) A)
+#define npyv_cvt_b64_f64(A) ((npyv_b64) A)
+
+#endif // _NPY_SIMD_VSX_CVT_H
@@ -0,0 +1,150 @@
+#ifndef NPY_SIMD
+    #error "Not a standalone header"
+#endif
+
+#ifndef _NPY_SIMD_VSX_MEMORY_H
+#define _NPY_SIMD_VSX_MEMORY_H
+/****************************
+ * load/store
+ ****************************/
+// TODO: test load by cast
+#define VSX__CAST_lOAD 0
+#if VSX__CAST_lOAD
+    #define npyv__load(PTR, T_VEC) (*((T_VEC*)(PTR)))
+#else
+    /**
+     * CLANG fails to load unaligned addresses via vec_xl, vec_xst
+     * so we failback to vec_vsx_ld, vec_vsx_st
+     */
+    #if (defined(__GNUC__) && !defined(vec_xl)) || (defined(__clang__) && !defined(__IBMC__))
+        #define npyv__load(PTR, T_VEC) vec_vsx_ld(0, PTR)
+    #else
+        #define npyv__load(PTR, T_VEC) vec_xl(0, PTR)
+    #endif
+#endif
+// unaligned load
+#define npyv_load_u8(PTR)  npyv__load(PTR, npyv_u8)
+#define npyv_load_s8(PTR)  npyv__load(PTR, npyv_s8)
+#define npyv_load_u16(PTR) npyv__load(PTR, npyv_u16)
+#define npyv_load_s16(PTR) npyv__load(PTR, npyv_s16)
+#define npyv_load_u32(PTR) npyv__load(PTR, npyv_u32)
+#define npyv_load_s32(PTR) npyv__load(PTR, npyv_s32)
+#define npyv_load_f32(PTR) npyv__load(PTR, npyv_f32)
+#define npyv_load_f64(PTR) npyv__load(PTR, npyv_f64)
+#if VSX__CAST_lOAD
+    #define npyv_load_u64(PTR) npyv__load(PTR, npyv_u64)
+    #define npyv_load_s64(PTR) npyv__load(PTR, npyv_s64)
+#else
+    #define npyv_load_u64(PTR) ((npyv_u64)npyv_load_u32((const unsigned int*)PTR))
+    #define npyv_load_s64(PTR) ((npyv_s64)npyv_load_s32((const unsigned int*)PTR))
+#endif
+// aligned load
+#define npyv_loada_u8(PTR)  vec_ld(0, PTR)
+#define npyv_loada_s8  npyv_loada_u8
+#define npyv_loada_u16 npyv_loada_u8
+#define npyv_loada_s16 npyv_loada_u8
+#define npyv_loada_u32 npyv_loada_u8
+#define npyv_loada_s32 npyv_loada_u8
+#define npyv_loada_u64 npyv_load_u64
+#define npyv_loada_s64 npyv_load_s64
+#define npyv_loada_f32 npyv_loada_u8
+#define npyv_loada_f64 npyv_load_f64
+// stream load
+#define npyv_loads_u8  npyv_loada_u8
+#define npyv_loads_s8  npyv_loada_s8
+#define npyv_loads_u16 npyv_loada_u16
+#define npyv_loads_s16 npyv_loada_s16
+#define npyv_loads_u32 npyv_loada_u32
+#define npyv_loads_s32 npyv_loada_s32
+#define npyv_loads_u64 npyv_loada_u64
+#define npyv_loads_s64 npyv_loada_s64
+#define npyv_loads_f32 npyv_loada_f32
+#define npyv_loads_f64 npyv_loada_f64
+// load lower part
+// avoid aliasing rules
+#ifdef __cplusplus
+    template<typename T_PTR>
+    NPY_FINLINE npy_uint64 *npyv__ptr2u64(T_PTR *ptr)
+    { return npy_uint64 *ptr64 = (npy_uint64*)ptr; return ptr; }
+#else
+    NPY_FINLINE npy_uint64 *npyv__ptr2u64(void *ptr)
+    { npy_uint64 *ptr64 = ptr; return ptr64; }
+#endif // __cplusplus
+#if defined(__clang__) && !defined(__IBMC__)
+    // vec_promote doesn't support doubleword on clang
+    #define npyv_loadl_u64(PTR) npyv_setall_u64(*npyv__ptr2u64(PTR))
+#else
+    #define npyv_loadl_u64(PTR) vec_promote(*npyv__ptr2u64(PTR), 0)
+#endif
+#define npyv_loadl_u8(PTR)  ((npyv_u8)npyv_loadl_u64(PTR))
+#define npyv_loadl_s8(PTR)  ((npyv_s8)npyv_loadl_u64(PTR))
+#define npyv_loadl_u16(PTR) ((npyv_u16)npyv_loadl_u64(PTR))
+#define npyv_loadl_s16(PTR) ((npyv_s16)npyv_loadl_u64(PTR))
+#define npyv_loadl_u32(PTR) ((npyv_u32)npyv_loadl_u64(PTR))
+#define npyv_loadl_s32(PTR) ((npyv_s32)npyv_loadl_u64(PTR))
+#define npyv_loadl_s64(PTR) ((npyv_s64)npyv_loadl_u64(PTR))
+#define npyv_loadl_f32(PTR) ((npyv_f32)npyv_loadl_u64(PTR))
+#define npyv_loadl_f64(PTR) ((npyv_f64)npyv_loadl_u64(PTR))
+// unaligned store
+#if (defined(__GNUC__) && !defined(vec_xl)) || (defined(__clang__) && !defined(__IBMC__))
+    #define npyv_store_u8(PTR, VEC) vec_vsx_st(VEC, 0, PTR)
+#else
+    #define npyv_store_u8(PTR, VEC) vec_xst(VEC, 0, PTR)
+#endif
+#define npyv_store_s8  npyv_store_u8
+#define npyv_store_u16 npyv_store_u8
+#define npyv_store_s16 npyv_store_u8
+#define npyv_store_u32 npyv_store_u8
+#define npyv_store_s32 npyv_store_u8
+#define npyv_store_u64(PTR, VEC) npyv_store_u8((unsigned int*)PTR, (npyv_u32)VEC)
+#define npyv_store_s64(PTR, VEC) npyv_store_u8((unsigned int*)PTR, (npyv_u32)VEC)
+#define npyv_store_f32 npyv_store_u8
+#define npyv_store_f64 npyv_store_u8
+// aligned store
+#define npyv_storea_u8(PTR, VEC)  vec_st(VEC, 0, PTR)
+#define npyv_storea_s8  npyv_storea_u8
+#define npyv_storea_u16 npyv_storea_u8
+#define npyv_storea_s16 npyv_storea_u8
+#define npyv_storea_u32 npyv_storea_u8
+#define npyv_storea_s32 npyv_storea_u8
+#define npyv_storea_u64 npyv_store_u64
+#define npyv_storea_s64 npyv_store_s64
+#define npyv_storea_f32 npyv_storea_u8
+#define npyv_storea_f64 npyv_store_f64
+// stream store
+#define npyv_stores_u8  npyv_storea_u8
+#define npyv_stores_s8  npyv_storea_s8
+#define npyv_stores_u16 npyv_storea_u16
+#define npyv_stores_s16 npyv_storea_s16
+#define npyv_stores_u32 npyv_storea_u32
+#define npyv_stores_s32 npyv_storea_s32
+#define npyv_stores_u64 npyv_storea_u64
+#define npyv_stores_s64 npyv_storea_s64
+#define npyv_stores_f32 npyv_storea_f32
+#define npyv_stores_f64 npyv_storea_f64
+// store lower part
+#define npyv_storel_u8(PTR, VEC) \
+    *npyv__ptr2u64(PTR) = vec_extract(((npyv_u64)VEC), 0)
+#define npyv_storel_s8  npyv_storel_u8
+#define npyv_storel_u16 npyv_storel_u8
+#define npyv_storel_s16 npyv_storel_u8
+#define npyv_storel_u32 npyv_storel_u8
+#define npyv_storel_s32 npyv_storel_u8
+#define npyv_storel_s64 npyv_storel_u8
+#define npyv_storel_u64 npyv_storel_u8
+#define npyv_storel_f32 npyv_storel_u8
+#define npyv_storel_f64 npyv_storel_u8
+// store higher part
+#define npyv_storeh_u8(PTR, VEC) \
+    *npyv__ptr2u64(PTR) = vec_extract(((npyv_u64)VEC), 1)
+#define npyv_storeh_s8  npyv_storeh_u8
+#define npyv_storeh_u16 npyv_storeh_u8
+#define npyv_storeh_s16 npyv_storeh_u8
+#define npyv_storeh_u32 npyv_storeh_u8
+#define npyv_storeh_s32 npyv_storeh_u8
+#define npyv_storeh_s64 npyv_storeh_u8
+#define npyv_storeh_u64 npyv_storeh_u8
+#define npyv_storeh_f32 npyv_storeh_u8
+#define npyv_storeh_f64 npyv_storeh_u8
+
+#endif // _NPY_SIMD_VSX_MEMORY_H