Switch off simd_select for AArch64

numpy · seiko2plus · Nov 24, 2023 · Jun 20, 2023 · Jun 22, 2023 · Jun 26, 2023
commit 59443e8a5ef68133bcb791ffca042d3a54eeca71
diff --git a/numpy/_core/src/npysort/selection.cpp b/numpy/_core/src/npysort/selection.cpp
@@ -28,6 +28,7 @@
 #include "simd_qsort.hpp"
 
 #define NOT_USED NPY_UNUSED(unused)
+#define DISABLE_HIGHWAY_OPTIMIZATION (defined(__arm__) || defined(__aarch64__))
-#define DISABLE_HIGHWAY_OPTIMIZATION (defined(__arm__) || defined(__aarch64__))
-#define DISABLE_HIGHWAY_OPTIMIZATION (defined(__arm__) || defined(__aarch64__))
 
 template<typename T>
 inline bool quickselect_dispatch(T* v, npy_intp num, npy_intp kth)
@@ -55,12 +56,14 @@ inline bool quickselect_dispatch(T* v, npy_intp num, npy_intp kth)
             #endif
             NPY_CPU_DISPATCH_CALL_XB(dispfunc = np::qsort_simd::template QSelect, <TF>);
         }
+        #if !DISABLE_HIGHWAY_OPTIMIZATION
         else if constexpr (sizeof(T) == sizeof(uint32_t) || sizeof(T) == sizeof(uint64_t)) {
             #ifndef NPY_DISABLE_OPTIMIZATION
                 #include "simd_qsort.dispatch.h"
             #endif
             NPY_CPU_DISPATCH_CALL_XB(dispfunc = np::qsort_simd::template QSelect, <TF>);
         }
+        #endif
         if (dispfunc) {
             (*dispfunc)(reinterpret_cast<TF*>(v), num, kth);
             return true;
@@ -85,7 +88,7 @@ inline bool argquickselect_dispatch(T* v, npy_intp* arg, npy_intp num, npy_intp
         sizeof(npy_intp) == sizeof(int64_t)) {
         using TF = typename np::meta::FixedWidth<T>::Type;
         #ifndef NPY_DISABLE_OPTIMIZATION
-            #include "simd_qsort.dispatch.h"
+            #include "simd_argsort.dispatch.h"
         #endif
         void (*dispfunc)(TF*, npy_intp*, npy_intp, npy_intp) = nullptr;
         NPY_CPU_DISPATCH_CALL_XB(dispfunc = np::qsort_simd::template ArgQSelect, <TF>);

diff --git a/numpy/_core/src/npysort/simd_argsort.dispatch.cpp b/numpy/_core/src/npysort/simd_argsort.dispatch.cpp
@@ -7,14 +7,39 @@
 // 'baseline' option isn't specified within targets.
 
 #include "simd_qsort.hpp"
+#ifndef __CYGWIN__
 
-#if defined(NPY_HAVE_AVX512_SKX) && !defined(_MSC_VER)
+#if defined(NPY_HAVE_AVX512_SKX)
     #include "x86-simd-sort/src/avx512-64bit-argsort.hpp"
 #endif
 
 namespace np { namespace qsort_simd {
 
-#if defined(NPY_HAVE_AVX512_SKX) && !defined(_MSC_VER)
+#if defined(NPY_HAVE_AVX512_SKX)
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(int32_t *arr, npy_intp* arg, npy_intp num, npy_intp kth)
+{
+    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(uint32_t *arr, npy_intp* arg, npy_intp num, npy_intp kth)
+{
+    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(int64_t*arr, npy_intp* arg, npy_intp num, npy_intp kth)
+{
+    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(uint64_t*arr, npy_intp* arg, npy_intp num, npy_intp kth)
+{
+    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(float *arr, npy_intp* arg, npy_intp num, npy_intp kth)
+{
+    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(double *arr, npy_intp* arg, npy_intp num, npy_intp kth)
+{
+    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
+}
 template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int32_t *arr, npy_intp *arg, npy_intp size)
 {
     avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
@@ -42,3 +67,5 @@ template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(double *arr, npy_intp *arg, npy
 #endif
 
 }} // namespace np::simd
+
+#endif // __CYGWIN__
diff --git a/numpy/_core/src/npysort/simd_qsort.dispatch.cpp b/numpy/_core/src/npysort/simd_qsort.dispatch.cpp
@@ -23,30 +23,6 @@
 namespace np { namespace qsort_simd {
 
 #if defined(NPY_HAVE_AVX512_SKX)
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(int32_t *arr, npy_intp* arg, npy_intp num, npy_intp kth)
-{
-    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
-}
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(uint32_t *arr, npy_intp* arg, npy_intp num, npy_intp kth)
-{
-    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
-}
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(int64_t*arr, npy_intp* arg, npy_intp num, npy_intp kth)
-{
-    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
-}
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(uint64_t*arr, npy_intp* arg, npy_intp num, npy_intp kth)
-{
-    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
-}
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(float *arr, npy_intp* arg, npy_intp num, npy_intp kth)
-{
-    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
-}
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSelect)(double *arr, npy_intp* arg, npy_intp num, npy_intp kth)
-{
-    avx512_argselect(arr, reinterpret_cast<int64_t*>(arg), kth, num);
-}
 template<> void NPY_CPU_DISPATCH_CURFX(QSelect)(int32_t *arr, npy_intp num, npy_intp kth)
 {
     avx512_qselect(arr, kth, num, true);