ENH: Use Highway's VQSort on AArch64

Mousius · Mousius · commit a8082fe58906 · 2023-11-20T17:18:49.000Z
Introduces Highway, a SIMD library from Google. Highway has it's own dispatch mechanism and SIMD flavour (which adds padding) which may be a good replacement for NumPy intrinsics. Highway also has its own set of vectorised Math routines we could bolt on. For this patch, I've integrated the VQSort algorithm only on AArch64 so as not to impact other architectures. The VQSort algorithms performance is comparable to the AVX512 algorithms, according to this report: https://github.com/Voultapher/sort-research-rs/blob/main/writeup/intel_avx512/text.md Performance improvements in the NumPy benchmark suite are as follows: ``` before after ratio [f4b52d53] [f08058d4] <main-setuppy> <highway-sort> + 53.0±0.08μs 221±0.4μs 4.18 bench_function_base.Sort.time_sort('quick', 'int64', ('ordered',)) + 84.8±0.3μs 222±0.3μs 2.62 bench_function_base.Sort.time_sort('quick', 'int64', ('reversed',)) + 89.0±0.2μs 197±0.2μs 2.21 bench_function_base.Sort.time_sort('quick', 'float64', ('ordered',)) + 51.5±0.01μs 80.0±0.1μs 1.55 bench_function_base.Sort.time_sort('quick', 'uint32', ('ordered',)) + 52.0±0.07μs 80.3±0.2μs 1.55 bench_function_base.Sort.time_sort('quick', 'int32', ('ordered',)) + 148±0.3μs 197±0.2μs 1.33 bench_function_base.Sort.time_sort('quick', 'float64', ('reversed',)) + 471±0.2μs 598±0.5μs 1.27 bench_function_base.Sort.time_argsort('heap', 'float64', ('ordered',)) + 536±0.7μs 644±0.8μs 1.20 bench_function_base.Sort.time_argsort('heap', 'float64', ('reversed',)) + 39.8±0.02μs 47.4±0.05μs 1.19 bench_function_base.Sort.time_argsort('merge', 'int32', ('sorted_block', 1000)) + 39.8±0.01μs 47.4±0.02μs 1.19 bench_function_base.Sort.time_argsort('merge', 'uint32', ('sorted_block', 1000)) + 40.1±0.01μs 47.6±0.04μs 1.19 bench_function_base.Sort.time_argsort('merge', 'int64', ('sorted_block', 1000)) + 27.9±0.03μs 32.6±0.03μs 1.17 bench_function_base.Sort.time_argsort('heap', 'uint32', ('uniform',)) + 685±0.5μs 796±0.8μs 1.16 bench_function_base.Sort.time_argsort('heap', 'float64', ('sorted_block', 10)) + 68.7±0.05μs 78.4±0.04μs 1.14 bench_function_base.Sort.time_argsort('merge', 'uint32', ('sorted_block', 100)) + 68.7±0.05μs 78.3±0.1μs 1.14 bench_function_base.Sort.time_argsort('merge', 'int32', ('sorted_block', 100)) + 69.4±0.03μs 78.8±0.05μs 1.14 bench_function_base.Sort.time_argsort('merge', 'int64', ('sorted_block', 100)) + 22.0±0.01μs 24.7±0.01μs 1.12 bench_function_base.Sort.time_sort('heap', 'uint32', ('uniform',)) + 674±0.7μs 743±0.4μs 1.10 bench_function_base.Sort.time_argsort('heap', 'float64', ('sorted_block', 1000)) + 730±0.6μs 794±0.8μs 1.09 bench_function_base.Sort.time_argsort('heap', 'float64', ('sorted_block', 100)) + 464±2μs 492±10μs 1.06 bench_function_base.Sort.time_argsort('heap', 'int32', ('reversed',)) + 95.5±0.1μs 101±0.1μs 1.06 bench_function_base.Sort.time_argsort('quick', 'float64', ('ordered',)) + 839±1μs 886±2μs 1.06 bench_function_base.Sort.time_argsort('heap', 'float64', ('random',)) + 95.7±0.1μs 101±0.05μs 1.06 bench_function_base.Sort.time_argsort('quick', 'float32', ('ordered',)) - 516±0.6μs 488±0.9μs 0.95 bench_function_base.Sort.time_sort('heap', 'float32', ('ordered',)) - 532±1μs 499±5μs 0.94 bench_function_base.Sort.time_argsort('heap', 'int16', ('reversed',)) - 34.5±0.05μs 32.2±0.03μs 0.93 bench_function_base.Sort.time_sort('merge', 'int32', ('sorted_block', 1000)) - 715±1μs 666±0.4μs 0.93 bench_function_base.Sort.time_sort('heap', 'float64', ('random',)) - 254±2μs 231±0.2μs 0.91 bench_function_base.Sort.time_sort('quick', 'int64', ('sorted_block', 1000)) - 655±0.5μs 592±0.3μs 0.90 bench_function_base.Sort.time_sort('heap', 'float64', ('sorted_block', 100)) - 24.7±0.02μs 22.0±0.07μs 0.89 bench_function_base.Sort.time_sort('heap', 'int32', ('uniform',)) - 621±0.7μs 549±0.3μs 0.88 bench_function_base.Sort.time_sort('heap', 'float64', ('sorted_block', 1000)) - 659±0.9μs 555±0.5μs 0.84 bench_function_base.Sort.time_sort('heap', 'float64', ('sorted_block', 10)) - 545±0.4μs 444±0.5μs 0.81 bench_function_base.Sort.time_sort('heap', 'float64', ('reversed',)) - 511±0.5μs 396±0.4μs 0.78 bench_function_base.Sort.time_sort('heap', 'float64', ('ordered',)) - 316±0.6μs 225±0.2μs 0.71 bench_function_base.Sort.time_sort('quick', 'int64', ('sorted_block', 10)) - 333±0.4μs 233±0.3μs 0.70 bench_function_base.Sort.time_sort('quick', 'int64', ('sorted_block', 100)) - 323±0.2μs 206±0.2μs 0.64 bench_function_base.Sort.time_sort('quick', 'float64', ('sorted_block', 1000)) - 134±0.9μs 85.0±0.07μs 0.64 bench_function_base.Sort.time_sort('quick', 'float32', ('reversed',)) - 376±0.9μs 228±0.3μs 0.61 bench_function_base.Sort.time_sort('quick', 'int64', ('random',)) - 418±0.4μs 207±0.4μs 0.50 bench_function_base.Sort.time_sort('quick', 'float64', ('sorted_block', 100)) - 413±2μs 199±0.2μs 0.48 bench_function_base.Sort.time_sort('quick', 'float64', ('sorted_block', 10)) - 64.4±0.3ms 28.6±0.3ms 0.44 bench_function_base.Sort.time_sort_worst - 501±2μs 204±0.3μs 0.41 bench_function_base.Sort.time_sort('quick', 'float64', ('random',)) - 248±1μs 86.9±0.2μs 0.35 bench_function_base.Sort.time_sort('quick', 'uint32', ('sorted_block', 1000)) - 251±0.7μs 87.0±0.2μs 0.35 bench_function_base.Sort.time_sort('quick', 'int32', ('sorted_block', 1000)) - 329±0.9μs 91.4±0.1μs 0.28 bench_function_base.Sort.time_sort('quick', 'float32', ('sorted_block', 1000)) - 329±1μs 85.2±0.06μs 0.26 bench_function_base.Sort.time_sort('quick', 'int32', ('sorted_block', 100)) - 329±0.7μs 85.0±0.06μs 0.26 bench_function_base.Sort.time_sort('quick', 'uint32', ('sorted_block', 100)) - 315±0.5μs 80.4±0.05μs 0.26 bench_function_base.Sort.time_sort('quick', 'int32', ('sorted_block', 10)) - 320±1μs 80.3±0.09μs 0.25 bench_function_base.Sort.time_sort('quick', 'uint32', ('sorted_block', 10)) - 372±0.4μs 82.1±0.06μs 0.22 bench_function_base.Sort.time_sort('quick', 'int32', ('random',)) - 414±0.4μs 89.6±0.1μs 0.22 bench_function_base.Sort.time_sort('quick', 'float32', ('sorted_block', 100)) - 384±1μs 81.8±0.02μs 0.21 bench_function_base.Sort.time_sort('quick', 'uint32', ('random',)) - 415±0.3μs 84.8±0.2μs 0.20 bench_function_base.Sort.time_sort('quick', 'float32', ('sorted_block', 10)) - 491±2μs 86.3±0.1μs 0.18 bench_function_base.Sort.time_sort('quick', 'float32', ('random',)) - 111±0.4μs 13.0±0.01μs 0.12 bench_function_base.Sort.time_sort('quick', 'float64', ('uniform',)) - 50.9±0.03μs 4.93±0.01μs 0.10 bench_function_base.Sort.time_sort('quick', 'int64', ('uniform',)) - 108±0.3μs 7.25±0.02μs 0.07 bench_function_base.Sort.time_sort('quick', 'float32', ('uniform',)) - 51.7±0.05μs 3.43±0.01μs 0.07 bench_function_base.Sort.time_sort('quick', 'int32', ('uniform',)) - 51.3±0.07μs 3.35±0.06μs 0.07 bench_function_base.Sort.time_sort('quick', 'uint32', ('uniform',)) ```
diff --git a/.gitmodules b/.gitmodules
@@ -10,3 +10,6 @@
 [submodule "vendored-meson/meson"]
 	path = vendored-meson/meson
 	url = https://github.com/numpy/meson.git
+[submodule "numpy/_core/src/highway"]
+	path = numpy/_core/src/highway
+	url = https://github.com/google/highway.git
diff --git a/numpy/_core/src/highway b/numpy/_core/src/highway
@@ -0,0 +1 @@
+Subproject commit 65d30ea17f3fde10dfe3805b2dc5c22ad59d9363
diff --git a/numpy/_core/src/npysort/quicksort.cpp b/numpy/_core/src/npysort/quicksort.cpp
@@ -84,7 +84,7 @@ inline bool quicksort_dispatch(T *start, npy_intp num)
         NPY_CPU_DISPATCH_CALL_XB(dispfunc = np::qsort_simd::template QSort, <TF>);
     }
     else if (sizeof(T) == sizeof(uint32_t) || sizeof(T) == sizeof(uint64_t)) {
-        #ifndef NPY_DISABLE_OPTIMIZATION
+        #if !defined(NPY_DISABLE_OPTIMIZATION) && !(defined(NPY_HAVE_ASIMD) && !defined(NPY_CAN_LINK_HIGHWAY))
             #include "simd_qsort.dispatch.h"
         #endif
         NPY_CPU_DISPATCH_CALL_XB(dispfunc = np::qsort_simd::template QSort, <TF>);
@@ -105,7 +105,7 @@ inline bool aquicksort_dispatch(T *start, npy_intp* arg, npy_intp num)
     using TF = typename np::meta::FixedWidth<T>::Type;
     void (*dispfunc)(TF*, npy_intp*, npy_intp) = nullptr;
     #ifndef NPY_DISABLE_OPTIMIZATION
-        #include "simd_qsort.dispatch.h"
+        #include "simd_argsort.dispatch.h"
     #endif
     /* x86-simd-sort uses 8-byte int to store arg values, npy_intp is 4 bytes
      * in 32-bit*/
diff --git a/numpy/_core/src/npysort/simd_argsort.dispatch.cpp b/numpy/_core/src/npysort/simd_argsort.dispatch.cpp
@@ -0,0 +1,44 @@
+/*@targets
+ * $maxopt $keep_baseline
+ * avx512_skx
+ */
+// policy $keep_baseline is used to avoid skip building avx512_skx
+// when its part of baseline features (--cpu-baseline), since
+// 'baseline' option isn't specified within targets.
+
+#include "simd_qsort.hpp"
+
+#if defined(NPY_HAVE_AVX512_SKX) && !defined(_MSC_VER)
+    #include "x86-simd-sort/src/avx512-64bit-argsort.hpp"
+#endif
+
+namespace np { namespace qsort_simd {
+
+#if defined(NPY_HAVE_AVX512_SKX) && !defined(_MSC_VER)
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int32_t *arr, npy_intp *arg, npy_intp size)
+{
+    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(uint32_t *arr, npy_intp *arg, npy_intp size)
+{
+    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int64_t *arr, npy_intp *arg, npy_intp size)
+{
+    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(uint64_t *arr, npy_intp *arg, npy_intp size)
+{
+    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(float *arr, npy_intp *arg, npy_intp size)
+{
+    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+}
+template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(double *arr, npy_intp *arg, npy_intp size)
+{
+    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+}
+#endif
+
+}} // namespace np::simd
diff --git a/numpy/_core/src/npysort/simd_qsort.dispatch.cpp b/numpy/_core/src/npysort/simd_qsort.dispatch.cpp
@@ -1,5 +1,7 @@
 /*@targets
- * $maxopt $keep_baseline avx512_skx
+ * $maxopt $keep_baseline
+ * avx512_skx
+ * asimd
  */
 // policy $keep_baseline is used to avoid skip building avx512_skx
 // when its part of baseline features (--cpu-baseline), since
@@ -11,7 +13,8 @@
 #if defined(NPY_HAVE_AVX512_SKX)
     #include "x86-simd-sort/src/avx512-32bit-qsort.hpp"
     #include "x86-simd-sort/src/avx512-64bit-qsort.hpp"
-    #include "x86-simd-sort/src/avx512-64bit-argsort.hpp"
+#elif defined(NPY_HAVE_ASIMD)
+    #include "hwy/contrib/sort/vqsort.h"
 #endif
 
 namespace np { namespace qsort_simd {
@@ -89,31 +92,32 @@ template<> void NPY_CPU_DISPATCH_CURFX(QSort)(double *arr, intptr_t size)
 {
     avx512_qsort(arr, size);
 }
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int32_t *arr, npy_intp *arg, npy_intp size)
+#elif defined(NPY_HAVE_ASIMD) && defined(NPY_CAN_LINK_HIGHWAY)
+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(int32_t *arr, intptr_t size)
 {
-    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+    hwy::VQSort(arr, size, hwy::SortAscending());
 }
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(uint32_t *arr, npy_intp *arg, npy_intp size)
+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(uint32_t *arr, intptr_t size)
 {
-    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+    hwy::VQSort(arr, size, hwy::SortAscending());
 }
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int64_t *arr, npy_intp *arg, npy_intp size)
+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(int64_t *arr, intptr_t size)
 {
-    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+    hwy::VQSort(arr, size, hwy::SortAscending());
 }
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(uint64_t *arr, npy_intp *arg, npy_intp size)
+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(uint64_t *arr, intptr_t size)
 {
-    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+    hwy::VQSort(arr, size, hwy::SortAscending());
 }
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(float *arr, npy_intp *arg, npy_intp size)
+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(float *arr, intptr_t size)
 {
-    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+    hwy::VQSort(arr, size, hwy::SortAscending());
 }
-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(double *arr, npy_intp *arg, npy_intp size)
+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(double *arr, intptr_t size)
 {
-    avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);
+    hwy::VQSort(arr, size, hwy::SortAscending());
 }
-#endif  // NPY_HAVE_AVX512_SKX
+#endif
 
 }} // namespace np::simd
 
diff --git a/numpy/_core/src/npysort/simd_qsort.hpp b/numpy/_core/src/npysort/simd_qsort.hpp
@@ -10,6 +10,10 @@ namespace np { namespace qsort_simd {
 #endif
 NPY_CPU_DISPATCH_DECLARE(template <typename T> void QSort, (T *arr, intptr_t size))
 NPY_CPU_DISPATCH_DECLARE(template <typename T> void QSelect, (T* arr, npy_intp num, npy_intp kth))
+
+#ifndef NPY_DISABLE_OPTIMIZATION
+    #include "simd_argsort.dispatch.h"
+#endif
 NPY_CPU_DISPATCH_DECLARE(template <typename T> void ArgQSort, (T *arr, npy_intp* arg, npy_intp size))
 NPY_CPU_DISPATCH_DECLARE(template <typename T> void ArgQSelect, (T *arr, npy_intp* arg, npy_intp kth, npy_intp size))
 
diff --git a/numpy/_core/src/npysort/simd_qsort_16bit.dispatch.cpp b/numpy/_core/src/npysort/simd_qsort_16bit.dispatch.cpp
@@ -1,5 +1,6 @@
 /*@targets
- * $maxopt $keep_baseline avx512_icl avx512_spr
+ * $maxopt $keep_baseline 
+ * avx512_icl avx512_spr
  */
 // policy $keep_baseline is used to avoid skip building avx512_skx
 // when its part of baseline features (--cpu-baseline), since
diff --git a/numpy/_core/src/npysort/x86-simd-sort b/numpy/_core/src/npysort/x86-simd-sort
@@ -1 +1 @@
-Subproject commit b9f93403da765778b570a9c6e71c6ab43fd68613
+Subproject commit 85fbe7d1abca3b9a224ba1c62d52afe9a180f8ef

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,7 @@`
`1`	`1`	`/*@targets`
`2`		`- * $maxopt $keep_baseline avx512_skx`
	`2`	`+ * $maxopt $keep_baseline`
	`3`	`+ * avx512_skx`
	`4`	`+ * asimd`
`3`	`5`	`*/`
`4`	`6`	`// policy $keep_baseline is used to avoid skip building avx512_skx`
`5`	`7`	`// when its part of baseline features (--cpu-baseline), since`
`@@ -11,7 +13,8 @@`
`11`	`13`	`#if defined(NPY_HAVE_AVX512_SKX)`
`12`	`14`	`#include "x86-simd-sort/src/avx512-32bit-qsort.hpp"`
`13`	`15`	`#include "x86-simd-sort/src/avx512-64bit-qsort.hpp"`
`14`		`- #include "x86-simd-sort/src/avx512-64bit-argsort.hpp"`
	`16`	`+#elif defined(NPY_HAVE_ASIMD)`
	`17`	`+ #include "hwy/contrib/sort/vqsort.h"`
`15`	`18`	`#endif`
`16`	`19`
`17`	`20`	`namespace np { namespace qsort_simd {`
`@@ -89,31 +92,32 @@ template<> void NPY_CPU_DISPATCH_CURFX(QSort)(double *arr, intptr_t size)`
`89`	`92`	`{`
`90`	`93`	`avx512_qsort(arr, size);`
`91`	`94`	`}`
`92`		`-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int32_t arr, npy_intp arg, npy_intp size)`
	`95`	`+#elif defined(NPY_HAVE_ASIMD) && defined(NPY_CAN_LINK_HIGHWAY)`
	`96`	`+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(int32_t *arr, intptr_t size)`
`93`	`97`	`{`
`94`		`- avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);`
	`98`	`+ hwy::VQSort(arr, size, hwy::SortAscending());`
`95`	`99`	`}`
`96`		`-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(uint32_t arr, npy_intp arg, npy_intp size)`
	`100`	`+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(uint32_t *arr, intptr_t size)`
`97`	`101`	`{`
`98`		`- avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);`
	`102`	`+ hwy::VQSort(arr, size, hwy::SortAscending());`
`99`	`103`	`}`
`100`		`-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(int64_t arr, npy_intp arg, npy_intp size)`
	`104`	`+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(int64_t *arr, intptr_t size)`
`101`	`105`	`{`
`102`		`- avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);`
	`106`	`+ hwy::VQSort(arr, size, hwy::SortAscending());`
`103`	`107`	`}`
`104`		`-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(uint64_t arr, npy_intp arg, npy_intp size)`
	`108`	`+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(uint64_t *arr, intptr_t size)`
`105`	`109`	`{`
`106`		`- avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);`
	`110`	`+ hwy::VQSort(arr, size, hwy::SortAscending());`
`107`	`111`	`}`
`108`		`-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(float arr, npy_intp arg, npy_intp size)`
	`112`	`+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(float *arr, intptr_t size)`
`109`	`113`	`{`
`110`		`- avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);`
	`114`	`+ hwy::VQSort(arr, size, hwy::SortAscending());`
`111`	`115`	`}`
`112`		`-template<> void NPY_CPU_DISPATCH_CURFX(ArgQSort)(double arr, npy_intp arg, npy_intp size)`
	`116`	`+template<> void NPY_CPU_DISPATCH_CURFX(QSort)(double *arr, intptr_t size)`
`113`	`117`	`{`
`114`		`- avx512_argsort(arr, reinterpret_cast<int64_t*>(arg), size);`
	`118`	`+ hwy::VQSort(arr, size, hwy::SortAscending());`
`115`	`119`	`}`
`116`		`-#endif // NPY_HAVE_AVX512_SKX`
	`120`	`+#endif`
`117`	`121`
`118`	`122`	`}} // namespace np::simd`
`119`	`123`