numpy
diff --git a/‎numpy/fft/_pocketfft_umath.cpp
Lines changed: 114 additions & 82 deletions b/‎numpy/fft/_pocketfft_umath.cpp
Lines changed: 114 additions & 82 deletions
@@ -23,105 +23,135 @@
 #include "pocketfft/pocketfft_hdronly.h"
 
 /*
- * Copy all nin elements of input to the first nin of the output,
- * and any set any remaining nout-nin output elements to 0
- * (if nout < nin, copy only nout).
+ * Transfer to and from a contiguous buffer.
+ * copy_input: copy min(nin, n) elements from input to buffer and zero rest.
+ * copy_output: copy n elements from buffer to output.
  */
 template <typename T>
 static inline void
-copy_data(char* in, npy_intp step_in, npy_intp nin,
-          char* out, npy_intp step_out, npy_intp nout)
+copy_input(char *in, npy_intp step_in, size_t nin,
+           T buff[], size_t n)
 {
-    npy_intp ncopy = nin <= nout? nin : nout;
-    char *op = out;
-    if (ncopy > 0) {
-        char *ip = in;
-        for (npy_intp i = 0; i < ncopy; i++, ip += step_in, op += step_out) {
-            *(T *)op = *(T *)ip;
-        }
-    }
-    else {
-        assert(ncopy == 0);
+    size_t ncopy = nin <= n ? nin : n;
+    char *ip = in;
+    size_t i;
+    for (i = 0; i < ncopy; i++, ip += step_in) {
+      buff[i] = *(T *)ip;
     }
-    if (nout > ncopy) {
-        for (npy_intp i = ncopy; i < nout; i++, op += step_out) {
-            *(T *)op = 0;
-        }
+    for (; i < n; i++) {
+      buff[i] = 0;
     }
 }
 
+template <typename T>
+static inline void
+copy_output(T buff[], char *out, npy_intp step_out, size_t n)
+{
+    char *op = out;
+    for (size_t i = 0; i < n; i++, op += step_out) {
+        *(T *)op = buff[i];
+    }
+}
 
 /*
- * Loops calling the pocketfft code.
+ * Gufunc loops calling the pocketfft code.
  */
 template <typename T>
 static void
 fft_loop(char **args, npy_intp const *dimensions, ptrdiff_t const *steps,
          void *func)
 {
     char *ip = args[0], *fp = args[1], *op = args[2];
-    npy_intp n_outer = dimensions[0];
+    size_t n_outer = (size_t)dimensions[0];
     ptrdiff_t si = steps[0], sf = steps[1], so = steps[2];
-    npy_intp nin = dimensions[1], nout = dimensions[2];
+    size_t nin = (size_t)dimensions[1], nout = (size_t)dimensions[2];
     ptrdiff_t step_in = steps[3], step_out = steps[4];
     bool direction = *((bool *)func); /* pocketfft::FORWARD or BACKWARD */
 
     assert (nout > 0);
 
-    if (nin >= nout && (sf == 0 || n_outer == 1)) {
-        /*
-         * For the common case of nin == nout and fixed factor, we can call
-         * pocketfft directly, and benefit from vectorization for >1D. For
-         * nin>nout, this just removes the extra input points, as required.
-         */
-        std::vector<size_t> shape = { (size_t) n_outer, (size_t) nout };
+#ifndef POCKETFFT_NO_VECTORS
+    /*
+     * For the common case of nin >= nout, fixed factor, and suitably sized
+     * outer loop, we call pocketfft directly to benefit from its vectorization.
+     * (For nin>nout, this just removes the extra input points, as required.)
+     */
+    constexpr auto vlen = pocketfft::detail::VLEN<T>::val;
+    if (vlen > 1 && n_outer >= vlen && nin >= nout && sf == 0) {
+        std::vector<size_t> shape = { n_outer, nout };
         std::vector<ptrdiff_t> strides_in = { si, step_in };
         std::vector<ptrdiff_t> strides_out = { so, step_out};
         std::vector<size_t> axes = { 1 };
         pocketfft::c2c(shape, strides_in, strides_out, axes, direction,
                        (std::complex<T> *)ip, (std::complex<T> *)op, *(T *)fp);
+        return;
     }
-    else {
-        /*
-         * Input is short, so copy to output, padding with zeros.
-         * (also covers variable factor, where copy may not strictly be needed)
-         */
-        std::vector<size_t> axes = { 0 };
-        std::vector<size_t> shape = { (size_t)nout };
-        std::vector<ptrdiff_t> strides_out = { step_out };
-        for (npy_intp i = 0; i < n_outer; i++, ip += si, fp += sf, op += so) {
-            copy_data<std::complex<T>>(ip, step_in, nin, op, step_out, nout);
-            pocketfft::c2c(shape, strides_out, strides_out, axes, direction,
-                           (std::complex<T> *)op, (std::complex<T> *)op, *(T *)fp);
+#endif
+    /*
+     * Otherwise, use a non-vectorized loop in which we try to minimize copies.
+     * We do still need a buffer if the output is not contiguous.
+     */
+    auto plan = pocketfft::detail::get_plan<pocketfft::detail::pocketfft_c<T>>(nout);
+    char *buff = NULL;
+    if (step_out != sizeof(std::complex<T>)) {
+        buff = (char *)malloc(nout * sizeof(std::complex<T>));
+        if (buff == NULL) {
+            goto fail;
+        }
+    }
+    for (size_t i = 0; i < n_outer; i++, ip += si, fp += sf, op += so) {
+        std::complex<T> *op_or_buff = (std::complex<T> *)(buff == NULL ? op : buff);
+        if (ip != (char*)op_or_buff) {
+            copy_input(ip, step_in, nin, op_or_buff, nout);
+        }
+        plan->exec((pocketfft::detail::cmplx<T> *)op_or_buff, *(T *)fp, direction);
+        if (buff != NULL) {
+            copy_output(op_or_buff, op, step_out, nout);
         }
     }
+    free(buff);
+    return;
+
+  fail:
+    /* TODO: Requires use of new ufunc API to indicate error return */
+    NPY_ALLOW_C_API_DEF
+    NPY_ALLOW_C_API;
+    PyErr_NoMemory();
+    NPY_DISABLE_C_API;
+    return;
 }
 
 template <typename T>
 static void
 rfft_impl(char **args, npy_intp const *dimensions, npy_intp const *steps,
-          void *func, npy_intp npts)
+          void *func, size_t npts)
 {
     char *ip = args[0], *fp = args[1], *op = args[2];
-    npy_intp n_outer = dimensions[0];
+    size_t n_outer = (size_t)dimensions[0];
     ptrdiff_t si = steps[0], sf = steps[1], so = steps[2];
-    npy_intp nin = dimensions[1], nout = dimensions[2];
+    size_t nin = (size_t)dimensions[1], nout = (size_t)dimensions[2];
     ptrdiff_t step_in = steps[3], step_out = steps[4];
 
-    assert (nout == npts / 2 + 1);
+    assert (nout > 0 && nout == npts / 2 + 1);
 
-    if (nin >= npts && (sf == 0 || n_outer == 1)) {
-        std::vector<size_t> shape_in = { (size_t) n_outer, (size_t) npts };
+#ifndef POCKETFFT_NO_VECTORS
+    /*
+     * Call pocketfft directly if vectorization is possible.
+     */
+    constexpr auto vlen = pocketfft::detail::VLEN<T>::val;
+    if (vlen > 1 && n_outer >= vlen && nin >= npts && sf == 0) {
+        std::vector<size_t> shape_in = { n_outer, npts };
         std::vector<ptrdiff_t> strides_in = { si, step_in };
         std::vector<ptrdiff_t> strides_out = { so, step_out};
         std::vector<size_t> axes = { 1 };
         pocketfft::r2c(shape_in, strides_in, strides_out, axes, pocketfft::FORWARD,
                        (T *)ip, (std::complex<T> *)op, *(T *)fp);
         return;
     }
+#endif
     /*
-     * Input short, so need a padded copy; we'll use out if contiguous.
-     * We also use internal pocketfft routines to avoid a second copy.
+     * Otherwise, use a non-vectorized loop in which we try to minimize copies.
+     * We do still need a buffer if the output is not contiguous.
      */
     auto plan = pocketfft::detail::get_plan<pocketfft::detail::pocketfft_r<T>>(npts);
     char *buff = NULL;
@@ -131,9 +161,8 @@ rfft_impl(char **args, npy_intp const *dimensions, npy_intp const *steps,
             goto fail;
         }
     }
-    for (npy_intp i = 0; i < n_outer; i++, ip += si, fp += sf, op += so) {
-        char *op_or_buff = buff == NULL ? op : buff;
-        T *op_T = (T *)op_or_buff;
+    for (size_t i = 0; i < n_outer; i++, ip += si, fp += sf, op += so) {
+        std::complex<T> *op_or_buff = (std::complex<T> *)(buff == NULL ? op : buff);
         /*
          * The internal pocketfft routines work in-place and for real
          * transforms the frequency data thus needs to be compressed, using
@@ -146,15 +175,11 @@ rfft_impl(char **args, npy_intp const *dimensions, npy_intp const *steps,
          * create I0=0. Note that copy_data will zero the In component for
          * even number of points.
          */
-        copy_data<T>(ip, step_in, nin,
-                     (char *)&op_T[1], sizeof(T), nout*2 - 1);
-        plan->exec(&op_T[1], *(T *)fp, pocketfft::FORWARD);
-        op_T[0] = op_T[1];
-        op_T[1] = (T)0;
-        if (op_or_buff == buff) {
-            copy_data<std::complex<T>>
-                (op_or_buff, sizeof(std::
F42D
complex<T>), nout,
-                 op, step_out, nout);
+        copy_input(ip, step_in, nin, &((T *)op_or_buff)[1], nout*2 - 1);
+        plan->exec(&((T *)op_or_buff)[1], *(T *)fp, pocketfft::FORWARD);
+        op_or_buff[0] = op_or_buff[0].imag();  // I0->R0, I0=0
+        if (buff != NULL) {
+            copy_output(op_or_buff, op, step_out, nout);
         }
     }
     free(buff);
@@ -179,15 +204,19 @@ template <typename T>
 static void
 rfft_n_even_loop(char **args, npy_intp const *dimensions, npy_intp const *steps, void *func)
 {
-    npy_intp npts = 2 * dimensions[2] - 2;
+    size_t nout = (size_t)dimensions[2];
+    assert (nout > 0);
+    size_t npts = 2 * nout - 2;
     rfft_impl<T>(args, dimensions, steps, func, npts);
 }
 
 template <typename T>
 static void
 rfft_n_odd_loop(char **args, npy_intp const *dimensions, npy_intp const *steps, void *func)
 {
-    npy_intp npts = 2 * dimensions[2] - 1;
+    size_t nout = (size_t)dimensions[2];
+    assert (nout > 0);
+    size_t npts = 2 * nout - 1;
     rfft_impl<T>(args, dimensions, steps, func, npts);
 }
 
@@ -196,27 +225,33 @@ static void
 irfft_loop(char **args, npy_intp const *dimensions, npy_intp const *steps, void *func)
 {
     char *ip = args[0], *fp = args[1], *op = args[2];
-    npy_intp n_outer = dimensions[0];
+    size_t n_outer = (size_t)dimensions[0];
     ptrdiff_t si = steps[0], sf = steps[1], so = steps[2];
-    npy_intp nin = dimensions[1], nout = dimensions[2];
+    size_t nin = (size_t)dimensions[1], nout = (size_t)dimensions[2];
     ptrdiff_t step_in = steps[3], step_out = steps[4];
 
-    npy_intp npts_in = nout / 2 + 1;
+    size_t npts_in = nout / 2 
179B
+ 1;
 
     assert(nout > 0);
 
-    if (nin >= npts_in && (sf == 0 || n_outer == 1)) {
+#ifndef POCKETFFT_NO_VECTORS
+    /*
+     * Call pocketfft directly if vectorization is possible.
+     */
+    constexpr auto vlen = pocketfft::detail::VLEN<T>::val;
+    if (vlen > 1 && n_outer >= vlen && nin >= npts_in && sf == 0) {
         std::vector<size_t> axes = { 1 };
-        std::vector<size_t> shape_out = { (size_t) n_outer, (size_t) nout };
+        std::vector<size_t> shape_out = { n_outer, nout };
         std::vector<ptrdiff_t> strides_in = { si, step_in };
         std::vector<ptrdiff_t> strides_out = { so, step_out};
         pocketfft::c2r(shape_out, strides_in, strides_out, axes, pocketfft::BACKWARD,
                        (std::complex<T> *)ip, (T *)op, *(T *)fp);
         return;
     }
+#endif
     /*
-     * Input short, so make a padded copy; we want to use out if possible,
-     * so go directly to FFTpack format which has the same number of bytes.
+     * Otherwise, use a non-vectorized loop in which we try to minimize copies.
+     * We do still need a buffer if the output is not contiguous.
      */
     auto plan = pocketfft::detail::get_plan<pocketfft::detail::pocketfft_r<T>>(nout);
     char *buff = NULL;
@@ -226,9 +261,8 @@ irfft_loop(char **args, npy_intp const *dimensions, npy_intp const *steps, void
             goto fail;
         }
     }
-    for (npy_intp i = 0; i < n_outer; i++, ip += si, fp += sf, op += so) {
-        char *op_or_buff = buff == NULL ? op : buff;
-        T *op_T = (T *)op_or_buff;
+    for (size_t i = 0; i < n_outer; i++, ip += si, fp += sf, op += so) {
+        T *op_or_buff = (T *)(buff == NULL ? op : buff);
         /*
          * Pocket_fft works in-place and for inverse real transforms the
          * frequency data thus needs to be compressed, removing the imaginary
@@ -238,26 +272,24 @@ irfft_loop(char **args, npy_intp const *dimensions, npy_intp const *steps, void
          * the data to the buffer in the following order (also used by
          * FFTpack): R0,R1,I1,...Rn-1,In-1,Rn[,In] (last for npts odd only).
          */
-        op_T[0] = ((T *)ip)[0];  /* copy R0 */
+        op_or_buff[0] = ((T *)ip)[0];  /* copy R0 */
         if (nout > 1) {
             /*
              * Copy R1,I1... up to Rn-1,In-1 if possible, stopping earlier
              * if not all the input points are needed or if the input is short
              * (in the latter case, zeroing after).
              */
-            copy_data<std::complex<T>>
-                (ip + step_in, step_in, nin - 1,
-                 (char *)&op_T[1], sizeof(std::complex<T>), (nout - 1) / 2);
+            copy_input(ip + step_in, step_in, nin - 1,
+                       (std::complex<T> *)&op_or_buff[1], (nout - 1) / 2);
             /* For even nout, we still need to set Rn. */
             if (nout % 2 == 0) {
-                op_T[nout - 1] = (nout / 2 >= nin) ? (T)0 :
+                op_or_buff[nout - 1] = (nout / 2 >= nin) ? (T)0 :
                     ((T *)(ip + (nout / 2) * step_in))[0];
             }
         }
-        plan->exec(op_T, *(T *)fp, pocketfft::BACKWARD);
-        if (op_or_buff == buff) {
-            copy_data<T>(op_or_buff, sizeof(T), nout,
-                         op, step_out, nout);
+        plan->exec(op_or_buff, *(T *)fp, pocketfft::BACKWARD);
+        if (buff != NULL) {
+            copy_output(op_or_buff, op, step_out, nout);
         }
     }
     free(buff);