plctlab
diff --git a/‎neon2rvv.h
Lines changed: 8 additions & 4 deletions b/‎neon2rvv.h
Lines changed: 8 additions & 4 deletions
diff --git a/‎tests/impl.cpp
Lines changed: 14 additions & 3 deletions b/‎tests/impl.cpp
Lines changed: 14 additions & 3 deletions
@@ -340,9 +340,8 @@ FORCE_INLINE int8x8_t vaddhn_s16(int16x8_t __a, int16x8_t __b) {
 // FORCE_INLINE uint32x2_t vaddhn_u64(uint64x2_t __a, uint64x2_t __b);
 
 FORCE_INLINE int8x8_t vraddhn_s16(int16x8_t __a, int16x8_t __b) {
-  uint8_t mask_arr[] = {0xaa, 0xaa};
-  vbool8_t mask = __riscv_vlm_v_b8(mask_arr, 16);
-  int16x8_t add_ab = (__riscv_vadd_vv_i16m1(__a, __b, 8));
+  vbool8_t mask = __riscv_vreinterpret_v_u8m1_b8(vdup_n_u8(0xaa));
+  int16x8_t add_ab = __riscv_vadd_vv_i16m1(__a, __b, 8);
   int16x8_t add_round = __riscv_vadd_vx_i16m1(add_ab, 1 << 7, 8);
   return __riscv_vcompress_vm_i8m1(__riscv_vreinterpret_v_i16m1_i8m1(add_round), mask, 16);
 }
@@ -738,7 +737,12 @@ FORCE_INLINE int8x8_t vsubhn_s16(int16x8_t __a, int16x8_t __b) {
 
 // FORCE_INLINE uint32x2_t vsubhn_u64(uint64x2_t __a, uint64x2_t __b);
 
-// FORCE_INLINE int8x8_t vrsubhn_s16(int16x8_t __a, int16x8_t __b);
+FORCE_INLINE int8x8_t vrsubhn_s16(int16x8_t __a, int16x8_t __b) {
+  vbool8_t mask = __riscv_vreinterpret_v_u8m1_b8(vdup_n_u8(0xaa));
+  int16x8_t ab_sub = __riscv_vsub_vv_i16m1(__a, __b, 8);
+  int16x8_t sub_round = __riscv_vadd_vx_i16m1(ab_sub, 1 << 7, 8);
+  return __riscv_vcompress_vm_i8m1(__riscv_vreinterpret_v_i16m1_i8m1(sub_round), mask, 16);
+}
 
 // FORCE_INLINE int16x4_t vrsubhn_s32(int32x4_t __a, int32x4_t __b);
 
 
@@ -847,7 +847,6 @@ result_t test_vraddhn_s16(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) {
   const int16_t *_a = (int16_t *)impl.test_cases_int_pointer1;
   const int16_t *_b = (int16_t *)impl.test_cases_int_pointer2;
   int8_t _c[8];
-
   const int16_t round = 1 << 7;
   for (int i = 0; i < 8; i++) {
     _c[i] = ((_a[i] + _b[i] + round) >> 8) & 0xff;
@@ -856,7 +855,6 @@ result_t test_vraddhn_s16(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) {
   int16x8_t a = vld1q_s16(_a);
   int16x8_t b = vld1q_s16(_b);
   int8x8_t c = vraddhn_s16(a, b);
-
   return validate_int8(c, _c[0], _c[1], _c[2], _c[3], _c[4], _c[5], _c[6], _c[7]);
 }
 
@@ -1566,7 +1564,20 @@ result_t test_vsubhn_u32(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) { return
 
 result_t test_vsubhn_u64(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) { return TEST_UNIMPL; }
 
-result_t test_vrsubhn_s16(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) { return TEST_UNIMPL; }
+result_t test_vrsubhn_s16(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) {
+  const int16_t *_a = (int16_t *)impl.test_cases_int_pointer1;
+  const int16_t *_b = (int16_t *)impl.test_cases_int_pointer2;
+  int8_t _c[8];
+  const int16_t round = 1 << 7;
+  for (int i = 0; i < 8; i++) {
+    _c[i] = ((_a[i] - _b[i] + round) >> 8) & 0xff;
+  }
+
+  int16x8_t a = vld1q_s16(_a);
+  int16x8_t b = vld1q_s16(_b);
+  int8x8_t c = vrsubhn_s16(a, b);
+  return validate_int8(c, _c[0], _c[1], _c[2], _c[3], _c[4], _c[5], _c[6], _c[7]);
+}
 
 result_t test_vrsubhn_s32(const NEON2RVV_TEST_IMPL &impl, uint32_t iter) { return TEST_UNIMPL; }