srcarroll
diff --git a/‎src/flexfloat.c
Lines changed: 44 additions & 35 deletions b/‎src/flexfloat.c
Lines changed: 44 additions & 35 deletions
diff --git a/‎test/downward_rounding.cpp
Lines changed: 26 additions & 2 deletions b/‎test/downward_rounding.cpp
Lines changed: 26 additions & 2 deletions
diff --git a/‎test/nearest_rounding.cpp
Lines changed: 28 additions & 4 deletions b/‎test/nearest_rounding.cpp
Lines changed: 28 additions & 4 deletions
diff --git a/‎test/upward_rounding.cpp
Lines changed: 34 additions & 2 deletions b/‎test/upward_rounding.cpp
Lines changed: 34 additions & 2 deletions
@@ -105,8 +105,8 @@ uint_t flexfloat_get_bits(flexfloat_t *a)
 
 #ifdef FLEXFLOAT_ROUNDING
 
-bool flexfloat_nearest_rounding(const flexfloat_t *a, int_fast16_t exp)
+// get rounding bit from backend value (first bit after represented LSB)
+bool flexfloat_round_bit(const flexfloat_t *a, int_fast16_t exp)
 {
     if(exp <= 0 && EXPONENT(CAST_TO_INT(a->value)) != 0)
     {
@@ -122,27 +122,46 @@ bool flexfloat_nearest_rounding(const flexfloat_t *a, int_fast16_t exp)
     }
 }
 
-// check if rounding to +inf/-inf is required (at least one bit of the discarded ones is 1)
-bool flexfloat_inf_rounding(const flexfloat_t *a, int_fast16_t exp, bool sign, bool plus)
+// get sticky bit from backend value (logic OR of all bits after represented LSB except the round bit)
+bool flexfloat_sticky_bit(const flexfloat_t *a, int_fast16_t exp)
 {
-    if((plus && !sign) || (!plus && sign))
+    if(exp <= 0 && EXPONENT(CAST_TO_INT(a->value)) != 0)
     {
-        if(exp <= 0 && EXPONENT(CAST_TO_INT(a->value)) != 0)
+        int shift = (- exp + 1);
+        uint_t denorm = 0;
+        if(shift < NUM_BITS)
+            denorm = ((CAST_TO_INT(a->value) & MASK_FRAC) | MASK_FRAC_MSB) >> shift;
+        return (denorm & (MASK_FRAC >> (a->desc.frac_bits + 1))) ||
+               ( ((denorm & MASK_FRAC) == 0)  && (CAST_TO_INT(a->value)!=0) );
+    }
+    else
+    {
+        return CAST_TO_INT(a->value) & (MASK_FRAC >> (a->desc.frac_bits + 1));
+    }
+}
+
+// check if rounding to nearest is required (the most significant bit of the discarded ones is 1)
+bool flexfloat_nearest_rounding(const flexfloat_t *a, int_fast16_t exp)
+{
+    if (flexfloat_round_bit(a, exp))
+        if (flexfloat_sticky_bit(a, exp)) // > ulp/2 away
         {
-            int shift = (- exp + 1);
-            uint_t denorm = 0;
-            if(shift < NUM_BITS)
-                denorm = ( ((CAST_TO_INT(a->value) & MASK_FRAC)
-                           | MASK_FRAC_MSB)
-                         ) >> shift;
-            return (denorm & (MASK_FRAC >> (a->desc.frac_bits))) ||
-                   ( ((denorm & MASK_FRAC) == 0)  && (CAST_TO_INT(a->value)!=0) );
+            return 1;
         }
-        else
+        else // = ulp/2 away, round towards even result, decided by LSB of mantissa
         {
-            return CAST_TO_INT(a->value) & (MASK_FRAC >> (a->desc.frac_bits));
+            if (exp <= 0) // denormal
+                return flexfloat_denorm_frac(a, exp) & 0x1;
+            return flexfloat_frac(a) & 0x1;
         }
-    }
+    return 0; // < ulp/2 away
+}
+
+// check if rounding to +inf/-inf is required (at least one bit of the discarded ones is 1)
+bool flexfloat_inf_rounding(const flexfloat_t *a, int_fast16_t exp, bool sign, bool plus)
+{
+    if (flexfloat_round_bit(a, exp) || flexfloat_sticky_bit(a, exp))
+        return (plus ^ sign);
     return 0;
 }
 
@@ -181,25 +200,9 @@ void flexfloat_sanitize(flexfloat_t *a)
     // Sign
     sign = flexfloat_sign(a);
 
-    // Denormalized backend value
-    if(EXPONENT(CAST_TO_INT(a->value)) == 0)
-    {
-        // Set to the smallest normalized value
-        if(a->desc.exp_bits < NUM_BITS_EXP)
-        {
-
-            CAST_TO_INT(a->value) = (sign == 0? SMALLEST_NORM_POS:
-                                                SMALLEST_NORM_NEG);
-        }
-    }
-
     // Exponent
     exp = flexfloat_exp(a);
 
-
-    // Exponent of NaN and Inf (target format)
-    inf_exp = flexfloat_inf_exp(a->desc);
-
 #ifdef FLEXFLOAT_ROUNDING
     // In these cases no rounding is needed
     if (!(exp == INF_EXP  || a->desc.frac_bits == NUM_BITS_FRAC))
@@ -229,11 +232,17 @@ void flexfloat_sanitize(flexfloat_t *a)
     }
 #endif
 
+    // Exponent of NaN and Inf (target format)
+    inf_exp = flexfloat_inf_exp(a->desc);
+
     // Mantissa
     frac = flexfloat_frac(a);
 
-   if(EXPONENT(CAST_TO_INT(a->value)) == 0) // Denorm backend format
+    if(EXPONENT(CAST_TO_INT(a->value)) == 0) // Denorm backend format - represented format also denormal
+    {
+        CAST_TO_INT(a->value) = flexfloat_denorm_pack(a->desc, sign, frac);
         return;
+    }
 
    if(exp <= 0) // Denormalized value in the target format (saved in normalized format in the backend value)
     {
@@ -635,4 +644,4 @@ void ff_print_stats() {
     }
 }
 
-#endif /* FLEXFLOAT_STATS */
+#endif /* FLEXFLOAT_STATS */
@@ -56,6 +56,30 @@ TEST(FlexFloatDownwardRoundingTest, Denormal3Bits) {
     EXPECT_EQ("0-000-111", bitstring(ff_val));
 }
 
+TEST(FlexFloatDownwardRoundingTest, DenormalQuarter) {
+    fesetround(FE_DOWNWARD);
+    const double val = 0.0703125; // 1/16 + 1/128
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-010", bitstring(ff_val));
+}
+
+TEST(FlexFloatDownwardRoundingTest, DenormalHalfway) {
+    fesetround(FE_DOWNWARD);
+    const double val = 0.078125; // 1/16 + 1/64
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-010", bitstring(ff_val));
+}
+
+TEST(FlexFloatDownwardRoundingTest, DenormalThreeQuarters) {
+    fesetround(FE_DOWNWARD);
+    const double val = 0.0859375; // 1/16 + 3/128
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-010", bitstring(ff_val));
+}
+
 TEST(FlexFloatDownwardRoundingTest, DenormalSmallest) {
     fesetround(FE_DOWNWARD);
     const double val = 0.03125;
@@ -66,15 +90,15 @@ TEST(FlexFloatDownwardRoundingTest, DenormalSmallest) {
 
 TEST(FlexFloatDownwardRoundingTest, LessThanDenormalSmallest1) {
     fesetround(FE_DOWNWARD);
-    const double val = 0.015625;
+    const double val = 0.0234375; // 1/32-1/64 = 3/128
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-000", bitstring(ff_val));
 }
 
 TEST(FlexFloatDownwardRoundingTest, LessThanDenormalSmallest2) {
     fesetround(FE_DOWNWARD);
-    const double val = 1.5625e-05;
+    const double val = 0.015625; // 1/64
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-000", bitstring(ff_val));
 
@@ -56,25 +56,49 @@ TEST(FlexFloatNearestRoundingTest, Denormal3Bits) {
     EXPECT_EQ("0-000-111", bitstring(ff_val));
 }
 
+TEST(FlexFloatNearestRoundingTest, DenormalQuarter) {
+    fesetround(FE_TONEAREST);
+    const double val = 0.0703125; // 1/16 + 1/128
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-010", bitstring(ff_val));
+}
+
+TEST(FlexFloatNearestRoundingTest, DenormalHalfway) {
+    fesetround(FE_TONEAREST);
+    const double val = 0.078125; // 1/16 + 1/64
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-010", bitstring(ff_val));
+}
+
+TEST(FlexFloatNearestRoundingTest, DenormalThreeQuarters) {
+    fesetround(FE_TONEAREST);
+    const double val = 0.0859375; // 1/16 + 3/128
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-011", bitstring(ff_val));
+}
+
 TEST(FlexFloatNearestRoundingTest, DenormalSmallest) {
     fesetround(FE_TONEAREST);
-    const double val = 0.03125;
+    const double val = 0.03125; // 1/32
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-001", bitstring(ff_val));
 }
 
 TEST(FlexFloatNearestRoundingTest, LessThanDenormalSmallest1) {
     fesetround(FE_TONEAREST);
-    const double val = 0.015625;
+    const double val = 0.0234375; // 1/32-1/64 = 3/128
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-001", bitstring(ff_val));
 }
 
 TEST(FlexFloatNearestRoundingTest, LessThanDenormalSmallest2) {
     fesetround(FE_TONEAREST);
-    const double val = 1.5625e-05;
+    const double val = 0.015625; // 1/64
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-000", bitstring(ff_val));
@@ -133,7 +157,7 @@ TEST(FlexFloatNearestRoundingTest, DoubleToApproximate3) {
     const double val = 12.5;
     flexfloat<3, 3> ff_val;
     ff_val = val;
-    EXPECT_EQ("0-110-101", bitstring(ff_val));
+    EXPECT_EQ("0-110-100", bitstring(ff_val));
 }
 
 TEST(FlexFloatNearestRoundingTest, DoubleNeg) {
 
@@ -56,6 +56,38 @@ TEST(FlexFloatUpwardRoundingTest, Denormal3Bits) {
     EXPECT_EQ("0-000-111", bitstring(ff_val));
 }
 
+TEST(FlexFloatUpwardRoundingTest, DenormalEighth) {
+    fesetround(FE_UPWARD);
+    const double val = 0.06640625; // 1/16 + 1/256
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-011", bitstring(ff_val));
+}
+
+TEST(FlexFloatUpwardRoundingTest, DenormalQuarter) {
+    fesetround(FE_UPWARD);
+    const double val = 0.0703125; // 1/16 + 1/128
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-011", bitstring(ff_val));
+}
+
+TEST(FlexFloatUpwardRoundingTest, DenormalHalfway) {
+    fesetround(FE_UPWARD);
+    const double val = 0.078125; // 1/16 + 1/64
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-011", bitstring(ff_val));
+}
+
+TEST(FlexFloatUpwardRoundingTest, DenormalThreeQuarters) {
+    fesetround(FE_UPWARD);
+    const double val = 0.0859375; // 1/16 + 3/128
+    flexfloat<3, 3> ff_val;
+    ff_val = val;
+    EXPECT_EQ("0-000-011", bitstring(ff_val));
+}
+
 TEST(FlexFloatUpwardRoundingTest, DenormalSmallest) {
     fesetround(FE_UPWARD);
     const double val = 0.03125;
@@ -66,15 +98,15 @@ TEST(FlexFloatUpwardRoundingTest, DenormalSmallest) {
 
 TEST(FlexFloatUpwardRoundingTest, LessThanDenormalSmallest1) {
     fesetround(FE_UPWARD);
-    const double val = 0.015625;
+    const double val = 0.0234375; // 1/32-1/64 = 3/128
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-001", bitstring(ff_val));
 }
 
 TEST(FlexFloatUpwardRoundingTest, LessThanDenormalSmallest2) {
     fesetround(FE_UPWARD);
-    const double val = 1.5625e-05;
+    const double val = 0.015625; // 1/64
     flexfloat<3, 3> ff_val;
     ff_val = val;
     EXPECT_EQ("0-000-001", bitstring(ff_val));