Remove softfloat if hardware fp16 available

solidpixel · solidpixel · commit 1ea2994b5c30 · 2021-04-12T23:40:49.000+01:00
diff --git a/Source/astcenc_mathlib.h b/Source/astcenc_mathlib.h
@@ -490,11 +490,11 @@ static inline float2 normalize(float2 p) { return p * astc::rsqrt(dot(p, p)); }
 /* ============================================================================
   Softfloat library with fp32 and fp16 conversion functionality.
 ============================================================================ */
-uint32_t clz32(uint32_t p);
-
-/* narrowing float->float conversions */
-uint16_t float_to_sf16(float val);
-float sf16_to_float(uint16_t val);
+#if ASTCENC_F16C == 0
+	/* narrowing float->float conversions */
+	uint16_t float_to_sf16(float val);
+	float sf16_to_float(uint16_t val);
+#endif
 
 /*********************************
   Vector library
diff --git a/Source/astcenc_mathlib_softfloat.cpp b/Source/astcenc_mathlib_softfloat.cpp
@@ -18,6 +18,7 @@
 /**
  * @brief Soft-float library for IEEE-754.
  */
+#if ASTCENC_F16C == 0
 
 #include "astcenc_mathlib.h"
 
@@ -61,7 +62,7 @@ typedef uint32_t sf32;
 
 /*
    32-bit count-leading-zeros function: use the Assembly instruction whenever possible. */
-uint32_t clz32(uint32_t inp)
+static uint32_t clz32(uint32_t inp)
 {
 	#if defined(__GNUC__) && (defined(__i386) || defined(__amd64))
 		uint32_t bsr;
@@ -401,3 +402,5 @@ uint16_t float_to_sf16(float p)
 	i.f = p;
 	return sf32_to_sf16(i.u, SF_NEARESTEVEN);
 }
+
+#endif
diff --git a/Source/astcenccli_image.cpp b/Source/astcenccli_image.cpp
@@ -285,10 +285,15 @@ float* floatx4_array_from_astc_img(
 
 			for (unsigned int x = 0; x < dim_x; x++)
 			{
-				dst[4 * x    ] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x    )]);
-				dst[4 * x + 1] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 1)]);
-				dst[4 * x + 2] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 2)]);
-				dst[4 * x + 3] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 3)]);
+				vint4 colori(
+					data16[(4 * dim_x * ymod) + (4 * x    )],
+					data16[(4 * dim_x * ymod) + (4 * x + 1)],
+					data16[(4 * dim_x * ymod) + (4 * x + 2)],
+					data16[(4 * dim_x * ymod) + (4 * x + 3)]
+				);
+
+				vfloat4 color = float16_to_float(colori);
+				store(color, dst + 4 * x);
 			}
 		}
 	}
@@ -351,10 +356,19 @@ uint8_t* unorm8x4_array_from_astc_img(
 
 			for (unsigned int x = 0; x < dim_x; x++)
 			{
-				dst[4 * x   ]  = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x    )])) * 255.0f);
-				dst[4 * x + 1] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 1)])) * 255.0f);
-				dst[4 * x + 2] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 2)])) * 255.0f);
-				dst[4 * x + 3] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 3)])) * 255.0f);
+				vint4 colori(
+					data16[(4 * dim_x * ymod) + (4 * x    )],
+					data16[(4 * dim_x * ymod) + (4 * x + 1)],
+					data16[(4 * dim_x * ymod) + (4 * x + 2)],
+					data16[(4 * dim_x * ymod) + (4 * x + 3)]
+				);
+
+				vfloat4 color = float16_to_float(colori);
+				color = clamp(0.0f, 1.0f, color) * 255.0f;
+
+				colori = float_to_int_rtn(color);
+				pack_low_bytes(colori);
+				store_nbytes(colori, dst + 4 * x);
 			}
 		}
 	}
diff --git a/Source/astcenccli_toplevel.cpp b/Source/astcenccli_toplevel.cpp
@@ -1128,24 +1128,26 @@ static vfloat4 image_get_pixel(
 	{
 		uint16_t* data = static_cast<uint16_t*>(img.data[z]);
 
-		float r = sf16_to_float(data[(4 * img.dim_x * y) + (4 * x    )]);
-		float g = sf16_to_float(data[(4 * img.dim_x * y) + (4 * x + 1)]);
-		float b = sf16_to_float(data[(4 * img.dim_x * y) + (4 * x + 2)]);
-		float a = sf16_to_float(data[(4 * img.dim_x * y) + (4 * x + 3)]);
-
-		return vfloat4(r, g, b, a);
+		vint4 colori(
+			data[(4 * img.dim_x * y) + (4 * x    )],
+			data[(4 * img.dim_x * y) + (4 * x + 1)],
+			data[(4 * img.dim_x * y) + (4 * x + 2)],
+			data[(4 * img.dim_x * y) + (4 * x + 3)]
+		);
+
+		return float16_to_float(colori);
 	}
 	else // if (img.data_type == ASTCENC_TYPE_F32)
 	{
 		assert(img.data_type == ASTCENC_TYPE_F32);
 		float* data = static_cast<float*>(img.data[z]);
 
-		float r = data[(4 * img.dim_x * y) + (4 * x    )];
-		float g = data[(4 * img.dim_x * y) + (4 * x + 1)];
-		float b = data[(4 * img.dim_x * y) + (4 * x + 2)];
-		float a = data[(4 * img.dim_x * y) + (4 * x + 3)];
-
-		return vfloat4(r, g, b, a);
+		return vfloat4(
+			data[(4 * img.dim_x * y) + (4 * x    )],
+			data[(4 * img.dim_x * y) + (4 * x + 1)],
+			data[(4 * img.dim_x * y) + (4 * x + 2)],
+			data[(4 * img.dim_x * y) + (4 * x + 3)]
+		);
 	}
 }
 

Original file line number	Diff line number	Diff line change
`@@ -285,10 +285,15 @@ float* floatx4_array_from_astc_img(`
`285`	`285`
`286`	`286`	`for (unsigned int x = 0; x < dim_x; x++)`
`287`	`287`	`{`
`288`		`- dst[4 * x ] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x )]);`
`289`		`- dst[4 * x + 1] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 1)]);`
`290`		`- dst[4 * x + 2] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 2)]);`
`291`		`- dst[4 * x + 3] = sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 3)]);`
	`288`	`+ vint4 colori(`
	`289`	`+ data16[(4 * dim_x * ymod) + (4 * x )],`
	`290`	`+ data16[(4 * dim_x * ymod) + (4 * x + 1)],`
	`291`	`+ data16[(4 * dim_x * ymod) + (4 * x + 2)],`
	`292`	`+ data16[(4 * dim_x * ymod) + (4 * x + 3)]`
	`293`	`+ );`
	`294`	`+`
	`295`	`+ vfloat4 color = float16_to_float(colori);`
	`296`	`+ store(color, dst + 4 * x);`
`292`	`297`	`}`
`293`	`298`	`}`
`294`	`299`	`}`
`@@ -351,10 +356,19 @@ uint8_t* unorm8x4_array_from_astc_img(`
`351`	`356`
`352`	`357`	`for (unsigned int x = 0; x < dim_x; x++)`
`353`	`358`	`{`
`354`		`- dst[4 * x ] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x )])) * 255.0f);`
`355`		`- dst[4 * x + 1] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 1)])) * 255.0f);`
`356`		`- dst[4 * x + 2] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 2)])) * 255.0f);`
`357`		`- dst[4 * x + 3] = (uint8_t)astc::flt2int_rtn(astc::clamp1f(sf16_to_float(data16[(4 * dim_x * ymod) + (4 * x + 3)])) * 255.0f);`
	`359`	`+ vint4 colori(`
	`360`	`+ data16[(4 * dim_x * ymod) + (4 * x )],`
	`361`	`+ data16[(4 * dim_x * ymod) + (4 * x + 1)],`
	`362`	`+ data16[(4 * dim_x * ymod) + (4 * x + 2)],`
	`363`	`+ data16[(4 * dim_x * ymod) + (4 * x + 3)]`
	`364`	`+ );`
	`365`	`+`
	`366`	`+ vfloat4 color = float16_to_float(colori);`
	`367`	`+ color = clamp(0.0f, 1.0f, color) * 255.0f;`
	`368`	`+`
	`369`	`+ colori = float_to_int_rtn(color);`
	`370`	`+ pack_low_bytes(colori);`
	`371`	`+ store_nbytes(colori, dst + 4 * x);`
`358`	`372`	`}`
`359`	`373`	`}`
`360`	`374`	`}`