Merge branch 'mean-rework' into aggregators

Jolanrensen · Jolanrensen · commit 844fa2440fcf · 2025-02-27T16:32:06.000+01:00
# Conflicts:
#	core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/aggregators/Aggregators.kt
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/api/mean.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/api/mean.kt
@@ -21,30 +21,181 @@ import org.jetbrains.kotlinx.dataframe.impl.aggregation.numberColumns
 import org.jetbrains.kotlinx.dataframe.impl.columns.toNumberColumns
 import org.jetbrains.kotlinx.dataframe.impl.suggestIfNull
 import org.jetbrains.kotlinx.dataframe.math.mean
+import java.math.BigDecimal
+import java.math.BigInteger
+import kotlin.experimental.ExperimentalTypeInference
 import kotlin.reflect.KProperty
 import kotlin.reflect.typeOf
 
 // region DataColumn
 
-public fun <T : Number> DataColumn<T?>.mean(skipNA: Boolean = skipNA_default): Double =
-    meanOrNull(skipNA).suggestIfNull("mean")
+// region mean
 
-public fun <T : Number> DataColumn<T?>.meanOrNull(skipNA: Boolean = skipNA_default): Double? =
-    Aggregators.mean(skipNA).aggregate(this)
+@JvmName("meanInt")
+public fun DataColumn<Int?>.mean(): Double = meanOrNull().suggestIfNull("mean")
 
-public inline fun <T, reified R : Number> DataColumn<T>.meanOf(
-    skipNA: Boolean = skipNA_default,
-    noinline expression: (T) -> R?,
-): Double = Aggregators.mean(skipNA).cast2<R?, Double>().aggregateOf(this, expression) ?: Double.NaN
+@JvmName("meanShort")
+public fun DataColumn<Short?>.mean(): Double = meanOrNull().suggestIfNull("mean")
+
+@JvmName("meanByte")
+public fun DataColumn<Byte?>.mean(): Double = meanOrNull().suggestIfNull("mean")
+
+@JvmName("meanLong")
+public fun DataColumn<Long?>.mean(): Double = meanOrNull().suggestIfNull("mean")
+
+@JvmName("meanDouble")
+public fun DataColumn<Double?>.mean(skipNA: Boolean = skipNA_default): Double = meanOrNull(skipNA).suggestIfNull("mean")
+
+@JvmName("meanFloat")
+public fun DataColumn<Float?>.mean(skipNA: Boolean = skipNA_default): Double = meanOrNull(skipNA).suggestIfNull("mean")
+
+@JvmName("meanBigInteger")
+public fun DataColumn<BigInteger?>.mean(): BigDecimal = meanOrNull().suggestIfNull("mean")
+
+@JvmName("meanBigDecimal")
+public fun DataColumn<BigDecimal?>.mean(): BigDecimal = meanOrNull().suggestIfNull("mean")
+
+@JvmName("meanNumber")
+public fun DataColumn<Number?>.mean(skipNA: Boolean = skipNA_default): Number? = meanOrNull(skipNA)
 
 // endregion
 
-// region DataRow
+// region meanOrNull
+
+@JvmName("meanOrNullInt")
+public fun DataColumn<Int?>.meanOrNull(): Double? = Aggregators.mean.toDouble(skipNA_default).aggregate(this)
+
+@JvmName("meanOrNullShort")
+public fun DataColumn<Short?>.meanOrNull(): Double? = Aggregators.mean.toDouble(skipNA_default).aggregate(this)
+
+@JvmName("meanOrNullByte")
+public fun DataColumn<Byte?>.meanOrNull(): Double? = Aggregators.mean.toDouble(skipNA_default).aggregate(this)
+
+@JvmName("meanOrNullLong")
+public fun DataColumn<Long?>.meanOrNull(): Double? = Aggregators.mean.toDouble(skipNA_default).aggregate(this)
 
+@JvmName("meanOrNullDouble")
+public fun DataColumn<Double?>.meanOrNull(skipNA: Boolean = skipNA_default): Double? =
+    Aggregators.mean.toDouble(skipNA).aggregate(this)
+
+@JvmName("meanOrNullFloat")
+public fun DataColumn<Float?>.meanOrNull(skipNA: Boolean = skipNA_default): Double? =
+    Aggregators.mean.toDouble(skipNA).aggregate(this)
+
+@JvmName("meanOrNullBigInteger")
+public fun DataColumn<BigInteger?>.meanOrNull(): BigDecimal? = Aggregators.mean.toBigDecimal.aggregate(this)
+
+@JvmName("meanOrNullBigDecimal")
+public fun DataColumn<BigDecimal?>.meanOrNull(): BigDecimal? = Aggregators.mean.toBigDecimal.aggregate(this)
+
+@JvmName("meanOrNullNumber")
+public fun DataColumn<Number?>.meanOrNull(skipNA: Boolean = skipNA_default): Number? =
+    Aggregators.mean.toNumber(skipNA).aggregate(this)
+
+// endregion
+
+// region meanOf
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfInt")
+//@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(expression: (T) -> Int?): Double =
+    Aggregators.mean.toDouble(skipNA_default)
+        .cast2<Int?, Double>()
+        .aggregateOf(this, expression)
+        ?: Double.NaN
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfShort")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(expression: (T) -> Short?): Double =
+    Aggregators.mean.toDouble(skipNA_default)
+        .cast2<Short?, Double>()
+        .aggregateOf(this, expression)
+        ?: Double.NaN
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfByte")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(expression: (T) -> Byte?): Double =
+    Aggregators.mean.toDouble(skipNA_default)
+        .cast2<Byte?, Double>()
+        .aggregateOf(this, expression)
+        ?: Double.NaN
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfLong")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(expression: (T) -> Long?): Double =
+    Aggregators.mean.toDouble(skipNA_default)
+        .cast2<Long?, Double>()
+        .aggregateOf(this, expression)
+        ?: Double.NaN
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfDouble")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(skipNA: Boolean = skipNA_default, expression: (T) -> Double?): Double =
+    Aggregators.mean.toDouble(skipNA)
+        .cast2<Double?, Double>()
+        .aggregateOf(this, expression)
+        ?: Double.NaN
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfFloat")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(skipNA: Boolean = skipNA_default, expression: (T) -> Float?): Double =
+    Aggregators.mean.toDouble(skipNA)
+        .cast2<Float?, Double>()
+        .aggregateOf(this, expression)
+        ?: Double.NaN
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfBigInteger")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(expression: (T) -> BigInteger?): BigDecimal? =
+    Aggregators.mean.toBigDecimal
+        .cast2<BigInteger?, BigDecimal?>()
+        .aggregateOf(this, expression)
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfBigDecimal")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(expression: (T) -> BigDecimal?): BigDecimal? =
+    Aggregators.mean.toBigDecimal
+        .cast2<BigDecimal?, BigDecimal?>()
+        .aggregateOf(this, expression)
+
+@OptIn(ExperimentalTypeInference::class)
+@JvmName("meanOfNumber")
+@OverloadResolutionByLambdaReturnType
+public fun <T> DataColumn<T>.meanOf(skipNA: Boolean = skipNA_default, expression: (T) -> Number?): Number? =
+    Aggregators.mean.toNumber(skipNA)
+        .cast2<Number?, Number?>()
+        .aggregateOf(this, expression)
+
+public fun main() {
+    val data = (1..10).toList()
+    val df = data.toDataFrame()
+
+    val mean = df.value.meanOf { if (true) it.toLong() else it.toDouble() }
+    val mean2 = df.value.meanOf { it.toBigInteger() }
+
+    println(mean)
+    println(mean!!::class)
+}
+
+// endregion
+
+// endregion
+
+// region DataRow
+// todo
 public fun AnyRow.rowMean(skipNA: Boolean = skipNA_default): Double =
     values().filterIsInstance<Number>().map { it.toDouble() }.mean(skipNA)
 
-public inline fun <reified T : Number> AnyRow.rowMeanOf(): Double = values().filterIsInstance<T>().mean(typeOf<T>())
+public inline fun <reified T : Number> AnyRow.rowMeanOf(): Double =
+    values().filterIsInstance<T>().mean(typeOf<T>()) as Double
 
 // endregion
 
@@ -55,7 +206,7 @@ public fun <T> DataFrame<T>.mean(skipNA: Boolean = skipNA_default): DataRow<T> =
 public fun <T, C : Number> DataFrame<T>.meanFor(
     skipNA: Boolean = skipNA_default,
     columns: ColumnsForAggregateSelector<T, C?>,
-): DataRow<T> = Aggregators.mean(skipNA).aggregateFor(this, columns)
+): DataRow<T> = Aggregators.mean.toNumber(skipNA).aggregateFor(this, columns)
 
 public fun <T> DataFrame<T>.meanFor(vararg columns: String, skipNA: Boolean = skipNA_default): DataRow<T> =
     meanFor(skipNA) { columns.toNumberColumns() }
@@ -72,10 +223,11 @@ public fun <T, C : Number> DataFrame<T>.meanFor(
     skipNA: Boolean = skipNA_default,
 ): DataRow<T> = meanFor(skipNA) { columns.toColumnSet() }
 
+// todo
 public fun <T, C : Number> DataFrame<T>.mean(
     skipNA: Boolean = skipNA_default,
     columns: ColumnsSelector<T, C?>,
-): Double = Aggregators.mean(skipNA).aggregateAll(this, columns) as Double? ?: Double.NaN
+): Double = Aggregators.mean.toNumber(skipNA).aggregateAll(this, columns) as Double? ?: Double.NaN
 
 public fun <T> DataFrame<T>.mean(vararg columns: String, skipNA: Boolean = skipNA_default): Double =
     mean(skipNA) { columns.toNumberColumns() }
@@ -93,7 +245,7 @@ public fun <T, C : Number> DataFrame<T>.mean(vararg columns: KProperty<C?>, skip
 public inline fun <T, reified D : Number> DataFrame<T>.meanOf(
     skipNA: Boolean = skipNA_default,
     noinline expression: RowExpression<T, D?>,
-): Double = Aggregators.mean(skipNA).of(this, expression) ?: Double.NaN
+): Double = Aggregators.mean.toNumber(skipNA).of(this, expression) as Double? ?: Double.NaN
 
 // endregion
 
@@ -104,7 +256,7 @@ public fun <T> Grouped<T>.mean(skipNA: Boolean = skipNA_default): DataFrame<T> =
 public fun <T, C : Number> Grouped<T>.meanFor(
     skipNA: Boolean = skipNA_default,
     columns: ColumnsForAggregateSelector<T, C?>,
-): DataFrame<T> = Aggregators.mean(skipNA).aggregateFor(this, columns)
+): DataFrame<T> = Aggregators.mean.toNumber(skipNA).aggregateFor(this, columns)
 
 public fun <T> Grouped<T>.meanFor(vararg columns: String, skipNA: Boolean = skipNA_default): DataFrame<T> =
     meanFor(skipNA) { columns.toNumberColumns() }
@@ -125,7 +277,7 @@ public fun <T, C : Number> Grouped<T>.mean(
     name: String? = null,
     skipNA: Boolean = skipNA_default,
     columns: ColumnsSelector<T, C?>,
-): DataFrame<T> = Aggregators.mean(skipNA).aggregateAll(this, name, columns)
+): DataFrame<T> = Aggregators.mean.toNumber(skipNA).aggregateAll(this, name, columns)
 
 public fun <T> Grouped<T>.mean(
     vararg columns: String,
@@ -151,7 +303,7 @@ public inline fun <T, reified R : Number> Grouped<T>.meanOf(
     name: String? = null,
     skipNA: Boolean = skipNA_default,
     crossinline expression: RowExpression<T, R?>,
-): DataFrame<T> = Aggregators.mean(skipNA).aggregateOf(this, name, expression)
+): DataFrame<T> = Aggregators.mean.toNumber(skipNA).aggregateOf(this, name, expression)
 
 // endregion
 
@@ -207,7 +359,7 @@ public fun <T, C : Number> PivotGroupBy<T>.meanFor(
     skipNA: Boolean = skipNA_default,
     separate: Boolean = false,
     columns: ColumnsForAggregateSelector<T, C?>,
-): DataFrame<T> = Aggregators.mean(skipNA).aggregateFor(this, separate, columns)
+): DataFrame<T> = Aggregators.mean.toNumber(skipNA).aggregateFor(this, separate, columns)
 
 public fun <T> PivotGroupBy<T>.meanFor(
     vararg columns: String,
@@ -232,7 +384,7 @@ public fun <T, C : Number> PivotGroupBy<T>.meanFor(
 public fun <T, R : Number> PivotGroupBy<T>.mean(
     skipNA: Boolean = skipNA_default,
     columns: ColumnsSelector<T, R?>,
-): DataFrame<T> = Aggregators.mean(skipNA).aggregateAll(this, columns)
+): DataFrame<T> = Aggregators.mean.toNumber(skipNA).aggregateAll(this, columns)
 
 public fun <T> PivotGroupBy<T>.mean(vararg columns: String, skipNA: Boolean = skipNA_default): DataFrame<T> =
     mean(skipNA) { columns.toColumnsSetOf() }
@@ -252,6 +404,6 @@ public fun <T, R : Number> PivotGroupBy<T>.mean(
 public inline fun <T, reified R : Number> PivotGroupBy<T>.meanOf(
     skipNA: Boolean = skipNA_default,
     crossinline expression: RowExpression<T, R?>,
-): DataFrame<T> = Aggregators.mean(skipNA).aggregateOf(this, expression)
+): DataFrame<T> = Aggregators.mean.toNumber(skipNA).aggregateOf(this, expression)
 
 // endregion
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/ExceptionUtils.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/ExceptionUtils.kt
@@ -1,7 +1,22 @@
 package org.jetbrains.kotlinx.dataframe.impl
 
+import java.math.BigDecimal
+import java.math.BigInteger
+
 internal fun <T> T?.throwIfNull(message: String): T = this ?: throw NoSuchElementException(message)
 
 @PublishedApi
 internal fun <T> T?.suggestIfNull(operation: String): T =
     throwIfNull("No elements for `$operation` operation. Use `${operation}OrNull` instead.")
+
+@PublishedApi
+internal fun BigInteger?.suggestIfNull(operation: String): BigInteger =
+    throwIfNull(
+        "The `$operation` operation either had no elements, or the result is NaN. Use `${operation}OrNull` instead.",
+    )
+
+@PublishedApi
+internal fun BigDecimal?.suggestIfNull(operation: String): BigDecimal =
+    throwIfNull(
+        "The `$operation` operation either had no elements, or the result is NaN. Use `${operation}OrNull` instead.",
+    )
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/TypeUtils.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/TypeUtils.kt
@@ -643,3 +643,13 @@ internal fun Iterable<Any>.classes(): Set<KClass<*>> = mapTo(mutableSetOf()) { i
  * @return A set of [KType] objects corresponding to the star-projected runtime types of elements in the iterable.
  */
 internal fun Iterable<Any>.types(): Set<KType> = classes().mapTo(mutableSetOf()) { it.createStarProjectedType(false) }
+
+/**
+ * Casts [this]: [Number] to a [Double]. If [this] is `null`, returns [Double.NaN].
+ */
+internal fun Number?.asDoubleOrNaN(): Double = this as Double? ?: Double.NaN
+
+/**
+ * Casts [this]: [Number] to a [Float]. If [this] is `null`, returns [Float.NaN].
+ */
+internal fun Number?.asFloatOrNaN(): Float = this as Float? ?: Float.NaN
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/aggregators/Aggregators.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/aggregators/Aggregators.kt
@@ -84,8 +84,23 @@ internal object Aggregators {
         flatteningChangingTypes<Number, Double> { std(it, skipNA, ddof) }
     }
 
-    val mean by withOneOption { skipNA: Boolean ->
-        twoStepChangingType({ mean(it, skipNA) }) { mean(skipNA) }
+    @Suppress("ClassName")
+    object mean {
+        val toNumber = withOption { skipNA: Boolean ->
+            extendsNumbers { mean(it, skipNA) }
+        }.create("meanToNumber")
+
+        val toDouble = withOption { skipNA: Boolean ->
+            changesType(
+                aggregateWithType = { mean(it, skipNA).asDoubleOrNaN() },
+                aggregateWithValues = { mean(skipNA) },
+            )
+        }.create("meanToDouble")
+
+        val toBigDecimal = changesType(
+            aggregateWithType = { mean(it) as BigDecimal? },
+            aggregateWithValues = { filterNotNull().mean() },
+        ).create("meanToBigDecimal")
     }
 
     val percentile by withOneOption { percentile: Double ->
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/math/mean.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/math/mean.kt
diff --git a/examples/idea-examples/titanic/src/main/kotlin/org/jetbrains/kotlinx/dataframe/examples/titanic/ml/titanic.kt b/examples/idea-examples/titanic/src/main/kotlin/org/jetbrains/kotlinx/dataframe/examples/titanic/ml/titanic.kt