Aggregate Functions

Функция	Описание
`any_value(col[, ignoreNulls])`	Возвращает какое-то значение col для группы строк.
`approxCountDistinct(col[, rsd])`	Новое в версии 1.3.0. Агрегатная функция: возвращает новую Колонку для приблизительного уникального счета столбца col.
`approx_percentile(col, percentage[, accuracy])`	Возвращает приблизительный процентиль числового столбца col, который является наименьшим значением в упорядоченных значениях col (отсортированных от наименьшего к наибольшему), так что не более percentage значений col меньше этого значения или равно ему.
`array_agg(col)`	Агрегатная функция: возвращает список объектов с дубликатами.
`avg(col)`	Агрегатная функция: возвращает среднее значение значений в группе.
`bit_and(col)`	Агрегатная функция: возвращает битовый AND всех ненулевых входных значений, или null, если нет.
`bit_or(col)`	Агрегатная функция: возвращает битовый OR всех ненулевых входных значений, или null, если нет.
`bit_xor(col)`	Агрегатная функция: возвращает битовый XOR всех ненулевых входных значений, или null, если нет.
`bool_and(col)`	Агрегатная функция: возвращает true, если все значения col истинны.
`bool_or(col)`	Агрегатная функция: возвращает true, если хотя бы одно значение col истинно.
`collect_list(col)`	Агрегатная функция: возвращает список объектов с дубликатами.
`collect_set(col)`	Агрегатная функция: возвращает множество объектов с удаленными дубликатами.
`corr(col1, col2)`	Возвращает новую колонку с коэффициентом корреляции Пирсона для col1 и col2.
`count(col)`	Агрегатная функция: возвращает количество элементов в группе.
`count_distinct(col, *cols)`	Возвращает новую колонку с количеством уникальных значений col или cols.
`countDistinct(col, *cols)`	Возвращает новую колонку с количеством уникальных значений col или cols.
`count_min_sketch(col, eps, confidence, seed)`	Возвращает count-min sketch колонки с заданными параметрами eps, confidence и seed.
`count_if(col)`	Возвращает количество значений TRUE для колонки col.
`covar_pop(col1, col2)`	Возвращает новую колонку с популяционной ковариацией col1 и col2.
`covar_samp(col1, col2)`	Возвращает новую колонку с выборочной ковариацией col1 и col2.
`every(col)`	Агрегатная функция: возвращает true, если все значения col истинны.
`first(col[, ignorenulls])`	Агрегатная функция: возвращает первое значение в группе.
`first_value(col[, ignoreNulls])`	Возвращает первое значение col для группы строк.
`grouping(col)`	Агрегатная функция: показывает, агрегирована ли указанная колонка в списке GROUP BY или нет, возвращает 1 для агрегированных или 0 для неагрегированных в результирующем наборе.
`grouping_id(*cols)`	Агрегатная функция: возвращает уровень группировки, равный
`histogram_numeric(col, nBins)`	Вычисляет гистограмму для числовой колонки 'col' используя nb бинов.
`hll_sketch_agg(col[, lgConfigK])`	Агрегатная функция: возвращает обновляемое бинарное представление Datasketches HllSketch, настроенное с параметром lgConfigK.
`hll_union_agg(col[, allowDifferentLgConfigK])`	Агрегатная функция: возвращает обновляемое бинарное представление Datasketches HllSketch, созданное путем объединения ранее созданных экземпляров Datasketches HllSketch через экземпляр Datasketches Union.
`kurtosis(col)`	Агрегатная функция: возвращает эксцесс значений в группе.
`last(col[, ignorenulls])`	Агрегатная функция: возвращает последнее значение в группе.
`last_value(col[, ignoreNulls])`	Возвращает последнее значение col для группы строк.
`max(col)`	Агрегатная функция: возвращает максимальное значение выражения в группе.
`max_by(col, ord)`	Возвращает значение, связанное с максимальным значением ord.
`mean(col)`	Агрегатная функция: возвращает среднее значение значений в группе.
`median(col)`	Возвращает медиану значений в группе.
`min(col)`	Агрегатная функция: возвращает минимальное значение выражения в группе.
`min_by(col, ord)`	Возвращает значение, связанное с минимальным значением ord.
`mode(col)`	Возвращает наиболее часто встречающееся значение в группе.
`percentile(col, percentage[, frequency])`	Возвращает точный процентиль(и) числовой колонки expr для заданного процента(ов) со значениями в диапазоне [0.0, 1.0].
`percentile_approx(col, percentage[, accuracy])`	Возвращает приближенный процентиль числовой колонки col, который является наименьшим значением в упорядоченных значениях col (отсортированных от наименьшего к наибольшему), так что не более percentage значений col меньше этого значения или равно ему.
`product(col)`	Агрегатная функция: возвращает произведение значений в группе.
`reduce(col, initialValue, merge[, finish])`	Применяет бинарный оператор к начальному состоянию и всем элементам в массиве, и сводит это к единственному состоянию.
`regr_avgx(y, x)`	Агрегатная функция: возвращает среднее значение независимой переменной для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_avgy(y, x)`	Агрегатная функция: возвращает среднее значение зависимой переменной для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_count(y, x)`	Агрегатная функция: возвращает количество ненулевых числовых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_intercept(y, x)`	Агрегатная функция: возвращает пересечение линии одномерной линейной регрессии для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_r2(y, x)`	Агрегатная функция: возвращает коэффициент детерминации для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_slope(y, x)`	Агрегатная функция: возвращает наклон линии линейной регрессии для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_sxx(y, x)`	Агрегатная функция: возвращает REGR_COUNT(y, x) * VAR_POP(x) для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_sxy(y, x)`	Агрегатная функция: возвращает REGR_COUNT(y, x) * COVAR_POP(y, x) для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`regr_syy(y, x)`	Агрегатная функция: возвращает REGR_COUNT(y, x) * VAR_POP(y) для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
`skewness(col)`	Агрегатная функция: возвращает асимметрию значений в группе.
`some(col)`	Агрегатная функция: возвращает true, если хотя бы одно значение col истинно.
`std(col)`	Агрегатная функция: псевдоним для stddev_samp.
`stddev(col)`	Агрегатная функция: псевдоним для stddev_samp.
`stddev_pop(col)`	Агрегатная функция: возвращает стандартное отклонение генеральной совокупности для выражения в группе.
`stddev_samp(col)`	Агрегатная функция: возвращает несмещенное выборочное стандартное отклонение выражения в группе.
`sum(col)`	Агрегатная функция: возвращает сумму всех значений в выражении.
`sum_distinct(col)`	Агрегатная функция: возвращает сумму уникальных значений в выражении.
`sumDistinct(col)`	Агрегатная функция: возвращает сумму уникальных значений в выражении.
`var_pop(col)`	Агрегатная функция: возвращает дисперсию генеральной совокупности значений в группе.
`var_samp(col)`	Агрегатная функция: возвращает несмещенную выборочную дисперсию значений в группе.
`variance(col)`	Агрегатная функция: псевдоним для var_samp