Aggregate Functions

Функция Описание
any_value(col[, ignoreNulls]) Возвращает какое-то значение col для группы строк.
approxCountDistinct(col[, rsd]) Новое в версии 1.3.0. Агрегатная функция: возвращает новую Колонку для приблизительного уникального счета столбца col.
approx_percentile(col, percentage[, accuracy]) Возвращает приблизительный процентиль числового столбца col, который является наименьшим значением в упорядоченных значениях col (отсортированных от наименьшего к наибольшему), так что не более percentage значений col меньше этого значения или равно ему.
array_agg(col) Агрегатная функция: возвращает список объектов с дубликатами.
avg(col) Агрегатная функция: возвращает среднее значение значений в группе.
bit_and(col) Агрегатная функция: возвращает битовый AND всех ненулевых входных значений, или null, если нет.
bit_or(col) Агрегатная функция: возвращает битовый OR всех ненулевых входных значений, или null, если нет.
bit_xor(col) Агрегатная функция: возвращает битовый XOR всех ненулевых входных значений, или null, если нет.
bool_and(col) Агрегатная функция: возвращает true, если все значения col истинны.
bool_or(col) Агрегатная функция: возвращает true, если хотя бы одно значение col истинно.
collect_list(col) Агрегатная функция: возвращает список объектов с дубликатами.
collect_set(col) Агрегатная функция: возвращает множество объектов с удаленными дубликатами.
corr(col1, col2) Возвращает новую колонку с коэффициентом корреляции Пирсона для col1 и col2.
count(col) Агрегатная функция: возвращает количество элементов в группе.
count_distinct(col, *cols) Возвращает новую колонку с количеством уникальных значений col или cols.
countDistinct(col, *cols) Возвращает новую колонку с количеством уникальных значений col или cols.
count_min_sketch(col, eps, confidence, seed) Возвращает count-min sketch колонки с заданными параметрами eps, confidence и seed.
count_if(col) Возвращает количество значений TRUE для колонки col.
covar_pop(col1, col2) Возвращает новую колонку с популяционной ковариацией col1 и col2.
covar_samp(col1, col2) Возвращает новую колонку с выборочной ковариацией col1 и col2.
every(col) Агрегатная функция: возвращает true, если все значения col истинны.
first(col[, ignorenulls]) Агрегатная функция: возвращает первое значение в группе.
first_value(col[, ignoreNulls]) Возвращает первое значение col для группы строк.
grouping(col) Агрегатная функция: показывает, агрегирована ли указанная колонка в списке GROUP BY или нет, возвращает 1 для агрегированных или 0 для неагрегированных в результирующем наборе.
grouping_id(*cols) Агрегатная функция: возвращает уровень группировки, равный
histogram_numeric(col, nBins) Вычисляет гистограмму для числовой колонки 'col' используя nb бинов.
hll_sketch_agg(col[, lgConfigK]) Агрегатная функция: возвращает обновляемое бинарное представление Datasketches HllSketch, настроенное с параметром lgConfigK.
hll_union_agg(col[, allowDifferentLgConfigK]) Агрегатная функция: возвращает обновляемое бинарное представление Datasketches HllSketch, созданное путем объединения ранее созданных экземпляров Datasketches HllSketch через экземпляр Datasketches Union.
kurtosis(col) Агрегатная функция: возвращает эксцесс значений в группе.
last(col[, ignorenulls]) Агрегатная функция: возвращает последнее значение в группе.
last_value(col[, ignoreNulls]) Возвращает последнее значение col для группы строк.
max(col) Агрегатная функция: возвращает максимальное значение выражения в группе.
max_by(col, ord) Возвращает значение, связанное с максимальным значением ord.
mean(col) Агрегатная функция: возвращает среднее значение значений в группе.
median(col) Возвращает медиану значений в группе.
min(col) Агрегатная функция: возвращает минимальное значение выражения в группе.
min_by(col, ord) Возвращает значение, связанное с минимальным значением ord.
mode(col) Возвращает наиболее часто встречающееся значение в группе.
percentile(col, percentage[, frequency]) Возвращает точный процентиль(и) числовой колонки expr для заданного процента(ов) со значениями в диапазоне [0.0, 1.0].
percentile_approx(col, percentage[, accuracy]) Возвращает приближенный процентиль числовой колонки col, который является наименьшим значением в упорядоченных значениях col (отсортированных от наименьшего к наибольшему), так что не более percentage значений col меньше этого значения или равно ему.
product(col) Агрегатная функция: возвращает произведение значений в группе.
reduce(col, initialValue, merge[, finish]) Применяет бинарный оператор к начальному состоянию и всем элементам в массиве, и сводит это к единственному состоянию.
regr_avgx(y, x) Агрегатная функция: возвращает среднее значение независимой переменной для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_avgy(y, x) Агрегатная функция: возвращает среднее значение зависимой переменной для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_count(y, x) Агрегатная функция: возвращает количество ненулевых числовых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_intercept(y, x) Агрегатная функция: возвращает пересечение линии одномерной линейной регрессии для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_r2(y, x) Агрегатная функция: возвращает коэффициент детерминации для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_slope(y, x) Агрегатная функция: возвращает наклон линии линейной регрессии для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_sxx(y, x) Агрегатная функция: возвращает REGR_COUNT(y, x) * VAR_POP(x) для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_sxy(y, x) Агрегатная функция: возвращает REGR_COUNT(y, x) * COVAR_POP(y, x) для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
regr_syy(y, x) Агрегатная функция: возвращает REGR_COUNT(y, x) * VAR_POP(y) для ненулевых пар в группе, где y - зависимая переменная, а x - независимая переменная.
skewness(col) Агрегатная функция: возвращает асимметрию значений в группе.
some(col) Агрегатная функция: возвращает true, если хотя бы одно значение col истинно.
std(col) Агрегатная функция: псевдоним для stddev_samp.
stddev(col) Агрегатная функция: псевдоним для stddev_samp.
stddev_pop(col) Агрегатная функция: возвращает стандартное отклонение генеральной совокупности для выражения в группе.
stddev_samp(col) Агрегатная функция: возвращает несмещенное выборочное стандартное отклонение выражения в группе.
sum(col) Агрегатная функция: возвращает сумму всех значений в выражении.
sum_distinct(col) Агрегатная функция: возвращает сумму уникальных значений в выражении.
sumDistinct(col) Агрегатная функция: возвращает сумму уникальных значений в выражении.
var_pop(col) Агрегатная функция: возвращает дисперсию генеральной совокупности значений в группе.
var_samp(col) Агрегатная функция: возвращает несмещенную выборочную дисперсию значений в группе.
variance(col) Агрегатная функция: псевдоним для var_samp