PySpark
PySparkで使い方に困ったときのメモ 複数カラムで集計 from pyspark.sql import functions as F a1 = df.groupby('column_1', 'column_2').agg(F.count(F.col('column_3')).alias('count'), F.collect_set('column_4').alias('collect_column_4')) 複数カラ…
PySparkで使い方に困ったときのメモ 複数カラムで集計 from pyspark.sql import functions as F a1 = df.groupby('column_1', 'column_2').agg(F.count(F.col('column_3')).alias('count'), F.collect_set('column_4').alias('collect_column_4')) 複数カラ…