ITの隊長のブログ

ITの隊長のブログです。Rubyを使って仕事しています。最近も色々やっているお(^ω^ = ^ω^)

PySpark

PySparkの雑メモ

PySparkで使い方に困ったときのメモ 複数カラムで集計 from pyspark.sql import functions as F a1 = df.groupby('column_1', 'column_2').agg(F.count(F.col('column_3')).alias('count'), F.collect_set('column_4').alias('collect_column_4')) 複数カラ…