apache-spark-sql

У меня есть фрейм данных +-----+----+----------+------------+----------+------------+ |empId| lId| date1| time1 | date2 | time2 | +-----+----+----------+------------+----------+------------+ | 1234|1212|2018-04-20|21:40:29.077|2018-04-20|22:40:29.077| | 1235|1212|2018-04-20|22:40:29.077|201...

Kryo помогает повысить производительность приложений Spark за счет эффективного подхода к сериализации. Мне интересно, поможет ли Kryo в случае SparkSQL, и как я должен его использовать. В приложениях SparkSQL мы будем выполнять много операций на основе столбцов, таких как df.select($"c1", $"c2"), и схема стр...

Я загружаю свой CSV с помощью DataFrame, а затем преобразую его в DataSet, но он показывает вот так Несколько маркеров в этой строке: - Невозможно найти кодер для типа, хранящегося в наборе данных. Примитивные типы (Int, String и т. д.) и типы продуктов (классы case) поддерживаются путем импорта и...

У меня есть dataframe df df.show() id|data|somedata 1 |k |v 2 |s |d 3 |f |k . . . Я попытался удалить строки из df, которые id существуют в lisst=List (4,9,200), поэтому я использовал drop следующим образом val df1=df.drop(col("id").isin(lisst:_*)) Но не работает и я пр...

Мне нужно реализовать столбец auto increment в моей таблице spark sql, как я могу это сделать. Будьте добры, проводите меня. я использую pyspark 2.0 Спасибо Кальян ...

СПАРК таблицы данных имеет Способ withColumn, чтобы добавить новый столбец одновременно. Для добавления нескольких столбцов требуется цепочка withColumn s. Является ли это лучшей практикой для этого? Я чувствую, что использование mapPartitions имеет больше преимуществ. Допустим, у меня есть цепочка из трех ...

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель на фреймах данных, в Scala, но не вижу, как это сделать. одна из таблиц данных, с которыми я работаю, содержит список транзакций, по счету, silimar в следующем примере. Account Date Type ...

у меня есть фрейм данных, созданный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0...

пробовал df.orderBy("col1").show(10) но он отсортирован в порядке возрастания. df.sort("col1").show(10) также сортирует в порядке убывания. Я посмотрел на stackoverflow, и ответы, которые я нашел, все устарели или ссылались на RDDs. Я хотел бы использовать собственный фрейм данных в spark....

Я пытаюсь преобразовать все заголовки / имена столбцов a DataFrame в Spark-Scala. на данный момент я придумал следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); } ...