Обучение программированию онлайн

Режим группирования данных в (py)Spark

У меня есть фрейм данных spark с несколькими столбцами. Я хотел бы сгруппировать строки на основе одного столбца, а затем найти режим второго столбца для каждой группы. Работая с фреймом данных pandas, я бы сделал что-то вроде этого: rand_values = np.random.randint(max_value, ...

1

4

как фильтровать поле MapType фрейма данных Spark

У меня есть фрейм данных Spark, где одно из полей имеет тип MapType....Я могу извлечь данные любого из ключей поля maptype, но не могу этого сделать, когда применяю фильтр для конкретного значения конкретного ключа... val line = List (("Sanjay", Map("one" -> 1, "two" -> 2)), ("Taru", Map("one" -> 10...

1

3

scala apache-spark apache-spark-sql spark-dataframe

Spark DataFrame Schema Nullable Поля

Я написал следующий код как в scala , так и в python, однако возвращаемый фрейм данных, похоже, не применяет непустые поля в моей схеме, которую я применяю. italianVotes.csv - это csv-файл с разделителем ' ~ ' и четырьмя полями. Я использую СПАРК 2.1.0. Итальянвоты.csv 2657~135~2~2013-11-22 00:00:00.0 2658...

1

6

apache-spark apache-spark-sql spark-dataframe

Программно Переименовать Все, Кроме Одного Столбца Spark Scala

2

scala apache-spark spark-dataframe

Добавить сумму столбцов в качестве нового столбца в PySpark dataframe

Я использую PySpark, и у меня есть фрейм данных Spark с кучей числовых столбцов. Я хочу добавить столбец, который является суммой всех остальных столбцов. Предположим, что в моем фрейме данных есть столбцы "a", "b"и " c". Я знаю, что могу это сделать: df.withColumn('total_col', df.a + df.b + df.c) Пробле...

2

16

python apache-spark pyspark spark-dataframe

Есть ли у spark dataframe "имя строки" для каждой строки, как у pandas?

Я пытаюсь использовать фреймы данных Spark для работы с двумя фреймами данных, индексируемыми по имени строки. В панд, мы можем сделать df.loc(['aIndex', 'anotherIndex']) Для выбора двух строк в df по индексу (или имени строки). Как достичь этого в Spark DataFrame? Спасибо. ...

1

2

python pandas apache-spark pyspark spark-dataframe

Как реализовать автоматическое приращение в spark SQL(PySpark)

Мне нужно реализовать столбец auto increment в моей таблице spark sql, как я могу это сделать. Будьте добры, проводите меня. я использую pyspark 2.0 Спасибо Кальян ...

1

2

apache-spark apache-spark-sql pyspark-sql spark-dataframe

Pyspark: Лучшая практика, чтобы добавить дополнительные столбцы к таблице данных

СПАРК таблицы данных имеет Способ withColumn, чтобы добавить новый столбец одновременно. Для добавления нескольких столбцов требуется цепочка withColumn s. Является ли это лучшей практикой для этого? Я чувствую, что использование mapPartitions имеет больше преимуществ. Допустим, у меня есть цепочка из трех ...

2

3

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Как преобразовать объект rdd в фрейм данных в spark

как я могу конвертировать RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) к фрейму данных org.apache.spark.sql.DataFrame. Я преобразовал фрейм данных в rdd с помощью .rdd. После обработки я хочу, чтобы он вернулся в dataframe. Как я могу это сделать ?...

10

94

scala apache-spark spark-dataframe rdd

Как выбрать первую строку каждой группы?

у меня есть фрейм данных, созданный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0...

7

88

scala apache-spark apache-spark-sql spark-dataframe