spark-dataframe

У меня есть фрейм данных spark с несколькими столбцами. Я хотел бы сгруппировать строки на основе одного столбца, а затем найти режим второго столбца для каждой группы. Работая с фреймом данных pandas, я бы сделал что-то вроде этого: rand_values = np.random.randint(max_value, ...

У меня есть фрейм данных Spark, где одно из полей имеет тип MapType....Я могу извлечь данные любого из ключей поля maptype, но не могу этого сделать, когда применяю фильтр для конкретного значения конкретного ключа... val line = List (("Sanjay", Map("one" -> 1, "two" -> 2)), ("Taru", Map("one" -> 10...

Я написал следующий код как в scala , так и в python, однако возвращаемый фрейм данных, похоже, не применяет непустые поля в моей схеме, которую я применяю. italianVotes.csv - это csv-файл с разделителем ' ~ ' и четырьмя полями. Я использую СПАРК 2.1.0. Итальянвоты.csv 2657~135~2~2013-11-22 00:00:00.0 2658...

У меня есть такой фрейм данных: val df = Seq( ("LeBron", 36, 18, 12), ("Kevin", 42, 8, 9), ("Russell", 44, 5, 14)). toDF("player", "points", "rebounds", "assists") df.show() +-------+------+--------+-------+ | player|points|rebounds|assists| +-------+------+--------+-------+ | LeBron| 36| ...

Я использую PySpark, и у меня есть фрейм данных Spark с кучей числовых столбцов. Я хочу добавить столбец, который является суммой всех остальных столбцов. Предположим, что в моем фрейме данных есть столбцы "a", "b"и " c". Я знаю, что могу это сделать: df.withColumn('total_col', df.a + df.b + df.c) Пробле...

Я пытаюсь использовать фреймы данных Spark для работы с двумя фреймами данных, индексируемыми по имени строки. В панд, мы можем сделать df.loc(['aIndex', 'anotherIndex']) Для выбора двух строк в df по индексу (или имени строки). Как достичь этого в Spark DataFrame? Спасибо. ...

Мне нужно реализовать столбец auto increment в моей таблице spark sql, как я могу это сделать. Будьте добры, проводите меня. я использую pyspark 2.0 Спасибо Кальян ...

СПАРК таблицы данных имеет Способ withColumn, чтобы добавить новый столбец одновременно. Для добавления нескольких столбцов требуется цепочка withColumn s. Является ли это лучшей практикой для этого? Я чувствую, что использование mapPartitions имеет больше преимуществ. Допустим, у меня есть цепочка из трех ...

как я могу конвертировать RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) к фрейму данных org.apache.spark.sql.DataFrame. Я преобразовал фрейм данных в rdd с помощью .rdd. После обработки я хочу, чтобы он вернулся в dataframe. Как я могу это сделать ?...

у меня есть фрейм данных, созданный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0...