Обучение программированию онлайн

Пример Spark программа работает очень медленно

Я попытался использовать Spark для работы над простой Графовой задачей. Я нашел пример программы в папке Spark source: transitive_closure.py, который вычисляет транзитивное замыкание в графе с числом ребер и вершин не более 200. Но в моем собственном ноутбуке он работает более 10 минут и не заканчивается. Ком...

2

6

performance apache-spark pyspark

Быстро извлекать уникальные целые числа из массива PySpark DataFrame списков целых чисел?

Предположим, что у вас есть фрейм данных Pyspark, df: DataFrame[set_sid_index: array<int>] Это выглядит так: +--------------------+ | set_sid_index| +--------------------+ | [8, 0, 1]| | [8, 1]| | [9]| | [0]| | [2]| | ...

1

2

pyspark

Как записать полученный RDD в csv файл в Spark python

У меня есть результирующий RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Это имеет выходные данные в следующем формате: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Я хочу создать CSV-файл с одним столбцом для labels (Первая часть кортежа в приведенном вы...

3

20

python csv apache-spark pyspark

Разреженные и плотные векторы Пыспарк

Как я могу знать, Следует ли мне использовать разреженное или плотное представление в PySpark? Я понимаю различия между ними (разреженная память сохраняет только ненулевые индексы и значения), но с точки зрения производительности, есть ли какие-либо общие эвристики, которые описывают, когда использовать разре...

1

3

python machine-learning apache-spark pyspark

Добавить сумму столбцов в качестве нового столбца в PySpark dataframe

Я использую PySpark, и у меня есть фрейм данных Spark с кучей числовых столбцов. Я хочу добавить столбец, который является суммой всех остальных столбцов. Предположим, что в моем фрейме данных есть столбцы "a", "b"и " c". Я знаю, что могу это сделать: df.withColumn('total_col', df.a + df.b + df.c) Пробле...

2

16

python apache-spark pyspark spark-dataframe

Есть ли у spark dataframe "имя строки" для каждой строки, как у pandas?

Я пытаюсь использовать фреймы данных Spark для работы с двумя фреймами данных, индексируемыми по имени строки. В панд, мы можем сделать df.loc(['aIndex', 'anotherIndex']) Для выбора двух строк в df по индексу (или имени строки). Как достичь этого в Spark DataFrame? Спасибо. ...

1

2

python pandas apache-spark pyspark spark-dataframe

Pyspark: Лучшая практика, чтобы добавить дополнительные столбцы к таблице данных

СПАРК таблицы данных имеет Способ withColumn, чтобы добавить новый столбец одновременно. Для добавления нескольких столбцов требуется цепочка withColumn s. Является ли это лучшей практикой для этого? Я чувствую, что использование mapPartitions имеет больше преимуществ. Допустим, у меня есть цепочка из трех ...

2

3

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Как отключить регистрацию информации в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу запустить программу отлично, используя bin/pyspark скрипт, чтобы добраться до подсказки spark, а также может успешно выполнить Quick Start quide. однако, я не могу для жизни меня выяснить, как остановить все многословные INFO журнал после каждой коман...

12

103

python hadoop yarnpkg apache-spark pyspark

импорт pyspark в оболочке python

Это копия чужого вопроса на другом форуме, на который никогда не было ответа, поэтому я подумал, что переспрошу его здесь, так как у меня такая же проблема. (См. http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736) Я правильно установил Spark на своей машине и могу запускать программы python с модуля...

16

88

python apache-spark pyspark

Как изменить имена столбцов dataframe в pyspark?

Я пришел из фона панды и привык читать данные из CSV-файлов в фрейм данных, а затем просто изменять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list однако то же самое не работает в фреймах данных pyspark, созданных с помощью sqlContext. Единственное решение, ...

9

69

python apache-spark pyspark pyspark-sql