pyspark

Я попытался использовать Spark для работы над простой Графовой задачей. Я нашел пример программы в папке Spark source: transitive_closure.py, который вычисляет транзитивное замыкание в графе с числом ребер и вершин не более 200. Но в моем собственном ноутбуке он работает более 10 минут и не заканчивается. Ком...

Предположим, что у вас есть фрейм данных Pyspark, df: DataFrame[set_sid_index: array<int>] Это выглядит так: +--------------------+ | set_sid_index| +--------------------+ | [8, 0, 1]| | [8, 1]| | [9]| | [0]| | [2]| | ...

У меня есть результирующий RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Это имеет выходные данные в следующем формате: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Я хочу создать CSV-файл с одним столбцом для labels (Первая часть кортежа в приведенном вы...

Как я могу знать, Следует ли мне использовать разреженное или плотное представление в PySpark? Я понимаю различия между ними (разреженная память сохраняет только ненулевые индексы и значения), но с точки зрения производительности, есть ли какие-либо общие эвристики, которые описывают, когда использовать разре...

Я использую PySpark, и у меня есть фрейм данных Spark с кучей числовых столбцов. Я хочу добавить столбец, который является суммой всех остальных столбцов. Предположим, что в моем фрейме данных есть столбцы "a", "b"и " c". Я знаю, что могу это сделать: df.withColumn('total_col', df.a + df.b + df.c) Пробле...

Я пытаюсь использовать фреймы данных Spark для работы с двумя фреймами данных, индексируемыми по имени строки. В панд, мы можем сделать df.loc(['aIndex', 'anotherIndex']) Для выбора двух строк в df по индексу (или имени строки). Как достичь этого в Spark DataFrame? Спасибо. ...

СПАРК таблицы данных имеет Способ withColumn, чтобы добавить новый столбец одновременно. Для добавления нескольких столбцов требуется цепочка withColumn s. Является ли это лучшей практикой для этого? Я чувствую, что использование mapPartitions имеет больше преимуществ. Допустим, у меня есть цепочка из трех ...

Я установил Spark с помощью руководства AWS EC2, и я могу запустить программу отлично, используя bin/pyspark скрипт, чтобы добраться до подсказки spark, а также может успешно выполнить Quick Start quide. однако, я не могу для жизни меня выяснить, как остановить все многословные INFO журнал после каждой коман...

Это копия чужого вопроса на другом форуме, на который никогда не было ответа, поэтому я подумал, что переспрошу его здесь, так как у меня такая же проблема. (См. http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736) Я правильно установил Spark на своей машине и могу запускать программы python с модуля...

Я пришел из фона панды и привык читать данные из CSV-файлов в фрейм данных, а затем просто изменять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list однако то же самое не работает в фреймах данных pyspark, созданных с помощью sqlContext. Единственное решение, ...