Пример Spark программа работает очень медленно
Я попытался использовать Spark для работы над простой Графовой задачей. Я нашел пример программы в папке Spark source: transitive_closure.py, который вычисляет транзитивное замыкание в графе с числом ребер и вершин не более 200. Но в моем собственном ноутбуке он работает более 10 минут и не заканчивается. Командная строка, которую я использую: spark-submit transitive_closure.py.
Интересно, почему spark так медленна даже при вычислении такого маленького транзитивного результата замыкания? Это обычный случай? Является есть какая-то конфигурация, которую я пропускаю?
Программа показана ниже, и ее можно найти в папке установки spark на их веб-сайте.
from __future__ import print_function
import sys
from random import Random
from pyspark import SparkContext
numEdges = 200
numVertices = 100
rand = Random(42)
def generateGraph():
edges = set()
while len(edges) < numEdges:
src = rand.randrange(0, numEdges)
dst = rand.randrange(0, numEdges)
if src != dst:
edges.add((src, dst))
return edges
if __name__ == "__main__":
"""
Usage: transitive_closure [partitions]
"""
sc = SparkContext(appName="PythonTransitiveClosure")
partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2
tc = sc.parallelize(generateGraph(), partitions).cache()
# Linear transitive closure: each round grows paths by one edge,
# by joining the graph's edges with the already-discovered paths.
# e.g. join the path (y, z) from the TC with the edge (x, y) from
# the graph to obtain the path (x, z).
# Because join() joins on keys, the edges are stored in reversed order.
edges = tc.map(lambda x_y: (x_y[1], x_y[0]))
oldCount = 0
nextCount = tc.count()
while True:
oldCount = nextCount
# Perform the join, obtaining an RDD of (y, (z, x)) pairs,
# then project the result to obtain the new (x, z) paths.
new_edges = tc.join(edges).map(lambda __a_b: (__a_b[1][1], __a_b[1][0]))
tc = tc.union(new_edges).distinct().cache()
nextCount = tc.count()
if nextCount == oldCount:
break
print("TC has %i edges" % tc.count())
sc.stop()
2 ответа:
Может быть много причин, почему этот код не работает особенно хорошо на вашей машине, но, скорее всего, это просто еще один вариант проблемы, описанной в Spark время итерации увеличивается экспоненциально при использовании join. Самый простой способ проверить, действительно ли это так, - предоставить параметр
spark.default.parallelism
на submit:bin/spark-submit --conf spark.default.parallelism=2 \ examples/src/main/python/transitive_closure.py
Если не ограничено иначе,
SparkContext.union
,RDD.join
иRDD.union
Установите число разделов ребенка к общему числу разделов в родителях. Обычно это желательное поведение, но может стать крайне неэффективным, если применять его итеративно.
Использование говорит, что командная строка
transitive_closure [partitions]
Установка параллелизма по умолчанию поможет только с объединениями в каждом разделе, а не с первоначальным распределением работы.
Я собираюсь утверждать, что следует использовать больше разделов. Установка параллелизма по умолчанию все еще может помочь, но код, который вы опубликовали, устанавливает число явно (переданный аргумент или 2, в зависимости от того, что больше). Абсолютным минимумом должны быть ядра, доступные для Spark, иначе вы всегда работаете на меньшем количестве чем 100%.