apache-spark

у меня есть фрейм данных, созданный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0...

Я заметил странное поведение моего компилятора scala. Он иногда выбрасывает OutOfMemoryError при компиляции класса. Вот сообщение об ошибке: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during...

Я пытаюсь настроить Apache Spark на Windows. после поиска немного, я понимаю, что автономный режим-это то, что я хочу. Какие двоичные файлы я загружаю для запуска Apache spark в windows? Я вижу дистрибутивы с hadoop и cdh на странице загрузки spark. У меня нет ссылок в интернете на этот. Шаг за шагом руково...

Я следую за великим Искра учебник поэтому я пытаюсь в 46m:00s загрузить README.md но плохо то, что я делаю это: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell sca...

У меня есть приложение Spark streaming, которое создает набор данных для каждой минуты. Мне нужно сохранить/перезаписать результаты обработанных данных. когда я попытался перезаписать организацию набора данных.апаш.платформа Hadoop.mapred.FileAlreadyExistsException останавливает выполнение. Я установил свой...

пробовал df.orderBy("col1").show(10) но он отсортирован в порядке возрастания. df.sort("col1").show(10) также сортирует в порядке убывания. Я посмотрел на stackoverflow, и ответы, которые я нашел, все устарели или ссылались на RDDs. Я хотел бы использовать собственный фрейм данных в spark....

Я пришел из фона панды и привык читать данные из CSV-файлов в фрейм данных, а затем просто изменять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list однако то же самое не работает в фреймах данных pyspark, созданных с помощью sqlContext. Единственное решение, ...

при использовании Scala в Spark, всякий раз, когда я сбрасываю результаты с помощью saveAsTextFile, Кажется, разделить выход на несколько частей. Я просто передаю ему параметр (путь). val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap)...

Я пытаюсь преобразовать все заголовки / имена столбцов a DataFrame в Spark-Scala. на данный момент я придумал следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); } ...

Я запускаю задание Spark в режиме спекуляции. У меня есть около 500 задач и около 500 файлов 1 ГБ GZ сжатого. Я продолжаю получать в каждом задании, для 1-2 задач, прикрепленную ошибку, где она повторяется после этого десятки раз (предотвращая выполнение задания). org.апаш.искра.шарканье.MetadataFetchFai...