Обучение программированию онлайн

Как выбрать первую строку каждой группы?

у меня есть фрейм данных, созданный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0...

7

88

Как предотвратить java.ленг.Исключение OutOfMemoryError: PermGen пространства при компиляции в Scala?

Я заметил странное поведение моего компилятора scala. Он иногда выбрасывает OutOfMemoryError при компиляции класса. Вот сообщение об ошибке: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during...

8

79

scala memory-management sbt apache-spark scalatra-sbt

Как настроить Spark на Windows?

Я пытаюсь настроить Apache Spark на Windows. после поиска немного, я понимаю, что автономный режим-это то, что я хочу. Какие двоичные файлы я загружаю для запуска Apache spark в windows? Я вижу дистрибутивы с hadoop и cdh на странице загрузки spark. У меня нет ссылок в интернете на этот. Шаг за шагом руково...

10

78

windows apache-spark

Как загрузить локальный файл в sc.текстовый файл, а не HDFS

Я следую за великим Искра учебник поэтому я пытаюсь в 46m:00s загрузить README.md но плохо то, что я делаю это: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell sca...

12

75

scala apache-spark

Как перезаписать выходной каталог в spark

У меня есть приложение Spark streaming, которое создает набор данных для каждой минуты. Мне нужно сохранить/перезаписать результаты обработанных данных. когда я попытался перезаписать организацию набора данных.апаш.платформа Hadoop.mapred.FileAlreadyExistsException останавливает выполнение. Я установил свой...

8

73

apache-spark

Как Сортировать по столбцу в порядке убывания в Spark SQL?

пробовал df.orderBy("col1").show(10) но он отсортирован в порядке возрастания. df.sort("col1").show(10) также сортирует в порядке убывания. Я посмотрел на stackoverflow, и ответы, которые я нашел, все устарели или ссылались на RDDs. Я хотел бы использовать собственный фрейм данных в spark....

6

73

scala apache-spark apache-spark-sql

Как изменить имена столбцов dataframe в pyspark?

Я пришел из фона панды и привык читать данные из CSV-файлов в фрейм данных, а затем просто изменять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list однако то же самое не работает в фреймах данных pyspark, созданных с помощью sqlContext. Единственное решение, ...

9

69

python apache-spark pyspark pyspark-sql

как сделать saveAsTextFile не разделить вывод на несколько файлов?

при использовании Scala в Spark, всякий раз, когда я сбрасываю результаты с помощью saveAsTextFile, Кажется, разделить выход на несколько частей. Я просто передаю ему параметр (путь). val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap)...

9

65

scala apache-spark

Переименование названий столбцов в таблице данных СПАРК Скала

Я пытаюсь преобразовать все заголовки / имена столбцов a DataFrame в Spark-Scala. на данный момент я придумал следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); } ...

3

59

scala dataframe apache-spark apache-spark-sql

Почему задания Spark терпят неудачу с org.апаш.искра.шарканье.MetadataFetchFailedException: отсутствует выходное местоположение для shuffle 0 в режиме спекуляции?

Я запускаю задание Spark в режиме спекуляции. У меня есть около 500 задач и около 500 файлов 1 ГБ GZ сжатого. Я продолжаю получать в каждом задании, для 1-2 задач, прикрепленную ошибку, где она повторяется после этого десятки раз (предотвращая выполнение задания). org.апаш.искра.шарканье.MetadataFetchFai...

7

57

apache-spark