apache-spark

по данным Learning Spark имейте в виду, что перераспределение данных является довольно дорогостоящей операцией. Spark также имеет оптимизированную версию repartition() под названием coalesce (), которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. одно о...

по данным Представляем Наборы Данных Spark: поскольку мы с нетерпением ждем Spark 2.0, мы планируем некоторые интересные улучшения в наборах данных, в частности: ... Пользовательские кодеры - в то время как в настоящее время мы автоматически генерируем кодеры для самых разных типов, мы хотели бы откр...

Я установил Spark с помощью руководства AWS EC2, и я могу запустить программу отлично, используя bin/pyspark скрипт, чтобы добраться до подсказки spark, а также может успешно выполнить Quick Start quide. однако, я не могу для жизни меня выяснить, как остановить все многословные INFO журнал после каждой коман...

Я пытаюсь распечатать содержимое коллекции на консоль Spark. у меня есть типа: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] и я использую команду: scala> linesWithSessionId.map(line => println(line)) но это напечатано : res1: org.апаш.искра.РДУ.RDD[Unit] = MappedRDD...

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель на фреймах данных, в Scala, но не вижу, как это сделать. одна из таблиц данных, с которыми я работаю, содержит список транзакций, по счету, silimar в следующем примере. Account Date Type ...

в чем разница между РДД этоmap и mapPartitions способ? И делает flatMap ведут себя как map или как mapPartitions? Спасибо. (редактировать) т. е. в чем разница (семантически или с точки зрения исполнения) между def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest...

Я использую spark-csv для загрузки данных в фрейм данных. Я хочу сделать простой запрос и отобразить содержание: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() ...

как я могу увеличить память, доступную для узлов Apache spark executor? у меня есть 2 ГБ файл, который подходит для загрузки в Apache Spark. Я запускаю apache spark на данный момент на 1 машине, поэтому драйвер и исполнитель находятся на одной машине. Машина имеет 8 ГБ памяти. когда я пытаюсь подсчитать ст...

как я могу конвертировать RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) к фрейму данных org.apache.spark.sql.DataFrame. Я преобразовал фрейм данных в rdd с помощью .rdd. После обработки я хочу, чтобы он вернулся в dataframe. Как я могу это сделать ?...

Это копия чужого вопроса на другом форуме, на который никогда не было ответа, поэтому я подумал, что переспрошу его здесь, так как у меня такая же проблема. (См. http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736) Я правильно установил Spark на своей машине и могу запускать программы python с модуля...