rdd

Я пытаюсь обернуть мою голову о всей концепции искры. Я думаю, что у меня есть очень рудиментарное представление о платформе spark. Насколько я понимаю, Spark имеет концепцию RDDs, которая представляет собой набор "вещей" в памяти, поэтому обработка происходит быстрее. Вы преобразуете RDDs с помощью таких ме...

У меня есть плоский файл, который выглядит так, как описано ниже. id,name,desg,tdate 1,Alex,Business Manager,2016-01-01 Я использую контекст Spark для чтения этого файла следующим образом. val myFile = sc.textFile("file.txt") Я хочу создать фрейм данных Spark из этого файла, и для этого я использую след...

Определение гласит: RDD-это неизменяемая распределенная коллекция объектов Я не совсем понимаю, что это значит. Похоже ли это на данные (секционированные объекты), хранящиеся на жестком диске, если да, то почему RDD могут иметь пользовательские классы (такие как java, scala или python) По этой ссылк...

Мне нужно создать пары значений ключей для каждой строки в фрейме данных / RDD. То есть каждый человек станет ключом для каждой строки, а связанная с ними транзакция-это список, который становится значением. У меня есть следующий пример, чтобы проиллюстрировать мою проблему: a = [ ('Bob', 562,"Food", ...

Я хотел бы получить некоторые разъяснения о поведении DAG, и как именно была выполнена следующая работа: val rdd = sc.parallelize(List(1 to 10).flatMap(x=>x).zipWithIndex,3) .partitionBy(new HashPartitioner(4)) val rdd1 = sc.parallelize(List(1 to 10).flatMap(x=>x).zipWithIndex,2) .partitionBy(new Has...

Я написал код python sum.py для суммирования всех чисел для каждого csv-файла в каталоге data. Теперь я собираюсь использовать Apache-Spark на Amazon Web Service (AWS), чтобы распараллелить процесс суммирования для каждого csv-файла. Я уже сделал следующие шаги: я создал один главный и два подчиненных узл...

У меня есть JavaPairDStream, содержащий пару ключ-значение. Мне нужно преобразовать его в хэш-карту.Я попытался сделать то же самое с обычным JavaPairRDD, вызвав функцию "collectAsMap()" на нем и его работе, но когда я пытаюсь сделать то же самое на DStream, это не удается. Я пытаюсь достичь того же путем пр...

по данным Learning Spark имейте в виду, что перераспределение данных является довольно дорогостоящей операцией. Spark также имеет оптимизированную версию repartition() под названием coalesce (), которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. одно о...

в чем разница между РДД этоmap и mapPartitions способ? И делает flatMap ведут себя как map или как mapPartitions? Спасибо. (редактировать) т. е. в чем разница (семантически или с точки зрения исполнения) между def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest...

как я могу конвертировать RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) к фрейму данных org.apache.spark.sql.DataFrame. Я преобразовал фрейм данных в rdd с помощью .rdd. После обработки я хочу, чтобы он вернулся в dataframe. Как я могу это сделать ?...