Обучение программированию онлайн

Как сопоставить имена столбцов фрейма данных с атрибутами класса case Scala?

Имена столбцов в этом примере из spark-sql происходят из case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... // An RDD of case class objects, from the previous example. // The RDD is implicitly converted to a SchemaRDD by createSchemaRDD, allowing it to be stored usin...

1

10

Как избежать исключения Parquet MemoryManager

Я генерирую некоторые паркетные (v1.6.0) выходные данные из скрипта PIG (v0.15.0). Мой скрипт берет несколько входных источников и соединяет их с некоторой вложенностью. Скрипт работает без ошибок, но затем во время операции STORE я получаю: 2016-04-19 17:24:36,299 [PigTezLauncher-0] INFO org.apache.pig.ba...

1

3

hadoop mapreduce parquet

Создание таблицы Hive для чтения файлов parquet из схемы parquet/avro

Мы ищем решение для того, чтобы создать внешнюю таблицу hive для чтения данных из файлов parquet в соответствии со схемой parquet/avro. Другими словами, как сгенерировать таблицу hive из схемы parquet/avro ? Спасибо :) ...

1

2

hive avro parquet

Достижение параллелизма при сохранении в секционированный файл parquet

При записи dataframe в parquet с помощью partitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Я ожидал бы, что каждая записываемая секция выполнялась бы независимо от отдельной задачи и параллельно в зависимости от количества работников, назначенных на текущую работу spark. Однако на са...

1

2

scala apache-spark parquet

Ошибка EntityTooLarge при загрузке файла 5G в Amazon S3

Ограничение размера файла Amazon S3 должно быть 5T согласно этому объявлению , но я получаю следующую ошибку при загрузке файла 5G '/mahler%2Fparquet%2Fpageview%2Fall-2014-2000%2F_temporary%2F_attempt_201410112050_0009_r_000221_2222%2Fpart-r-222.parquet' XML Error Message: <?xml version="1.0" encoding...

2

8

amazon-s3 apache-spark apache-spark-sql parquet

Кэширование против Tempview

У меня есть файл parquet, который я читаю по крайней мере 4-5 раз в моей заявке. Мне было интересно, что наиболее эффективно сделать. Вариант 1. При записи файла parquet считайте его обратно в dataset и Call cache. Я предполагаю, что, выполняя немедленное чтение, я мог бы использовать некоторый существующий ...

1

2

caching apache-spark parquet

Как читать вложенную коллекцию в Spark

У меня есть паркетный стол с одной из колонн , array > Может выполнять запросы к этой таблице в Hive, используя синтаксис бокового вида. Как прочитать эту таблицу в RDD, и что более важно, как фильтровать, сопоставлять и т. д. эту вложенную коллекцию в Spark? Не удалось найти никаких ссылок на эт...

4

17

hadoop apache-spark hive parquet

Можем ли мы загрузить файл паркета в улей напрямую?

Я знаю, что мы можем загрузить файл parquet с помощью Spark SQL и с помощью Impala, но интересно, можем ли мы сделать то же самое с помощью Hive. Я читал много статей, но я все еще в замешательстве. Проще говоря, у меня есть файл паркета, - говорят пользователи.паркет. Теперь я поражен здесь о том, как загр...

4

9

hadoop apache-spark-sql hive hiveql parquet

Каковы плюсы и минусы паркетного формата по сравнению с другими форматами?

характеристики паркета Apache: самоописанием колончатый формат язык-независимая по сравнению с Авро, файлы последовательности, RC-файл и т. д. Я хочу обзор форматов. Я уже читал:как Impala работает с форматами файлов Hadoop , это дает некоторое представление о форматах, но я хотел бы знать, как доступ к д...

3

78

load-data-infile hadoop hdfs avro parquet