Java vs Python на Hadoop

Я работаю над проектом с использованием Hadoop, и он, похоже, изначально включает Java и обеспечивает потоковую поддержку Python. Есть ли значительное влияние на производительность при выборе одного над другим? Я достаточно рано в процессе, где я мо ...

Hadoop на OSX " не удалось загрузить информацию о сфере из SCDynamicStore"

Я получаю эту ошибку при запуске Hadoop на OSX 10.7: Не удается загрузить информацию о области из SCDynamicStore ставлю: орг.апаш.платформа Hadoop.файловую систему HDFS.сервер.узел типа NameNode.SafeModeException: не удается создать каталог / u ...

подключение к хосту localhost порт 22: соединение отказано

при установке hadoop на моей локальной машине, я получил следующую ошибку ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_conn ...

Различия между Amazon S3 и S3n в Hadoop

когда я подключил свой кластер Hadoop к хранилищу Amazon и загрузил файлы в HDFS, я нашел s3:// не работает. При поиске некоторой помощи в Интернете я обнаружил, что могу использовать S3n. Когда я использовал S3n это сработало. Я не понимаю разницы м ...

Контейнер работает за пределами памяти

в Hadoop v1 я назначил каждый слот 7 mapper и reducer размером 1 ГБ, мои mappers & reducers работают нормально. Моя машина имеет память 8G, процессор 8. Теперь с YARN, при запуске того же приложения на той же машине, я получил ошибку контейнера. ...

Где Hive хранит файлы в HDFS?

Я хотел бы знать, как найти сопоставление между таблицами Hive и фактическими файлами HDFS (или, скорее, каталогами), которые они представляют. Мне нужно получить доступ к файлам таблицы напрямую. где Hive хранит свои файлы в HDFS? ...

Как получить / сгенерировать инструкцию create для существующей таблицы hive?

предполагая, что у вас уже есть" таблица "в Hive, есть ли быстрый способ, как и другие базы данных, чтобы получить инструкцию" CREATE " для этой таблицы? ...

Как проверить файловую систему HDFS каталог размер?

Я знаю du -sh в общих файловых системах Linux. Но как это сделать с HDFS? ...

Технически в чем разница между s3n, s3a и s3?

Я знаю о существовании https://wiki.apache.org/hadoop/AmazonS3 и следующие слова: S3 Native FileSystem (URI scheme: s3n) собственная файловая система для чтения и записи обычных файлов на S3. Преимущество этой файловой системы заключается в том, ...

Buiding Hadoop с Eclipse / Maven - отсутствующий артефакт jdk.инструменты: jdk.инструменты: jar: 1.6

Я пытаюсь импортировать Cloudera в орг.апаш.hadoop: hadoop-клиент: 2.0.0-cdh4.0. 0из РЕПО cdh4 maven в проекте maven в Eclipse 3.81, плагин m2e, с JDK 1.7.0_05 oracle на win7 с помощью <dependency> <groupId>org.apache.hadoop</gro ...

Как узнать версии Hive и Hadoop из командной строки?

как я могу найти, какую версию улья я использую из командной строки. Ниже приведены подробности - Я использую Putty для подключения к таблице hive и доступа к записям в таблицах. Итак, что я сделал - я открыл Putty и в имени хоста я набрал -leo-inge ...

Как вывести результаты запроса HiveQL в CSV?

мы хотели бы поместить результаты запроса Hive в файл CSV. Я думал, что команда должна выглядеть так: insert overwrite directory '/home/output.csv' select books from table; когда я запускаю его, он говорит, что он успешно завершен, но я никогда не ...

объединить выходные файлы после фазы уменьшения

в mapreduce каждая задача reduce записывает свои выходные данные в файл с именем part-r-nnnnn здесь nnnnn - идентификатор раздела, связанный с задачей сокращения. Делает map / reduce объединить эти файлы? Если да, то как? ...

Каковы плюсы и минусы паркетного формата по сравнению с другими форматами?

характеристики паркета Apache: самоописанием колончатый формат язык-независимая по сравнению с Авро, файлы последовательности, RC-файл и т. д. Я хочу обзор форматов. Я уже читал:как Impala работает с форматами файлов Hadoop , это дает некоторое п ...

Какова цель перетасовки и сортировки фазы в редукторе в Map Reduce Programming?

в карту уменьшить Программирование сократить этап перебирание, сортировка и сокращения по частям. Сортировка-дело дорогостоящее. что цель тасовать и сортировать участок в редукторе в карте уменьшает программировать? ...

Как работает алгоритм сортировки MapReduce?

одним из основных примеров, который используется для демонстрации силы MapReduce является terasort benchmark. У меня возникли проблемы с пониманием основ алгоритма сортировки, используемого в среде MapReduce. для меня сортировка просто включает в ...

В чем разница между разделением и выпуклостью таблицы в Hive?

Я знаю, что оба выполняются на столбце в таблице, но как каждая операция отличается. ...

Как отключить регистрацию информации в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу запустить программу отлично, используя bin/pyspark скрипт, чтобы добраться до подсказки spark, а также может успешно выполнить Quick Start quide. однако, я не могу для жизни меня выяснить, ка ...

Как происходит разделение записей процесса Hadoop по границам блоков?

по словам Hadoop - The Definitive Guide логические записи, которые определяют FileInputFormats, обычно не вписываются в блоки HDFS. Например, логичным TextInputFormat записи-это линии, которые будут пересекать границы файловой системы HDFS чаще, ...

Разница между HBase и Hadoop / HDFS

Это своего рода наивный вопрос, но я новичок в парадигме NoSQL и мало что знаю об этом. Поэтому, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать некоторые указатели, которые могут помочь мне понять разницу. до сих пор ...