hdfs

Я выполняю простой запрос соединения select count(*) from t1 join t2 on t1.sno=t2.sno Таблицы t1 и t2 имеют по 20 миллионов записей каждая, а столбец sno имеет строковый тип данных. Табличные данные импортируются в HDFS из Amazon s3 в формате rcfile. Запрос занял 109 секунд с 15 большими экземплярами ...

Мне нужно сравнить CSV-файлы, а затем удалить все повторяющиеся строки. Итак, мое состояние похоже на то, что у меня есть одна папка, и я должен поместить каждый отфильтрованный результат в эту папку, и когда появится какой-то новый файл, я должен сравнить существующие файлы в папке с новым и, наконец, я долж...

Допустим, у меня есть 200 входных файлов и 20 узлов, и каждый узел имеет 10 слотов mapper. Будет ли Hadoop всегда распределять работу равномерно, так что каждый узел получит 10 входных файлов и одновременно запустит 10 картографов? Есть ли способ заставить себя вести себя подобным образом?...

Это своего рода наивный вопрос, но я новичок в парадигме NoSQL и мало что знаю об этом. Поэтому, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать некоторые указатели, которые могут помочь мне понять разницу. до сих пор, я сделал некоторые исследования и соотв. насколько я поним...

по словам Hadoop - The Definitive Guide логические записи, которые определяют FileInputFormats, обычно не вписываются в блоки HDFS. Например, логичным TextInputFormat записи-это линии, которые будут пересекать границы файловой системы HDFS чаще, чем нет. Это не имеет никакого отношения к функционированию ...

в карту уменьшить Программирование сократить этап перебирание, сортировка и сокращения по частям. Сортировка-дело дорогостоящее. что цель тасовать и сортировать участок в редукторе в карте уменьшает программировать?...

характеристики паркета Apache: самоописанием колончатый формат язык-независимая по сравнению с Авро, файлы последовательности, RC-файл и т. д. Я хочу обзор форматов. Я уже читал:как Impala работает с форматами файлов Hadoop , это дает некоторое представление о форматах, но я хотел бы знать, как доступ к д...

Я знаю du -sh в общих файловых системах Linux. Но как это сделать с HDFS?...

Я хотел бы знать, как найти сопоставление между таблицами Hive и фактическими файлами HDFS (или, скорее, каталогами), которые они представляют. Мне нужно получить доступ к файлам таблицы напрямую. где Hive хранит свои файлы в HDFS?...

когда я подключил свой кластер Hadoop к хранилищу Amazon и загрузил файлы в HDFS, я нашел s3:// не работает. При поиске некоторой помощи в Интернете я обнаружил, что могу использовать S3n. Когда я использовал S3n это сработало. Я не понимаю разницы между использованием S3 и S3n С моим кластером Hadoop, может ...