bigdata

data.rdd.getNumPartitions() # output 2456 Тогда я делаю data.rdd.repartition(3000) Но ... data.rdd.getNumPartitions() # выход все еще 2456 Как изменить количество разделов. Одним из подходов может быть сначала преобразование DF в rdd,его перераспределение, а затем преобразование rdd обратно в DF. Но это ...

Когда мне нужно создать строку HBase, я должен вызвать метод Put(row_key). Тогда что произойдет, если я снова вызову метод Put() с тем же значением row_key? Будет ли обновлена существующая строка или HBase создаст новую строку? Можно ли создать 2 строки с одинаковыми ключами?...

Можем ли мы использовать Spark в качестве двигателя для Hive? У нас есть много устаревших систем и кодовая база в Hive, и мы хотели бы использовать Spark с Hive. Лучший, ...

У меня есть 17 больших файлов.матричные объекты (dim 10985 x 52598, 4,3 ГБ каждый), из которых я хотел бы вычислить среднее значение по элементам. Результат можно хранить в другом большом.матрица (gcm.РЭС.outputM). Biganalytics:: apply () не работает, так как маржа может быть установлена только на 1 или 2. ...

Есть ли способ разместить большое программное обеспечение для запросов на сервере моей компании? Компания не хочет, чтобы данные были где-то еще, кроме собственного дата-центра. Каковы альтернативы BigQuery? (облако, а также размещенные) ...

В настоящее время мы используем Virtuoso для хранения троек RDF. Нам нужен автоматизированный способ загрузки файлов RDF в базу данных. Данные могут быть очень большими, поэтому в настоящее время мы полагаемся на Virtuoso bulk data loader для загрузки данных; однако возможно, что в будущем мы переключимся на ...

Моя глубинная нейронная сеть возвращает один и тот же результат для каждого входа. Я попробовал (безуспешно) различные варианты: потеря оптимизатор топология сети / типы слоев число эпох (1-100) У меня есть 3 выхода (один-горячий), и для каждого входного выхода они похожи (он меняется после каждой тре...

У меня есть несколько csv-файлов разного размера, но все несколько большие. Использование read.csv для чтения их в R занимает больше времени, чем я терпеливо ждал до сих пор (несколько часов). Мне удалось прочитать Самый большой файл (2,6 ГБ) очень быстро (менее минуты) с помощью data.table s fread. Моя проб...

в чем разница между Apache Spark и Apache Storm? Каковы подходящие варианты использования для каждого из них?...

мы хотели бы поместить результаты запроса Hive в файл CSV. Я думал, что команда должна выглядеть так: insert overwrite directory '/home/output.csv' select books from table; когда я запускаю его, он говорит, что он успешно завершен, но я никогда не могу найти файл. Как найти этот файл или я должен извлекать...