large-data-volumes

Мне нужно создать около 2 миллионов векторов с 1000 слотов в каждом (каждый слот просто содержит целое число). Какая структура данных лучше всего подходит для работы с таким объемом данных? Возможно, я переоцениваю объем используемой обработки / памяти. Мне нужно перебрать коллекцию файлов (в общей сложност...

У нас есть приложение Swing, которое обрабатывает относительно большие объемы данных. Например, в настоящее время мы обрабатываем CSV-файлы с миллионами строк данных. Из соображений производительности и простоты мы просто храним все данные в памяти. Однако разные пользователи будут иметь разные объемы данн...

Мне нужно отфильтровать большой список сложных (20+ свойств) объектов в несколько вложенных списков. Чтобы создать подсписки, у меня есть список спецификаций фильтров. Требования: а) элемент не может быть частью двух подсписков и б) должна быть возможность получить все неразделенные элементы после завершени...

У меня есть очень большая таблица (~100 миллионов записей) в MySQL, которая содержит информацию о файлах. Одна из частей информации-это дата изменения каждого файла. Мне нужно написать запрос, который будет подсчитывать количество файлов, которые вписываются в заданные диапазоны дат. Для этого я сделал небол...

Я пытаюсь использовать python, чтобы получить некоторую производительность в задаче, которая может быть сильно распараллелена с помощью http://docs.python.org/library/multiprocessing . Когда они смотрят на свою библиотеку, они говорят, что используют размер блока для очень длинных итераций. Теперь, мой iter...

Я ищу фреймворк коллекции, предназначенный для огромных наборов данных в Java, который ведет себя прозрачно, как STXXL делает для C++. Он должен прозрачно подкачиваться на диск, но гораздо более эффективным способом, чем простое подкачивание виртуальных машин на базе ОС. Замена струнного буфера / струнного ...

Я пытаюсь создать скрипт Python, который будет принимать адрес в качестве входных данных и выплевывать его широту и долготу, или широты и долготы в случае нескольких совпадений, совсем как Nominatim. Таким образом, возможные входы и выходы могут быть: - в Нью-Йорк, США => из: Нью-Йорк (широта:долгота ...

Я ищу идею о том, как преобразовать 30+ gb, 2000 + цветные серии изображений TIFF в набор данных, который можно визуализировать в режиме реального времени (интерактивные частоты кадров) с помощью рендеринга Тома на основе GPU (с использованием OpenCL / OpenGL / GLSL). Я хочу использовать прямой подход к визуа...

Я пытался разгадать ответ на этот вопрос в течение многих месяцев, изучая панд. Я использую SAS для своей повседневной работы, и это отлично подходит для его поддержки вне ядра. Однако SAS ужасен как часть программного обеспечения по многим другим причинам. однажды я надеюсь заменить свое использование SAS...

Я столкнулся с вопросом интервью "если бы вы разрабатывали веб-Искатель, как бы вы избежали попадания в бесконечные циклы? - и я пытаюсь ответить на него. Как все это начинается с самого начала. Скажем, Google начал с некоторых страниц концентратора, говорят сотни из них (как эти страницы концентратора были ...