Основные навыки ученого по данным [закрыто]
каковы соответствующие навыки в арсенале ученого данных? С новыми технологиями, поступающими каждый день, как можно выбрать и выбрать предметы первой необходимости?
несколько идей, относящихся к этой дискуссии:
- зная SQL и использование БД, таких как MySQL, PostgreSQL был велик до появления NoSql и нереляционных баз данных. MongoDB, CouchDB etc. становятся популярными работы с данными веб-масштаба.
- зная инструмент статистики, как R достаточно для анализа, но для создания приложений может потребоваться добавить Java, Python и такие другие в список.
- данные теперь поступают в виде текста, URL-адресов, мультимедиа, чтобы назвать несколько, и есть разные парадигмы, связанные с их манипуляцией.
- как насчет кластерных вычислений, параллельных вычислений, облака, Amazon EC2, Hadoop ?
- регрессия OLS теперь имеет искусственные нейронные сети, случайные леса и другие относительно экзотические машинное обучение / интеллектуальный анализ данных алгоритмы. для компании
мысли?
11 ответов:
цитата из вступления к кандидатская диссертация Хэдли:
во-первых, вы получаете информацию в форме, которая вы можете работать с ... Во-вторых, вы построить данные, чтобы получить представление о том, что идет дальше ... В-третьих, вы повторяете между графикой и моделями для сборки краткое количественное резюме данные... Наконец, вы оглядываетесь на что вы сделали, и созерцайте какие инструменты вам нужно сделать лучше будущее
Шаг 1 почти конечно, включает в себя данные munging, и может включать в себя доступ к базе данных или веб-выскабливание. Знание людей, которые создают данные, также полезно. (Я подаю это в разделе "Сеть".)
Шаг 2 означает навыки визуализации / построения графиков.
Шаг 3 означает статистику или навыки моделирования. Поскольку это глупо широкая категория, способность делегировать моделисту также является полезным навыком.
последний шаг в основном касается мягких навыков, таких как самоанализ и тип управления умения.
навыки работы с программным обеспечением также упоминались в вопросе, и я согласен, что они очень полезны. Программное Обеспечение Производство Столярных хороший список всех основных навыков программного обеспечения вы должны иметь.
просто чтобы бросить некоторые идеи для других, чтобы изложить:
при некотором смехотворно высоком уровне абстракции вся работа с данными включает в себя следующие шаги:
- Сбор Данных
- Хранение/Извлечение Данных
- Обработка Данных / Синтез / Моделирование
- Отчет О Результатах
- История
как минимум ученый данных должен иметь по крайней мере некоторые навыки в каждом из них области. Но в зависимости от специальности можно провести намного больше времени в ограниченном диапазоне.
JD-это здорово, и для немного более глубокого понимания этих идей прочитайте отличный пост Майкла Дрисколла три сексуальные навыки данных выродков:
- навык #1: Статистика (Изучает)
- навык #2: Munging Данных (Страдания)
- Навык #3: визуализация (рассказом)
At dataist вопрос решается в общем виде с хорошей диаграммой Венна:
JD ударил его по голове: рассказывание историй. Хотя он забыл другую важную историю: историю о том, почему вы использовали . Способность ответить на этот вопрос является самым важным навыком, который вы можете развить.
остальное просто молотки. Не поймите меня неправильно, такие вещи, как R-это здорово. R-это целый мешок молотков, но важно знать, как использовать ваши молотки и что-то еще, чтобы сделать что-то полезное.
Я думаю, что это важно иметь команду commerial базы данных или два. В финансовом мире, с которым я консультируюсь, я часто вижу DB/2 и Oracle на большом железе и SQL Server на распределенных серверах. Это значит уметь читать и писать SQL-код. Вы должны быть в состоянии получить данные из хранилища и в ваш аналитический инструмент.
с точки зрения аналитических инструментов, я считаю, что R становится все более важным. Я также думаю, что очень выгодно знать, как использовать хотя бы один другой пакет стат также. Это может быть SAS или SPSS... это действительно зависит от компании или клиента, с которым вы работаете и чего они ждут.
наконец, вы можете иметь невероятное понимание всех этих пакетов и все еще не очень ценны. Чрезвычайно важно иметь достаточный опыт в конкретной области и быть в состоянии сообщить соответствующим пользователям и менеджерам, какие проблемы связаны с вашим анализом, а также с вашими выводами.
- возможность совместной работы.
великая наука, почти в любой дисциплине, редко делается отдельными людьми в эти дни.
есть несколько разделов информатики, которые полезны для ученых данных, многие из них были упомянуты: распределенные вычисления, операционные системы и базы данных.
анализ алгоритмов, то есть понимание временных и пространственных требований к вычислениям, является единственной наиболее важной темой информатики для ученых, занимающихся данными. Это полезно для реализации эффективного кода, от статистических методов обучения до сбора данных; и определение ваших вычислительных потребностей, таких как объем оперативной памяти или количество узлов Hadoop.