Основные навыки ученого по данным [закрыто]


каковы соответствующие навыки в арсенале ученого данных? С новыми технологиями, поступающими каждый день, как можно выбрать и выбрать предметы первой необходимости?

несколько идей, относящихся к этой дискуссии:

  • зная SQL и использование БД, таких как MySQL, PostgreSQL был велик до появления NoSql и нереляционных баз данных. MongoDB, CouchDB etc. становятся популярными работы с данными веб-масштаба.
  • зная инструмент статистики, как R достаточно для анализа, но для создания приложений может потребоваться добавить Java, Python и такие другие в список.
  • данные теперь поступают в виде текста, URL-адресов, мультимедиа, чтобы назвать несколько, и есть разные парадигмы, связанные с их манипуляцией.
  • как насчет кластерных вычислений, параллельных вычислений, облака, Amazon EC2, Hadoop ?
  • регрессия OLS теперь имеет искусственные нейронные сети, случайные леса и другие относительно экзотические машинное обучение / интеллектуальный анализ данных алгоритмы. для компании

мысли?

11 55

11 ответов:

цитата из вступления к кандидатская диссертация Хэдли:

во-первых, вы получаете информацию в форме, которая вы можете работать с ... Во-вторых, вы построить данные, чтобы получить представление о том, что идет дальше ... В-третьих, вы повторяете между графикой и моделями для сборки краткое количественное резюме данные... Наконец, вы оглядываетесь на что вы сделали, и созерцайте какие инструменты вам нужно сделать лучше будущее

Шаг 1 почти конечно, включает в себя данные munging, и может включать в себя доступ к базе данных или веб-выскабливание. Знание людей, которые создают данные, также полезно. (Я подаю это в разделе "Сеть".)

Шаг 2 означает навыки визуализации / построения графиков.

Шаг 3 означает статистику или навыки моделирования. Поскольку это глупо широкая категория, способность делегировать моделисту также является полезным навыком.

последний шаг в основном касается мягких навыков, таких как самоанализ и тип управления умения.

навыки работы с программным обеспечением также упоминались в вопросе, и я согласен, что они очень полезны. Программное Обеспечение Производство Столярных хороший список всех основных навыков программного обеспечения вы должны иметь.

просто чтобы бросить некоторые идеи для других, чтобы изложить:

при некотором смехотворно высоком уровне абстракции вся работа с данными включает в себя следующие шаги:

  • Сбор Данных
  • Хранение/Извлечение Данных
  • Обработка Данных / Синтез / Моделирование
  • Отчет О Результатах
  • История

как минимум ученый данных должен иметь по крайней мере некоторые навыки в каждом из них области. Но в зависимости от специальности можно провести намного больше времени в ограниченном диапазоне.

JD-это здорово, и для немного более глубокого понимания этих идей прочитайте отличный пост Майкла Дрисколла три сексуальные навыки данных выродков:

  1. навык #1: Статистика (Изучает)
  2. навык #2: Munging Данных (Страдания)
  3. Навык #3: визуализация (рассказом)

At dataist вопрос решается в общем виде с хорошей диаграммой Венна:

venn diagram

JD ударил его по голове: рассказывание историй. Хотя он забыл другую важную историю: историю о том, почему вы использовали . Способность ответить на этот вопрос является самым важным навыком, который вы можете развить.

остальное просто молотки. Не поймите меня неправильно, такие вещи, как R-это здорово. R-это целый мешок молотков, но важно знать, как использовать ваши молотки и что-то еще, чтобы сделать что-то полезное.

Я думаю, что это важно иметь команду commerial базы данных или два. В финансовом мире, с которым я консультируюсь, я часто вижу DB/2 и Oracle на большом железе и SQL Server на распределенных серверах. Это значит уметь читать и писать SQL-код. Вы должны быть в состоянии получить данные из хранилища и в ваш аналитический инструмент.

с точки зрения аналитических инструментов, я считаю, что R становится все более важным. Я также думаю, что очень выгодно знать, как использовать хотя бы один другой пакет стат также. Это может быть SAS или SPSS... это действительно зависит от компании или клиента, с которым вы работаете и чего они ждут.

наконец, вы можете иметь невероятное понимание всех этих пакетов и все еще не очень ценны. Чрезвычайно важно иметь достаточный опыт в конкретной области и быть в состоянии сообщить соответствующим пользователям и менеджерам, какие проблемы связаны с вашим анализом, а также с вашими выводами.

матричная алгебра-мой лучший выбор

  • возможность совместной работы.

великая наука, почти в любой дисциплине, редко делается отдельными людьми в эти дни.

есть несколько разделов информатики, которые полезны для ученых данных, многие из них были упомянуты: распределенные вычисления, операционные системы и базы данных.

анализ алгоритмов, то есть понимание временных и пространственных требований к вычислениям, является единственной наиболее важной темой информатики для ученых, занимающихся данными. Это полезно для реализации эффективного кода, от статистических методов обучения до сбора данных; и определение ваших вычислительных потребностей, таких как объем оперативной памяти или количество узлов Hadoop.

терпение-как для получения результатов в разумной форме, а затем, чтобы иметь возможность вернуться и изменить его для того, что было "на самом деле" требуется.

изучайте линейную алгебру на MIT Open course ware 18.06 и замените свое исследование книгой "введение в линейную алгебру". Линейная алгебра является одним из основных наборов навыков в аналитике данных в дополнение к навыкам, упомянутым выше.