Кто-нибудь может объяснить, пожалуйста, интеллектуальный анализ данных, SSIS, BI, ETL и другие связанные с ними технологии?


Вчера я разговаривал с коллегой о ситуации, когда он использовал SSIS (или что-то в этом роде), чтобы сделать какую-то действительно классную вещь с пакетом SSIS, где он проходил под именем "Доктор Реджинальд Уильямс, доктор философии."и на основе некоторой схемы взвешивания система была достаточно умна, чтобы понять, как маркировать его и хранить в базе данных как "приветствие-Имя-Фамилия-суффикс". Он бросил несколько модных словечек, таких как BI, SSIS, ETL и Data mining. Я действительно хотел большего. информацию, но даже не знал, с чего начать спрашивать.

Я разработчик .Net и досконально разбираюсь в C#, Vb.Net, WPF и др... но я понятия не имею, что это за технологии, как добавить их к моим навыкам, и стоит ли мне на них сосредотачиваться. Любое направление было бы полезно.

4 10

4 ответа:

SSIS = = SQL Server Integration Services и это инструмент Extract Transform and Load (ETL), это намного превосходящая реализация того, что было Data Transformation Services или DTS в SQL7, sql2k era. Это отличный инструмент для выражения процессов рабочего процесса, в которых данные перемещаются из точки А в точку В (и c, и d и т. д.) и претерпевают изменения в ходе этого процесса, такие как консолидация в денормализованный дизайн или очистка данных.

BI или Business Intelligence-это прозвище для целого категория в мире технологий, и это отличное место, чтобы быть прямо сейчас. Навыки Би очень ценятся и трудно найти, одна из причин этого заключается в том, что трудно воссоздать истинный случай би в лаборатории, поэтому обучение почти всегда проводится в реальной ситуации.

С высокого уровня, проектов BI, как правило, связаны с конечным точки отчета. Часто как разработчики мы привыкли к написанию транзакционных отчетов, таких как детали PO, но BI может попасть в очень широкие отчеты, которые охватывайте тенденции продаж продукции на протяжении десятилетий и работайте с сотнями миллионов записей. То, как мы проектируем базы данных для приложений, не идеально подходит для такого рода отчетности, поэтому были изобретены другие инструменты и технологии, которые используются в BI-пространстве. Это такие вещи, как кубики, которые вы часто слышите под названием OLAP-кубики. Кубы OLAP обычно происходят из хранилища данных, которое является не более чем другой базой данных , но типичные хранилища содержат данные, полученные из нескольких, а часто и десятков другие базы данных приложений. Ваше приложение инвентаризации, приложение покупки, приложение HR и целая куча других содержат биты и фрагменты данных, которые создают полную картину бизнеса, архитектор BI будет использовать что-то вроде SSIS, чтобы извлечь данные из всех этих систем, массировать их и хранить в хранилище данных, которое разработано с другим дизайном, лучшим для отчетности. Как только он окажется в хранилище, он будет использовать службы Analysis services для создания кубов на основе этих данных и что-то вроде Службы Reporting Services для отображения отчетов по этим данным.

Edit: извините, забыл интеллектуальный анализ данных, это еще один неспецифический термин, который описывает и понятие или процесс, а не столько инструмент. В простом примере это методический подход к выявлению закономерностей в данных. В прошлом хороший бизнес-анализ просматривал бы данные в поисках тенденций, но с современными базами данных вы говорите о наборах данных слишком больших, чтобы вручную их прочесывать - интеллектуальный анализ данных позволяет вам поручить компьютеру прочешите эти данные и определите паттерны, представляющие интерес.

Надеюсь, что это поможет

То, что сделал ваш коллега, можно было бы лучше описать как "интеллектуальный разбор" строки. Это может быть сделано на многих уровнях сложности - например, с помощью статистических моделей, чтобы дать вам вероятность того, что" доктор " - это приветствие, а не имя. Или он мог бы просто использовать простой поисковый список общих приветствий, и в этом случае это просто обычный процедурный код, не более того.

SSIS-это сокращение от SQL Server Integration Services. Это в основном DTS на стероидах; некоторые люди любят его, и некоторые люди ненавидят его. Было бы сложно использовать это само по себе, чтобы сделать то, о чем вы говорите; это в основном просто для получения данных из различных источников, их объединения, преобразования и загрузки в другое место. Он может делать некоторые изящные вещи, многие из которых, как правило, являются интеллектуальным анализом данных, но в конечном счете это производственный инструмент для зубрежки данных в том или ином направлении. Это не особенно уважается в сообществе интеллектуального анализа данных.

Данные Майнинг-это целая академическая дисциплина, ориентированная на использование некоторого (как правило, большого) количества данных для прогнозирования будущих ответов или лучшего понимания закономерностей в существующих данных. Это определенно отличная область для изучения, но не то, что вы можете просто взять и сделать без интенсивного изучения математики и алгоритмов. Хорошей книгой на эту тему являетсяЭта .

"бизнес-аналитика" - это скорее модное слово, чем конкретная технология, и может означать разные вещи. к разным людям. В основе идея предлагает делать меньше глупостей с бизнес-данными, и в целом она относится к анализу тенденций с течением времени, часто используя OLAP. Он также может включать интеллектуальный анализ данных или алгоритмы искусственного интеллекта, но поскольку нет строгого определения, почти каждый, кто хочет продать вам что-то, скажет вам, что он предлагает "бизнес-интеллект", и надеется, что вы не будете копать дальше.

SSIS являетсяSQL Server Integration Services и полезен для выполнения ETL (извлечения, преобразования и загрузки), которые являются передним концом многих решений для хранения данных/business intelligence , интегрирующих данные в простые в использовании размерные модели. SSIS также полезен для небольших проектов как удобный способ загрузки устаревших данных или данных из других хранилищ или файлов.

Интеллектуальный анализ данных обычно подразумевает использование данных из интегрированных источников для вывода информация, которая не была бы очевидной из транзакционных данных (через интеграцию нескольких источников, дающих больше" измерений " данным.

BI-это огромная тема, поэтому она может быть не тем, на чем можно сосредоточиться, если вы не хотите попасть в эту область, но SSIS может быть полезен в небольших проектах и в любом случае стоит изучить.

Причина всех этих "новых" терминов на самом деле заключается в быстром (экспоненциальном) увеличении объема данных в мире. BI (Wikipage) тесно связан с термином "хранилище данных"(это центральная сущность в процессах BI), а также с термином "интеллектуальный анализ данных".
Больше на ЛЭП. Я бы только добавил, что SSIS является продуктом Microsoft, но есть десятки других ETL-инструментов, наиболее известными из которых являются: Informatica, Pentaho, IBM Infosphere Information Server, Oracle Data Integrator и Таленд и т. д. ETL также часто пишутся на любом языке программирования (у нас они были на Python и даже Golang).