Специалист по интеллектуальной обработке данных

Специалист по интеллектуальной обработке данных

Data Mining Specialist – человек, занимающийся работой с данными – от поиска до составления предиктивной аналитической модели. Использует набор методов и инструментов, направленный на поиск «скрытых знаний». Профессия подходит тем, кого интересует математика и информатика (см. выбор профессии по интересу к школьным предметам).

Краткое описание

Специалист по интеллектуальной обработке данных обладает глубокими знаниями в сфере математической статистики, а также владеет одним (лучше несколькими) языками программирования. Он не просто обрабатывает большие объемы информации, но и занимается поиском связей и скрытых данных (знаний), а именно:

  • данные, ранее не бывшие известными;
  • знания, которые увидеть при обычном анализе невозможно;
  • полезные и те, которые можно интерпретировать. Первые представляют практическую ценность для исследования/потребителя, вторые можно адаптировать для восприятия.

Профессия техническая, при решении поставленных задач специалист Data Mining использует методики машинного обучения и визуализации, а также деревья решений, генетические алгоритмы, нейронные сети, ассоциативные связи, кластерный анализ.Он хорошо разбирается в той области, с которой работает, правильно оценивая ее специфику, основные задачи.

Особенности профессии

Деятельность специалиста в сфере Data Mining позволяет повышать эффективность любых компаний, улучшать качество работы с клиентами, совершать научные открытия. Например, с помощью этой технологии производится анализ потребительской корзины, в результате чего повышаются как продажи, так прибыльность бизнеса. Также интеллектуальная обработка данных позволяет находить связи между взаимодействием лекарственных препаратов: побочные эффекты, аллергические реакции, одновременный прием лекарств и иные. Результаты деятельности Data Mining Specialist используются во всех отраслях нашей жизни: бизнес-процессы (сокращение рисков, аналитика), научные исследования, маркетинговые кампании, медицина, фармацевтика и т. д.

В обязанности специалиста по интеллектуальной обработке данных входит хранение и управление данными, анализ, формирования отчетов, разработка и внедрение методов машинного обучения, статистических моделей, а также создание презентаций, доступных для понимания неподготовленных людей. Это престижная и высокооплачиваемая профессия. К Data Mining Specialist выдвигаются серьезные требования, в частности безупречное знание иностранного языка, декларативного языка SQL, Python (чаще всего), ETL и другие.

Плюсы и минусы профессии

Плюсы

  1. Высокая востребованность Data Mining Specialist в узких профессиональных кругах.
  2. Широкая сфера деятельности.
  3. Достойные заработные платы, ведь в Москве гонорар специалиста Data Mining достигает 200000 руб.
  4. Профессия идеально подойдет для людей, имеющих тягу к точным и естественнонаучным дисциплинам.
  5. Достаточное количество программ подготовки в российских вузах.
  6. Перспективы развития, возможность получить работу в другой стране или компании мечта, отправиться на стажировку за границу.

Минусы

  1. Серьезная ответственность и требования, которые выдвигают работодатели.
  2. Необходимо постоянное обучение, иначе специалист достаточно быстро теряет свою профессиональную значимость.
  3. Без опыта работы очень сложно найти хорошую вакансию.
  4. Труд малоподвижный, поэтому страдает не только зрение, но и опорно-двигательный аппарат. Этот недостаток можно нивелировать с помощью регулярных прогулок и посещения спортзала, использования очков для работы за ПК.

Важные личные качества

Специалист по интеллектуальной обработке данных должен обладать большим количеством специфических черт характера, а именно:

  • интеллектуальность,
  • увлеченность,
  • аналитические способности,
  • скрупулезность,
  • обязательность,
  • контактность,
  • инициативность.

Важна грамотная речь и коммуникативные навыки, ведь нередко специалисту Data Mining приходится общаться с руководителями, сотрудниками структурных подразделений компании, а также коллегами, бизнес-партнерами.

Александр Петров, CTO E-Contenta, рассказывает, почему профессионалы в области обработки данных востребованы на рынке и где лучше работать специалистам по Big Data.

Мы живем в век информации, и ее количество растет очень быстро. Объем информации, которую потребляет современный человек за год, вскоре может оказаться больше, чем у наших предков за всю жизнь.

Данные, с которыми мы сегодня имеем дело, это не только книги, фильмы и web-страницы. Есть огромное количество данных, скрытых от конечного пользователя: ими оперируют компании. Это, например:

  • история транзакций в банках;
  • данные о местоположении и маршрутах всех машин в таксопарке;
  • данные о наблюдении за звездами и планетами в обсерватории;
  • данные с камер, установленных на улицах города для наблюдения за автомобилями
  • и многое, многое другое.

Умение правильно работать с этими данными позволяет предложить вам именно тот товар, который вы хотите, рассчитать оптимальную цену на перевозку в такси, отбраковать деталь на ранних этапах производства и в общем – сделать бизнес более эффективным.

Все больше компаний осознают этот тренд и создают у себя подразделения, специализирующиеся на данных. Также появляются новые молодые компании, работающие конкретно с данными. Так как область эта очень молодая и в вузах еще только-только начинают появляться соответствующие специализации – все это приводит к существенному недостатку специалистов на рынке, росту зарплат в области. А это, несомненно, делает профессию специалиста по работе с данными еще привлекательней.

Читайте также:  Не аттестован по предмету

В своей колонке я попытаюсь дать обзор направления обработки данных для тех, кто только начинает (или планирует начать) свой карьерный путь в этой области.

Какие есть специализации

Лично я выделил бы 3 основных направления, по которым можно развиваться в области обработки данных:

  • Data Engineer
  • Data Scientist
  • Data Manager

Рассмотрим каждое из них подробнее.

Data Engineer

Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.

Он очень уверенно владеет командной строкой, знает, как разрабатывать отказоустойчивые решения, умеет настраивать красивые графики и понимать, что все в порядке c системой. Он легко может понять, где нужно использовать традиционные подходы, а где не обойтись без методов работы с большими данными (Big Data).

Data Scientist

Data Scientist умеет находить закономерности в больших массивах данных, хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.

Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:

  • «Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
  • Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
  • Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Именно в этой области сейчас правят бал нейросети и глубокое обучение.
  • Обработка аудиосигнала – в последнее время мы все привыкли говорить «OK, Google, что идет в кино?».
  • Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.

Data Manager

Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.

Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).

Где можно работать в области обработки данных

Разберем различные типы компаний и особенности работы в них.

Крупные интернет-компании. В России это – «Яндекс», Mail.ru (и его подразделения «ВКонтакте» и «Одноклассники»), Rambler. Именно интернет-компании стоят на передовой технологий, разрабатывают новые продукты и двигают индустрию вперед. В этих компаниях вы всегда найдете коллег, у которых будет больше опыта, чем у вас – и у них будет, чему поучиться.

Тут всегда отличные условия – белая зарплата, хорошая медстраховка, уютный офис, всяческие плюшки типа бесплатного питания и помощи в приобретении жилья. Ключевые сотрудники часто могут рассчитывать на опцион, реализация которого может принести существенную прибавку к зарплате.

Но самый главный минус работы в крупных компаниях – это их размер: работа, которую выполняете конкретно вы, может быть незаметна в масштабах всей компании (особенно в начале). Для кого-то это может быть существенно – хочется понимать собственную важность.

Исследовательские подразделения крупных компаний. Сюда можно отнести банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети.

В таких компаниях работе с данными в последнее время уделяют много внимания. Поскольку, как правило, они пока находятся в начале пути – вполне вероятно, что вы получите очень большой и ответственный кусок работы. Поэтому ваш вклад может быть заметен, несмотря на размер «махин».

Минусы: в таких компаниях, как правило, очень сильна внутренняя бюрократия, и вам будет довольно тяжело согласовывать и внедрять новые технологии. По моей оценке, отделы по работе с данными в таких местах, скорее, подходят для опытных специалистов.

Условия тут, как и в крупных интернет-компаниях, хорошие: белая зарплата, страховка и различные дополнительные приятности.

Стартапы в области обработки данных. Таких стартапов сейчас довольно много, и они также ищут сотрудников. При работе в стартапе вы будете делать очень существенную и важную часть работы. Если приходите среди первых сотрудников – можно претендовать на опцион или даже долю в компании.

Читайте также:  Как узнать сколько осталось трафика на летай

К минусам можно отнести нестабильность (у стартапа могут внезапно закончиться деньги), зарплата будет зачастую серая – и, как правило, прелести вроде бесплатных обедов и помощи при покупке жилья недоступны. Зато в стартапе максимально быстро можно получить глубокие знания, а в случае успеха – еще и хорошо заработать.

Где получить знания в области обработки данных

Вузы

К сожалению, пока что в вузах очень мало обучают анализу данных. Есть несколько исключений:

Конечно, и в других учебных программах также освещаются те или иные аспекты работы с данными. Но вузовские программы, которые готовят специалистов комплексно, на этом фактически исчерпываются. Неудивительно: отрасль совершенно новая, специалистов и преподавателей нет. Вузы, где все-таки вводятся программы по обработке данных, обычно делают это в сотрудничестве с крупными компаниями (например, «Яндексом»).

Некоммерческие курсы дополнительного образования

Так как на рынке наблюдается острый дефицит кадров – некоторые компании создают собственные учебные центры. Здесь может учиться любой желающий – нужно только сдать экзамены.

В этой категории можно смотреть на следующие курсы:

  • Школа Анализа Данных «Яндекса» – самый старый и самый известный центр подготовки кадров в области анализа данных. Занятия ведут сотрудники «Яндекса», а также преподаватели лучших вузов страны. Программа рассчитана на 2 года.
  • Техносфера Mail.Ru и факультета ВМиК МГУ – во многом аналогичная программа от второго интернет-гиганта, Mail.Ru. Также рассчитаная на 2 года.
  • Технопарк Mail.Ru и МГТУ им. Баумана – в отличие от «Техносферы», эти курсы больше рассчитаны на подготовку системных инженеров, однако курсу по анализу данных там тоже нашлось место. Срок обучения – 2 года.
  • Центр компьютерных наук – совместный проект Школы Анализа Данных «Яндекса», компании Jet Brains и школы №239 в Санкт-Петербурге. Срок обучения – также 2 года.
  • Петербургская школа данных – цикл лекций, посвященный большим данным, в Петербурге. Проект компании E-Contenta.

Коммерческие курсы

Есть несколько коммерческих программ, позволяющих расширить свой кругозор в области анализа данных. Их отличительные черты – короткий срок обучения и большая направленность на прикладное применение технологий.

Тут можно вспомнить следующие проекты:

  • Курс «Специалист по большим данным» от «Лаборатории Новых Профессий». Длится 3 месяца, состоит из 2 модулей, первый из которых посвящен технологиям больших данных и машинному обучению, а второй –рекомендательным системам. Стоимость курса – 180 тысяч рублей, предусмотрены различные скидки и рассрочки.
  • «Школа данных Билайна» – курс, в первую очередь, посвящен Machine Learning Продолжительность обучения – 9 недель, стоимость – 100 тысяч рублей.

Онлайн-образование

В последнее время отрасль онлайн-образования переживает настоящий бум, и на ресурсах вроде Coursera, Edx, Stepic и Udacity можно найти огромное число курсов по обработке данных. Большинство – англоязычные (кстати, знание английского языка очень полезно в нашей области), но есть и несколько русскоязычных:

Заключение

В этой колонке я собрал актуальную на текущий момент информацию на рынке труда в области больших данных.

Смотря в будущее – нет никаких оснований полагать, что спрос на специалистов упадет в ближайшие несколько лет. Что это значит? Если вас интересует область анализа данных, то, получив образование и опыт в данном направлении, вы будете ценным специалистом на рынке труда и точно не останетесь без работы.

Надеюсь, статья помогла вам определиться со своими интересами и понять, с чего начать обучение.

Материалы по теме:

На платёжных картах «Старбакс» больше денег, чем на счетах американских банков

Большие данные должны приносить практическую пользу бизнесу – или умереть

Специалисты по big data могут зарабатывать космические суммы

Курсы и полезные ссылки по теме data science

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.

Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.

Средняя зарплата в США Data Scientist — 91 тысяча $ в год. А вот график зависимости заработка от опыта работы.


Данные PayScale

В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.

Читайте также:  Socket 754 процессоры 2 ядра

Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».

Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.

Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».

Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:

  • Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
  • Решение бизнес-задач с использованием данных.
  • Работа с различными языками программирования, включая SAS, R и Python.
  • Работа со статистикой, включая статистические тесты и распределения.
  • Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
  • Сотрудничество с ИТ и бизнесом в равной мере.
  • Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.

А вот термины и технологии, которые надо знать будущему Data Scientist:

  • Визуализация данных: представление данных в графическом формате, чтобы их можно было легко проанализировать.
  • Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
  • Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
  • Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
  • Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
  • Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.

Помимо прочего, нужно знать и понимать:

  • Статистику и машинное обучение.
  • Языки программирования SAS, R или Python.
  • Базы данных MySQL и Postgres.
  • Технологии визуализации данных и отчетности.
  • Hadoop and MapReduce.

Вот здесь можно прочитать, как Beeline проводит собеседование на Data Scientist в своей компании: «Процесс начинается с телефонного интервью с вопросами по некоторым разделам математики. После кандидата ждёт тестовая задача — конкретная задача машинного обучения, аналогичная задачам на kaggle.com. Построив хороший алгоритм и получив высокое значение метрики качества на тестовой выборке, кандидат допускается до следующего этапа — непосредственного собеседования, на котором проверяется знание методов машинного обучения и анализа данных, а также задаются нетривиальные вопросы из практики и задачи на логику».

И да, в Data Scientist можно попасть не с нуля, но с хорошей базой. Вот что пишет физик, выпустившийся из университета, и променявший науку на Big Data: «Контора, которая называется Bidgely, предложила мне позицию Data Scientist с окладом $130k в год грязными (примерно $7400 в месяц чистыми): работать в офисе, расположенном в городке Sunnyvale, что в Кремниевой Долине, в паре километров от штаб-квартир Google, Linkedin, Apple». В январе он подумал, что надо уходить в Data Science, а уже в октябре работал в США, выпустившись из университета в июне.

Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.

Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.

Ссылка на основную публикацию
Совместимость ssd с ноутбуками
Вопрос совместимости Многие пользователи интересуются совместимостью материнской платы и SSD, который они купили или хотят купить. Опыт показывает, что не...
Скрыть не интересуюсь уже купил спам мешает
"Яндекс" запустил опцию "Скрыть объявление" на сайтах входящих в Рекламную сеть Яндекса. Опция позволяет отключить показ рекламных объявлений, которые в...
Слабо работает интернет что делать
Как настроить роутер, как настроить модем, как настроить оптический терминал. Настройка роутера по http://192.168.1.1 или http://192.168.0.1 Что делать если медленно...
Совместимость ремешков apple watch
Здесь приводятся общие инструкции, которые помогут Вам снять, поменять и застегнуть ремешок. В случае смены ремешка убедитесь, что размеры используемого...
Adblock detector