Кто такой Data Scientist. Data science что это

В статье упоминается фраза Хэла Вэриана, главного экономиста Google: «В ближайшие 10 лет самая сексуальная работа — это статистика. Люди думают, что я шучу, но кто бы мог подумать, что компьютерные инженеры станут самой сексуальной профессией 90-х?».

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Наши друзья в Цехе выложили пошаговую инструкцию для начинающих в области науки о данных от Елены Герасимовой, директора по науке о данных и аналитике в Netology. Делимся с вами.

Data Science — это деятельность, связанная с анализом данных и поиском лучших решений из них. Раньше такие задачи выполняли специалисты по математике и статистике. Тогда на помощь пришел искусственный интеллект, позволивший включить в методы анализа оптимизацию и информатику. Этот новый подход оказался гораздо более эффективным.

Как строится процесс? Все начинается со сбора больших наборов структурированных и неструктурированных данных и преобразования их в удобочитаемый формат. Кроме того, используются визуализация, работа со статистикой и аналитические методы: машинное и глубокое обучение, вероятностный анализ и прогнозные модели, нейронные сети и их применение для решения реальных задач.

Пять глав­ных терминов, которые нуж­но за­пом­нить

Отличное руководство для начинающих по науке о данных: термины, применение, образование и вход в профессию

Искусственный интеллект, машинное обучение, глубокое обучение и наука о данных — основные и самые популярные термины. Они близки, но не эквивалентны друг другу. Сначала важно понять, чем они отличаются.

Искусственный интеллект — это область, посвященная созданию интеллектуальных систем, которые функционируют и действуют как люди. Его происхождение связано с появлением машин Алана Тьюринга в 1936 году. Несмотря на долгую историю развития, искусственный интеллект до сих пор не в состоянии полностью заменить человека в большинстве областей. И ИИ, конкурирующий с людьми в шахматах и ​​шифровании данных, — это две стороны одной медали.

Машинное обучение — это создание инструмента для извлечения знаний из данных. ML-модели обучаются на данных самостоятельно или поэтапно: обучение с мастером на подготовленных человеком данных и без мастера, работа со спонтанными и зашумленными данными.

Глубокое обучение — это создание многослойных нейронных сетей в областях, где требуется более продвинутый или быстрый анализ, и традиционное машинное обучение не справляется. «Глубина» обеспечивается различными скрытыми слоями нейронов в сети, которые выполняют математические вычисления.

Большие данные: работа с большим объемом данных, часто неструктурированных. Детали сферы – это инструменты и системы, способные выдерживать высокие нагрузки.

Наука о данных: в основе этой области лежит осмысление наборов данных, визуализация, сбор информации и принятие решений на основе этих данных. Специалисты по данным используют некоторые методы машинного обучения и больших данных: облачные вычисления, инструменты для создания виртуальной среды разработки и многое другое.

И это только самый краткий и поверхностный список применений науки о данных. Количество различных кейсов с использованием «науки о данных» с каждым годом увеличивается в геометрической прогрессии.

Чем занимается Data Scientist?

Специалист по данным применяет методы науки о данных для обработки больших объемов информации. Создавайте и тестируйте математические модели поведения данных. Это помогает найти в них закономерности или предсказать будущие значения. Например, на основе прошлого спроса на продукты специалист по данным может помочь компании спрогнозировать продажи в следующем году. Модели строятся с использованием алгоритмов машинного обучения, а базы данных работают через SQL.

Специалисты по данным работают везде, где есть большой объем информации: чаще всего это крупные компании, стартапы, научные организации. Поскольку методы работы с данными универсальны, для специалистов открыта любая область: от ритейла и банковского дела до метеорологии и химии. В науке они помогают делать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучение или анализируют ДНК.

  Spotify в России: как скачать и пользоваться в 2022 году. Как подключить спотифай премиум?

В крупных компаниях специалист по данным — это человек, который нужен всем отделам:

  • это поможет маркетологам анализировать данные карт лояльности и понимать, какие группы клиентов рекламировать;
  • для логистики изучит данные с GPS-трекеров и оптимизирует маршрут перевозки;
  • Поможет отделу кадров спрогнозировать, кто из сотрудников скоро уволится, анализируя их активность в течение рабочего дня;
  • с продавцами прогнозирует спрос на товары с учетом сезонности;
  • поможет юристам распознавать написанное на документах с помощью технологий оптического распознавания текста;
  • в производстве он прогнозирует оборудование на основе данных датчиков.

В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, использует технологии распознавания лиц и искусственного интеллекта.

Пример задачи:

Если специалисту по данным необходимо предсказать спрос на новую коллекцию кроссовок, то:

  • подготавливает данные о продажах кроссовок за последние годы;
  • выбрать модель машинного обучения, которая лучше всего соответствует этому прогнозу;
  • выбрать метрики, которые позволят оценить качество модели;
  • написать код модели;
  • применяет алгоритм машинного обучения к данным о прошлых продажах;
  • получает прогнозные значения и предоставляет их менеджерам для принятия решения об объеме производства кроссовок.

Что ему нужно знать?

Специалист по данным должен хорошо разбираться в математике: линейной алгебре, теории вероятностей, статистике, математическом анализе. Математические модели позволяют находить закономерности в данных и предсказывать их значения в будущем. А чтобы применить эти модели на практике, нужно программировать на Python, уметь работать с SQL, а также библиотеки (набор готовых к использованию функций, объектов и подпрограмм) и фреймворки (программное обеспечение, объединяющее готовые к использованию использовать компоненты крупного программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач специалистам по данным нужен C или C++.

Результаты анализа данных должны быть визуализированы, например, с помощью библиотек Seaborn, Plotly или Matplotlib.

Визуализация данных с Seaborn

Примером визуализации данных с помощью Seaborn является количество женщин и мужчин, переживших крушение Титаника, по возрасту. Фонтан

Искусственный интеллект фокусируется на создании технологий, которые действуют и реагируют подобно человеческому разуму. В большинстве областей ИИ пока не может полностью заменить человека.

Терминология

Для того чтобы разобраться в выбранном направлении, необходимо прежде всего уточнить некоторые термины. Они чрезвычайно важны для будущего аналитика больших данных. В результате работы вы везде найдете себя:

  1. Искусственный интеллект — это способ, с помощью которого машины учат «думать» и принимать определенные решения. Используется в персонализации, а также двойниках и имитации человеческой мысли. Некий метод автоматизации принятия решений.
  2. Машинное обучение — это процесс создания инструментов для извлечения знаний из данных. К ним относятся: распознавание изображений, рекомендательные системы, алгоритмы прогнозирования, перевод графики в текст, синтез текстовых данных.
  3. Глубокое обучение — это создание нейронных сетей многослойного типа в областях, где требуется более быстрый и продвинутый анализ. В этом случае традиционное машинное обучение не справляется с поставленными задачами. Используется в «масках» утилит, синтезе звука, голоса или изображения.
  4. BigData — это большое количество информации различного типа. Набор крупных планов невероятного масштаба неструктурированных материалов, которые постоянно и непредсказуемо поступают из источников.
  5. Data Science — это придание смысла и понимания электронным материалам, их обработка, способ найти что-то полезное в общей неструктурированной массе. Этот процесс часто включает облачные вычисления, а также инструменты для создания виртуальных сред разработки.
  Записки IT специалиста. Какое устройство на ноутбуке используется для проверки личности пользователя?

Стоит обратить внимание на то, что при рассмотрении выбранного направления пригодятся языки программирования, а также знания в области информационных технологий и IT. Детали адреса — это системы и инструменты, способные выдержать огромную нагрузку (повышенную.

Состав аналитики данных

Для того, чтобы полноценно работать в «информатике», нужно выполнить определенные действия. Процесс анализа включает в себя:

  1. Сбор информации. На этом этапе осуществляется поиск каналов, с которых будут поступать материалы.
  2. Экзамен.
  3. Анализ. Специалист должен изучить информацию, а также подтвердить имеющиеся гипотезы.
  4. Отображать. Специалисту необходимо представить результаты так, чтобы они были предельно просты для человеческого понимания. Для реализации задачи обычно используются графики и диаграммы.

Последний шаг – действие. То есть принятие решений на основе проанализированных материалов. Одним из примеров является корректировка маркетинговых стратегий по мере увеличения доходов.

Люди, решившие стать экспертами в своих областях, сегодня высоко ценятся. Но не совсем понятно, кто они и чем занимаются эти «ученые». Эта статья раскроет секрет науки о данных.

Что нужно уметь?

Программировать на Python

Знание основ программирования будет большим преимуществом. Но это достаточно большая и сложная область, и чтобы немного облегчить изучение, можно сосредоточиться на одном языке. Python идеально подходит для начинающих: он имеет относительно простой синтаксис, многофункционален и часто используется для манипулирования данными.

Связанные книги:

  • Python для сложных задач. Наука о данных и машинное обучение, Дж. Вандер Плас: Руководство по статистическим и аналитическим методам обработки данных;
  • «Python and Data Science» Уэса МакКинни: руководство по использованию Python в науке о данных;
  • Книга Эла Свейгарта «Автоматизация рутинных задач с помощью Python» представляет собой хорошую практическую основу для начинающих.
  • Learning Python by M. Lutz — это учебник с практическим подходом, который подходит как для начинающих, так и для опытных разработчиков.

После того, как вы изучите основы Python, вы можете ознакомиться с библиотеками Data Science.

Машинное обучение и глубокое обучение:

Обработка естественного языка:

Собирать данные

Интеллектуальный анализ данных — важный аналитический процесс, предназначенный для изучения данных. Он позволяет находить скрытые закономерности и получать ранее неизвестную полезную информацию, необходимую для принятия любого решения. Сюда же относится визуализация данных: представление информации в понятном графическом виде.

Связанные книги:

  • «Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP» Степаненко В.В., Холод И.И.: описание методов обработки данных с примерами;
  • Обработка данных. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub», М. Рассел. М. Классен — книга, обучающая практическим методам анализа данных на примере популярных социальных сетей.

Хорошая стратегия — получить опыт работы с данными в онлайн-университете, а затем решать более сложные практические задачи на стажировке в компании.

Что дальше?

Изучив основы и пройдя всевозможные курсы по науке о данных, попробуйте свои силы в открытых проектах или конкурсах, а затем приступайте к поиску работы.

Как вы уже поняли, изучение Data Science с нуля — это не просто теория. Для практического опыта хорошо подходит Kaggle, веб-сайт, на котором постоянно проводятся конкурсы по анализу данных, в которых участвует каждый. Также существует множество открытых наборов данных: вы можете их анализировать и публиковать свои результаты. Также изучите работу других участников на Kaggle и учитесь на их опыте.

Чтобы подтвердить свою квалификацию, зарабатывайте баллы за участие в соревнованиях Kaggle и публикуйте свои проекты на GitHub. Главное не переставать учиться и получать удовольствие от того, что делаешь.

Специалисты, интересующиеся аналитикой и машинным обучением, имеют возможность получить знания, необходимые для профессионального роста. Для этого существует так называемая стажировка. Называется САС.

Как работают дата-сайентисты

Для работы с данными дата-сайентисты используют широкий набор инструментов: пакеты статистического моделирования, различные базы данных, специальное программное обеспечение. Но, самое главное, они используют технологии искусственного интеллекта и создают модели машинного обучения (нейронные сети), которые помогают компаниям анализировать информацию, делать выводы и прогнозировать будущее.

  Лу Бань. Что изобрел знаменитый плотник лу бань

Каждую из этих нейронных сетей нужно спланировать, построить, протестировать, внедрить и только потом приступать к обучению. «Сейчас, по нашим оценкам, в процессе работы над ИИ-решениями только 30% времени специалистов уходит на обучение моделей. Все остальное — подготовка к этой и другим рутинам», — говорит Давид Рафаловский, технический директор Группы Сбербанк, исполнительный вице-президент, руководитель блока «Технологии.

Фото: Unsplash

Anaconda, компания, разрабатывающая продукты для работы с данными, приводит еще более печальную статистику. Их опросы показывают, что в среднем почти половину времени (45%) специалисты тратят на подготовку данных, то есть на их загрузку и очистку. Еще треть уходит на визуализацию данных и выбор модели. Только 12% и 11% рабочего времени тратится на обучение и развертывание соответственно.

Дата-сайентисты в облаках

Специальные облачные платформы помогают облегчить и ускорить работу по сбору данных, построению и развертыванию моделей. Именно облачные платформы для машинного обучения стали самым актуальным трендом в Data Science. Поскольку речь идет об огромных объемах информации, сложных моделях машинного обучения, готовых и доступных инструментах для работы с распределенными командами, специалистам по данным нужны были гибкие, масштабируемые и доступные ресурсы.

Именно для специалистов по данным облачные провайдеры создали платформы, ориентированные на подготовку и запуск моделей машинного обучения и работу с ними в большей степени. До сих пор таких решений немного, и одно из них создано полностью в России. В конце 2020 года Sbercloud представил ML Space — облачную платформу полного цикла для разработки и внедрения ИИ-сервисов. Платформа содержит набор инструментов и ресурсов для построения, обучения и развертывания моделей машинного обучения, от быстрого подключения к источникам данных до автоматического развертывания обученных моделей на динамически масштабируемых облачных ресурсах SberCloud.

Фото: Shutterstock

Теперь ML Space — единственный в мире облачный сервис, позволяющий проводить распределенное обучение на более чем 1000 графических процессорах. Такую возможность предоставляет собственный облачный суперкомпьютер SberCloud Christofari. Запущенный в 2019 году, Christofari сейчас является самым мощным вычислительным кластером России и занимает 40-е место в мировом рейтинге суперкомпьютеров TOP500

Платформу уже используют команды разработчиков экосистемы Сбера. Именно с его помощью было запущено семейство виртуальных помощников «Салют». Более 70 различных моделей ASR (автоматического распознавания речи) и большое количество моделей преобразования текста в речь были обучены для их создания с использованием Christofari и ML Space. Теперь ML Space доступен для любых коммерческих пользователей, образовательных и научных организаций.

«ML Space — это настоящий технологический прорыв в области искусственного интеллекта. По ряду ключевых параметров ML Space уже превосходит лучшие решения в мире. Я считаю, что на сегодняшний день ML Space — одна из лучших облачных платформ для машинного обучения в мире. Он предоставляет опытным специалистам по данным новые удобные инструменты, возможность распределенной работы, автоматизацию создания, обучения и развертывания моделей ИИ. Компаниям и организациям, не имеющим сильного опыта в области машинного обучения, ML Space впервые дает возможность использовать ИИ в своих продуктах, приложениях и рабочих процессах», — говорит Отари Меликишвили, руководитель отдела разработки облачных ИИ-продуктов SberCloud.

Облако помогает рынку все больше осваивать платформы данных, предлагая неограниченную вычислительную мощность, подтверждают аналитики Mordor Intelligence.

По мнению экспертов Anaconda, компании и самим специалистам потребуется время, чтобы созреть в широком использовании инструментов DS и получить результаты. Но прогресс уже налицо. «Мы ожидаем, что в течение следующих двух-трех лет наука о данных продолжит двигаться вперед и станет стратегической бизнес-функцией во многих отраслях», — прогнозирует компания.

Оцените статью
Бизнес блог