Вышка предлагает программу получения степени по специальности «Наука о данных». Вступительные требования на программу ниже, чем в классических университетах — вам нужно сдать только математику (хотя и на английском языке). Курсы проводятся на двух языках.
Что выбрать, чтобы стать дата-сайентистом: самообразование, онлайн-курсы или вуз?
Чтобы стать специалистом по изучению данных, вы можете читать книги, поступить в университет или пройти хороший курс. Мы расскажем вам о плюсах и минусах всех этих вариантов и посоветуем, с чего начать.
Что такое Data Science?
Data Science — это наука о данных. Его методы позволяют обрабатывать большие объемы информации. Специалист по исследованию данных создает различные модели, находит неочевидные закономерности и делает прогнозы на основе их результатов.
Специалисты по изучению данных нужны везде, где можно извлечь большие объемы информации: в крупных компаниях, стартапах, научных организациях. Методы науки о данных широко используются в розничной торговле, банковском деле, медицине, метеорологии и химии.
Для специалиста по исследованию данных важно хорошо разбираться в математике: линейной алгебре, теории вероятности, статистике и математическом анализе. Чтобы применять математические модели на практике, необходимо владеть языками Python и SQL и уметь работать с библиотеками и фреймворками машинного обучения. Для более сложных задач вам понадобится C или C++.
Больше инфо: Data Scientist — гид по профессии.
Изучать самостоятельно
Преимущества:
? Практически не требует финансовых вложений (за исключением того, что вам нужно будет купить несколько учебников),
? Вы можете выбрать время, продолжительность и темп обучения.
Недостатки:
? Отсутствие знакомства с профессиональной жизнью (может быть компенсировано онлайн-чатами для начинающих, как этот),
? ? нет возможности оценить актуальность знаний,
? высокий риск отсева после начала учебы.
Перед учеными, изучающими данные, стоят действительно сложные задачи. Научитесь создавать искусственный интеллект, обучать нейронные сети, менять мир и одновременно зарабатывать хорошие деньги. Программа рассчитана на начинающих и плавно вводит вас в Data Science.
Шаг 1. Мониторим рынок
Первый шаг — выяснить, каких навыков ожидает от сотрудника ваш идеальный работодатель. Основы — это вероятность, продвинутая математика и статистика.
Затем идут навыки, которые непосредственно связаны с работой. В основном это основы программирования на Python и работа с библиотеками Pandas и NumPy. А также: загрузка баз данных с помощью SQL, работа с файлами, HTML-страницами и API.
Будущие специалисты по работе с данными должны понимать, как машинное обучение может быть использовано для решения бизнес-задач и что это такое (машинное обучение — это метод разработки алгоритмов, которые помогают решать проблемы путем поиска закономерностей в различных данных).
Шаг 2. Получаем базовые знания
Конечно, это будет трудно для
Чтобы работать специалистом по исследованию данных, необходимо хорошо знать математику, быть знакомым со статистическим анализом, программированием и прогнозированием, а также разбираться в конкретной сфере бизнеса. Последний пункт является необязательным, а профессия считается универсальной. Однако эксперт, знающий суть бизнес-процессов в конкретной области, более ценен для компании, поскольку способен сделать более логичные выводы из анализа.
- «(Не)совершенная случайность», Леонард Млодинов. Увлекательная книга о теории вероятности, роли случая и закономерности в нашей жизни.
- «Голая статистика», Уилан Чарльз. Автор доказывает, что статистика — совсем не скучная, и на живых примерах конкретных компаний объясняет, как работают большие данные.
- YouTube-канал с анимированными роликами, объясняющими основные законы математики.
- «О чем говорят цифры», Том Дэвенпорт и Ким Джин Хо. Книга о том, как сбор данных пригождается в реальной жизни и бизнесе.
Предоставить гарантию занятости
- «Изучаем Python», Марк Лутц. Самая подробная книга об основах этого языка программирования.
- Python Tricks, Дэн Бейдер. Автор пишет о хитрых трюках, которые стоит изучить, если вы хотите программировать быстрее.
- Real Python Tutorials. Сайт для изучения Python с нуля: классные мультики и постепенное погружение.
- Портал, где можно найти информацию по всем основным вопросам, которые возникают в начале пути.
- «Python. К вершинам мастерства», Лучано Рамальо. Отлично подходит для аналитиков — как начинающих, так и продвинутых.
- «Искусственный интеллект с примерами на Python», Пратик Джоши. Подойдет для начинающих погружение в Machine Learning.
Предлагают стажировки и опыт работы в крупных компаниях
- Numsense! Data Science for the Layman, Су Кеннет, Анналин Ын. Авторы описывают основные принципы работы с большими данными.
- Data Science from Scratch, Грас Джоэл. В этом пособии описаны программные библиотеки, модули, пакеты инструментов и основные платформы. Подходит для начинающих.
- Библиотека материалов по Pandas от канала DataLytics, Алексей Макаров.
- Статья, в которой рассматриваются плюсы и минусы популярных сервисов бизнес-аналитики: Power BI, Qlik Sense, Tableau.
- «SQL для простых смертных», Мартин Грабер. Это пособие для тех, кто никогда не работал с базами данных. Все объясняется пошагово и доступно.
Data Scientist – кто это?
Различия с соседними профессиями:
Предупреждение. Профессия Data Scientist может называться по-разному в разных компаниях при поиске сотрудника: Data Scientist, Researcher, Software Analyst, Statistician, Mathematical Programmer, Data Analyst, Research Analyst, Data Analyst, Big Data (Big Data) Specialist.
- объем исследуемых данных;
- глубина анализа;
- цель исследования;
- используемые инструменты.
Зарплата специалиста по анализу данных на рынке труда зависит в основном от опыта и уровня квалификации. Кроме того, на повышение зарплат влияет и тот факт, что на рынке по-прежнему не хватает квалифицированного персонала.
Согласно статистике сайта habr, максимальная зарплата data scientist в России (точнее, в Москве) во второй половине 2019 года составила 225 000 рублей в месяц. Более подробную информацию можно найти в таблице.
Где обучаться Data Scientist?
Примерные зарплаты Data Scientists во второй половине 2019 года:
На заработную плату специалистов по анализу данных влияют:
В список профессиональных обязанностей ученого по Big Data в основном входят следующие:
- бизнес-аналитик обычно не умеет работать с очень большими массивами данных, для этого нужны специальные программные инструменты;
- программист не всегда способен разработать адекватную данным модель, а тем более увидеть полезные конкретному бизнесу закономерности.
Для качественной работы необходимо знать:
Зарплата Data Scientist
Интересно. Результаты работы специалиста по анализу данных могут варьироваться от создания системы рекомендаций продуктов на основе поведения клиентов до системы самоуправляемого автомобиля. Все это, конечно же, начинается с добычи данных или data mining.
Это еще одна сертификационная программа, которую также нельзя назвать программой, направленной исключительно на Data Science. Вместо этого она нацелена на довольно узкую тему в контексте науки о данных. Речь идет о машинном обучении. Многие исследователи данных настолько привыкли работать с Jupyter Notebook (который преподается в большинстве курсов DS), что создание моделей в продакшене и развертывание их в веб- или мобильной среде может вызвать у них большие трудности. Поэтому тем, кто работает в области науки о данных, очень полезно познакомиться с практическим применением моделей, что расширит их кругозор и сделает их работу более эффективной.
Эти темы рассматриваются на экзамене:
Формулировка задач машинного обучения.
- страна: в США зарплаты выше, чем в России, например; зарплаты специалистов Data Scientists доходят до 9 936 000 рублей (138 000$) в год или 828 000 рублей в месяц, а у программистов средняя зарплата 4 680 000 — 5 760 000 рублей (65 000 — 80 000$) в год, исследование проводила компания O’Reilly Media;
- регион и город: в Москве заработок более привлекателен, чем на периферии РФ;
- компания: самые высокие ЗП IT-специалистам сейчас предлагает Ozon;
- способ предоставления услуг: на фрилансе зарплата может быть ниже.
- дополнительные знания в этой области, например, знания методов статистического анализа данных или же построения математических моделей
Чем занимаются и что делают Data Scientist?
Общая информация об экзамене:
- Сбор данных. Специалист ищет каналы, где можно собрать необходимую информацию, и изучает возможности ее получения из найденных источников.
- Проверка. Данные валидируют, проверяют на наличие аномалий, и отсекают слишком неадекватные значения, которые могут сбить с толку при последующем анализе.
- Анализ. Поиск закономерностей, изучение их, подтверждение поставленных гипотез или их опровержение, выводы.
- Визуализация. Презентация результатов анализа в том виде, в котором ее с легкостью поймет обычный человек. Для этого используют графики и диаграммы, например.
- Действие. Использование результатов анализа и его выводов для оптимизации деятельности предприятия. Принятие решений о корректировке, например, маркетинговой или финансовой стратегии, увеличении размеров финансирования какого-либо бизнес-направления компании.
Это уже не просто программа сертификации. Это серия учебных курсов, где вы можете изучить то, что будет проверяться на экзамене. Эта программа сертификации, в отличие от предыдущих программ, сосредоточена исключительно на самой науке о данных. И это, конечно, тема, которая нас особенно интересует. Еще одной ценной особенностью этой программы является то, что она была разработана компанией IBM, и вы можете пройти ее на платформе Coursera. Обе компании очень известны и имеют хорошую репутацию.
- основы статистики и способы использования машинного обучения;
- базы данных MySQL и Postgres;
- Hadoop and MapReduce.
- технологии визуализации данных и отчетности;
- языки программирования SAS, Java (Hadoop), MapReduce, Python или R.
Вот 10 курсов, которые входят в учебную программу:
Google Data Machine Learning Engineer
Общая информация о курсе:
Как видите, в данном обзоре представлены программы сертификации ведущих компаний на рынке информационных технологий. Microsoft — одна из них. Учеба, работа и пробы в одной из этих компаний могут быть полезны для вашей карьеры в качестве специалиста по анализу данных. Представленная здесь программа выглядит как смесь этих программ, о которых мы говорили выше. С одной стороны, это сертификация, но с другой стороны, можно учиться и до сертификации, либо самостоятельно и бесплатно, либо с инструктором и платно.
-
Вот темы, которые фигурируют на экзамене:
- Преобразование задач бизнеса в задачи машинного обучения с использованием инструментов наподобие AutoML. Определение типа задачи (например — задача классификации или кластеризации), выявление ключевых метрик качества модели.
- Масштабирование решений с использованием инструментов наподобие Kubeflow, конструирование признаков, автоматизация, оркестрация, мониторинг.
- Разведочный анализ данных, визуализация данных и получение статистических сведений о них, очистка и проверка наборов данных, создание учебных наборов данных, работа с отсутствующими значениями, со значениями, значительно отличающимися от других, с утечками данных.
- Использование различных форматов данных для обучения моделей, в том числе — CSV, JSON, Apache Parquet. Применение баз данных. Знание специфических концепций наподобие настройки гиперпараметров и распределённого обучения моделей.
- Проектирование обучающих конвейеров, использование платформ наподобие Cloud Compose и Apache Airflow.
- Стратегии логирования моделей, переобучение моделей, оптимизация производительности моделей, оптимизация конвейеров машинного обучения.
Управление ресурсами Azure для машинного обучения.
- Длительность: 2 часа.
- Стоимость: $200.
- Язык: английский.
- Тип вопросов: вопросы с несколькими вариантами ответа.
- Способ проведения: онлайн-экзамен или обычный экзамен с контролем хода экзамена.
IBM Data Science Professional Certificate
Да, но бояться не стоит. Python — простой язык, и в библиотеках кода есть много примеров различных задач. Он очень прост в использовании. Часто студенты приходят к нам, думая, что с человеческой точки зрения они не способны к программированию, но с Python может справиться любой, особенно на начальном уровне.
В России можно работать в области Data Science без знания английского языка. С переводчиком вы можете покорять горы. Тем не менее, основные статьи о новых моделях и методах публикуются на английском языке, поэтому время от времени он будет вам необходим, чтобы освежить свои знания. Что касается рабочего программного обеспечения, то его интерфейс не сложнее обычного Microsoft Word — даже с английским языком проблемы вряд ли возникнут.
- Что такое наука о данных?
- Инструменты науки о данных.
- Методология науки о данных.
- Использование Python в рамках науки о данных для искусственного интеллекта и разработки.
- Python-проект из сферы науки о данных.
- Применение баз данных и SQL с использованием Python для целей науки о данных.
- Анализ данных с использованием Python.
- Визуализация данных с использованием Python.
- Машинное обучение с использованием Python.
- Заключительный курс по теме «Прикладная наука о данных».
Наука о данных — это область с высокими зарплатными ожиданиями. На самом деле, работа специалистов по анализу данных очень хорошо оплачивается. На этапе стажировки можно получить 40-50 тысяч рублей, на низшей позиции — от 60 до 120 тысяч, на средних уровнях можно заработать до 180 тысяч рублей, а дальше цифры сильно варьируются в зависимости от города или компании.
- Способ проведения курсов: полностью дистанционно.
- Уровень слушателей: начальный.
- Расписание занятий: гибкое.
- Длительность: обычно — 11 месяцев (это долго, но речь идёт не только о сертификации, но и об обучении).
- Язык: английский — с субтитрами на английском, арабском, французском, португальском (европейский вариант), итальянском, вьетнамском, немецком, русском, испанском, персидском, турецком.
Microsoft Certified Azure Data Scientist Associate
Многие люди хотят самостоятельно заняться наукой о данных, не имея образования в области математики или программирования. Почти все материалы вы можете найти самостоятельно в Интернете. Однако, не имея опыта в этой области, очень трудно создать программу обучения, которая охватывала бы все важные этапы. Существует высокий риск того, что некоторые темы будут упущены, что повлияет на ваш поиск работы.
Как видите, в данном обзоре представлены программы сертификации ведущих компаний на рынке информационных технологий. Microsoft — одна из них. Учеба, работа и пробы в одной из этих компаний могут быть полезны для вашей карьеры в качестве специалиста по анализу данных. Представленная здесь программа выглядит как смесь этих программ, о которых мы говорили выше. С одной стороны, это сертификация, но с другой стороны, можно учиться и до сертификации, либо самостоятельно и бесплатно, либо с инструктором и платно.
-
Преимуществом курса Skillfactory является его практическая значимость. Мы стараемся сделать курс максимально ориентированным на применение, чтобы через 12 месяцев вы могли
- Создание рабочей области Azure Machine Learning, управление данными, возможность выполнять вычисления для экспериментов, безопасность, управление доступом, настройка окружения разработки.
- Создание моделей с помощью визуальных средств, запуск скриптов обучения моделей, создание метрик, работа с моделями.
- Выбор модели развёртывания, развёртывание моделей как сервисов, управление моделями, создание конвейеров, публикация конвейеров в виде веб-сервисов, применение практик MLOps.
- Использование средств интерпретации моделей, оценка справедливости моделей, учёт соображений приватности при работе с моделями.
Обязательно ли учить Python
Цены на университетские программы по data science могут достигать полумиллиона рублей. Конечно, вы можете либо подать заявку на должность, финансируемую государством, либо изучать науку о данных самостоятельно, с помощью бесплатных курсов на Coursera и других доступных материалов. Однако при втором варианте отсутствует человеческий контроль и обратная связь с профессором. Онлайн-курс — отличная альтернатива: справедливая цена и все знания, необходимые для выполнения работы.
Для еще большей практики вы можете посетить Kaggle — платформу, на которой проводятся соревнования по машинному обучению. Компания ставит задачи перед специалистами по обработке данных, и тот, кто решит их быстрее и лучше, получает денежное вознаграждение и, возможно, работу. Kaggle также очень хорошо отражает потребности рынка и показывает, сколько компании готовы платить. На Skillfactory мы также организуем подобные соревнования, чтобы студенты привыкали к темпу работы.