Проекты упорядочены по ходу обучения
1. Исследование надёжности заёмщиков — анализ банковских данных // (Описание практикума)
2. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости // (Описание практикума)
3. Определение выгодного тарифа для телеком компании // (Описание практикума)
4. Изучение закономерностей, определяющих успешность игр // (Описание практикума)
5. Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей // (Описание практикума)
6. Оптимизация маркетинговых затрат в Яндекс.Афише // (Описание практикума)
7. Проверка гипотез по увеличению выручки в интернет-магазине — оценить результаты A/B теста // (Описание практикума)
8. Исследования рынка общепита в Москве для принятия решения об открытии нового заведения // (Описание практикума)
9. Анализ пользовательского поведения в мобильном приложении // (Описание практикума)
10. Создание дашборда по пользовательским событиям для агрегатора новостей // (Описание практикума)
11. Прогнозирование вероятности оттока пользователей для фитнес-центров // (Описание практикума)
12. Выпускной проект - Поведения пользователей в мобильном приложении
(Проекты лучше смотреть по ссылке на "nbviewer.jupyter.org", так как на GitHub приходится перезагружать и может не отображаться часть графиков)
- 1_Project_2020-11_Предобработка данных_Исследование надёжности заёмщиков.ipynb;
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных – пропуски, корректировка типов, дубликаты, выбросы, строковые аномалии, категоризация.
- Анализ данных – зависимости, корреляции
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
2. Исследовательский анализ данных - "Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости"
Визуализация данных с помощью гистограмм и ящиков с усами. Изучение срезов данных. Нахождение взаимосвязей разных параметров в данных. Объединение таблиц. Получение выводов по сгруппированным данным.
- " 2_Project_2020-11_Исследовательский анализ_Исследование объявлений о продаже квартир.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных
- Анализ данных
- работа с инструментами для построения графиков: hist(), boxplot(), plot()
- выборка срезов данных
- методы join() и merge() для объединения таблиц
- Поиск и интерпритация взаимосвязи различных данных
- автоматизация процесса построения набора графиков
Исследование объявлений о продаже квартир
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.
Изучение объектов и их взаимосвязей методами статистики. Выборки и статистическая значимость. Выявление и обработка аномалий. Проект. Проанализировать тарифы федерального оператора сотовой связи.
- " 3_Project_2020-12_Статистический анализ_Определение перспективного тарифа для телеком компании.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных
- Анализ данных
- Выбор оптимальных метрик для описания данных
- оценка дискретных и непрерывных величин при помощи гистограмм разных типов
- делать выводы о данных по статистическим показателям
- основы теории вероятностей
- определять тип распределения, рассчитет нормального и биномиального
- построение и проверка статистических гипотез
Определение перспективного тарифа для телеком компании
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.
Подготовка данных для анализа. Предварительное исследование датасета. Формулирование и проверка гипотез.
- " 4_Project_2020-12_Сборный проект_1.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных
- Анализ данных
- построение и проверка статистических гипотез
Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и вы планируете кампанию на 2017-й. Нужно отработать принцип работы с данными. Неважно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.
В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».
5. Сбор и хранение данных - "Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей"
Интернет как источник данных для анализа. Форматы представления данных. Технология HTTP API. Библиотека BeautifulSoup. Знакомство с реляционными базами данных. Обработка данных скриптами на языке SQL. Операторы Select и Join. Операции с базой: импорт и экспорт данных. Проект. Извлечь данные из базы и дать сводку операционной эффективности интернет-магазина в двух городах за последний месяц.
- " 5-1_Project_2021-01_Сбор и хранение данных_Парсинг сайта.ipynb "
Посмотреть проект через - nbviewer.jupyter.org - " 5-2_Project_2021-01_Сбор и хранение данных__SQL-запросы.ipynb "
Посмотреть проект через - nbviewer.jupyter.org - " 5-3_Project_2021-01_Сбор и хранение данных_Аналитика в авиакомпании.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных
- Анализ данных
- Парсинг сайтов
- Написание регулярных выражений
- Написание SQL-запросов разной сложности
- SQL - срезы данных и составлeние подзапросы
- SQL - агрегирующие функции
- SQL - объединение таблиц
Вы аналитик компании «F9» — это российская авиакомпания, выполняющая внутренние пассажирские авиаперевозки. Сотни перелётов каждый день. Важно понять предпочтения пользователей, покупающих билеты на те или иные направления.
Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие фестивали.
Аналитический подход к бизнесу. Бизнес-метрики и KPI. Анализ пользовательских данных. Маркетинговая аналитика и её инструменты. Воронка продаж. Проект. Провести анализ метрик видеосервиса (DAU,WAU,MAU / LTV,CAC,ROMI / Retention Rate). Выбрать стратегически важные метрики для развития сервиса на следующий год.
- " 6_Project_2021-01_Анализ бизнес-показателей и Юнит-экономика.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных
- Анализ данных
- Рассчёт ASL, DAU, WAU и MAU и средних(+медианных) показателей
- Когортный анализ
- Расчет LTV,CAC,ROMI и Retention Rate
- построение HeatMap
Вас пригласили на стажировку в отдел маркетинговой аналитики Яндекс.Афиши. Первое задание: помочь маркетологам снизить расходы — отказаться от невыгодных источников трафика и перераспределить бюджет.
Есть данные Яндекс.Афиши с июня 2017 по конец мая 2018 года:
- лог сервера с данными о посещениях сайта Яндекс.Афиши,
- выгрузка всех заказов за этот период,
- статистика рекламных расходов.
Вам предстоит изучить:
- как клиенты пользуются сервисом,
- когда делают первые покупки на сайте,
- сколько денег приносит компании каждый клиент,
- когда расходы на привлечение клиента окупаются.
7. Принятие решений в бизнесе на основе данных - "Проверка гипотез по увеличению выручки в интернет-магазине — оценика результатов A/B теста"
Методы и инструменты проверки гипотез. Проектирование экспериментов. Сезонность. Когортный анализ. A/B-тестирование. Проект. Проверить гипотезы по увеличению выручки для крупного интернет-магазина: осуществить приоритизацию, провести A/B-тест и проанализировать результаты.
- " 7_Project_2021-02_Решения в бизнесе_Проверка статистических гипотез.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных
- Анализ данных
- Примение фреймворков ICE/RICE для приоритизации гипотез
- Расчет и анализ показателей: кумулятивной выручки, среднего чека и конверсии; а также относительного изменения среднего чека и конверсии
Вы — аналитик крупного интернет-магазина. Вместе с отделом маркетинга вы подготовили список гипотез для увеличения выручки.
Приоритизируйте гипотезы, запустите A/B-тест и проанализируйте результаты.
Часть 1. Приоритизация гипотез.
В файле /datasets/hypothesis.csv 9 гипотез по увеличению выручки интернет-магазина с указанными параметрами Reach, Impact, Confidence, Effort.
Задача:
- Примените фреймворк ICE для приоритизации гипотез. Отсортируйте их по убыванию приоритета.
- Примените фреймворк RICE для приоритизации гипотез. Отсортируйте их по убыванию приоритета.
- Укажите, как изменилась приоритизация гипотез при применении RICE вместо ICE. Объясните, почему так произошло.
Часть 2. Анализ A/B-теста
Вы провели A/B-тест и получили результаты, которые описаны в файлах /datasets/orders.csv и /datasets/visitors.csv.
Проанализируйте A/B-тест и Сделайте выводы и предположения:
- Постройте график кумулятивной выручки по группам.
- Постройте график кумулятивного среднего чека по группам.
- Постройте график относительного изменения кумулятивного среднего чека группы B к группе A.
- Постройте график кумулятивной конверсии по группам.
- Постройте график относительного изменения кумулятивной конверсии группы B к группе A.
- Постройте точечный график количества заказов по пользователям.
- Посчитайте 95-й и 99-й перцентили количества заказов на пользователя. Выберите границу для определения аномальных пользователей.
- Постройте точечный график стоимостей заказов.
- Посчитайте 95-й и 99-й перцентили стоимости заказов. Выберите границу для определения аномальных заказов.
- Посчитайте статистическую значимость различий в конверсии между группами по «сырым» данным.
- Посчитайте статистическую значимость различий в среднем чеке заказа между группами по «сырым» данным.
- Посчитайте статистическую значимость различий в конверсии между группами по «очищенным» данным.
- Посчитайте статистическую значимость различий в среднем чеке заказа между группами по «очищенным» данным.
**Примите решение по результатам теста и объясните его. **
8. Как рассказать историю с помощью данных - "Исследования рынка общепита в Москве для принятия решения об открытии нового заведения"
Презентация результатов аналитического исследования. Способы наглядного представления данных. Создание отчётов, объясняющих выводы аналитика. Библиотека Seaborn. Проект. Вы решили открыть небольшое кафе в Москве. Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.
- " 8_Project_2021-02_Визуализация данных_Рынок общепита Москвы.ipynb "
Посмотреть проект через - nbviewer.jupyter.org - " 8_Project_2021-02_Презентация.pdf "
Ссылка на Презентацию
- Предобработка данных
- Анализ данных
- Визуализация данных с помощью
seaborn - Визуализация данных с помощью
matplotlib - Визуализация данных с помощью
plotly - Подготовка презентации
Вы решили открыть небольшое кафе в Москве. Оно оригинальное — гостей должны обслуживать роботы. Проект многообещающий, но дорогой. Вместе с партнёрами вы решились обратиться к инвесторам. Их интересует текущее положение дел на рынке — сможете ли вы снискать популярность на долгое время, когда все зеваки насмотрятся на роботов-официантов? Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.
Получение данных из базы. Предобработка и обзор датасета. Формулирование гипотез с учётом специфики бизнеса. Проверка гипотез и подготовка выводов в формате аналитического отчёта.
- " 9_Project_2021-03_Сборный проект_Воронки и AB-tests.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Предобработка данных – пропуски, корректировка типов, дубликаты, выбросы, строковые аномалии.
- Анализ данных – зависимости, корреляции
- Анализ воронки событий
- Проведение и анализ A/A и A/B тестов
Описание проекта Вы работаете в стартапе, который продаёт продукты питания. Нужно разобраться, как ведут себя пользователи вашего мобильного приложения.
Изучите воронку продаж. Узнайте, как пользователи доходят до покупки. Сколько пользователей доходит до покупки, а сколько — «застревает» на предыдущих шагах? На каких именно?
После этого исследуйте результаты A/A/B-эксперимента. Дизайнеры захотели поменять шрифты во всём приложении, а менеджеры испугались, что пользователям будет непривычно. Договорились принять решение по результатам A/A/B-теста. Пользователей разбили на 3 группы: 2 контрольные со старыми шрифтами и одну экспериментальную — с новыми. Выясните, какой шрифт лучше.
Создание двух групп A вместо одной имеет определённые преимущества. Если две контрольные группы окажутся равны, вы можете быть уверены в точности проведенного тестирования. Если же между значениями A и A будут существенные различия, это поможет обнаружить факторы, которые привели к искажению результатов. Сравнение контрольных групп также помогает понять, сколько времени и данных потребуется для дальнейших тестов.
В случае общей аналитики и A/A/B-эксперимента работайте с одними и теми же данными. В реальных проектах всегда идут эксперименты. Аналитики исследуют качество работы приложения по общим данным, не учитывая принадлежность пользователей к экспериментам.
Автоматизация процессов анализа данных. Потоковые аналитические решения. Регистрация событий в логах, создание регулярных отчетов. Дашборды. Мониторинг. Проект. Собрать систему метрик для мониторинга продуктовой эффективности сервиса доставки еды и настроить для них аналитический дашборд с несколькими источниками данных.
- " 10_Project_2021-03_Автоматизация_Выгрузка из БД.ipynb " Подключение к базе данных (+ предобработка/проверка) и выгрузка данных для дашборда
Посмотреть проект через - nbviewer.jupyter.org - ссылка на дашборд на сайте Tableau Public;
Дашборд для Яндекс.Дзен - Ссылка на сайте Tableau - " 10_Project_2021-03_Презентация - Анализ взаимодействия пользователей с карточками Яндекс.pdf "
открыть_Презентацию
Библиотеки: pandas / numpy / sys / getopt / datetime / dash / dash_core_components / dash_html_components / plotly / sqlalchemy
- Написание Python-скриптов и автоматический запуск
- Работа с командной строкой (PowerShell / Bash)
- Настройка расписания запуска скриптов
- Работа в сервисе Яндекс.Облако (работа с удаленной виртуальной машиной)
- Построение пайплайнов и дашбордов
- Работа с Tableau
- Создание основных типов графиков в библиотеке dash
- «Верстание» дашбордов на HTML
- Подготовка презентации
Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.
Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».
Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».
Есть три способа взаимодействия пользователей с системой:
• Карточка отображена для пользователя (show);
• Пользователь кликнул на карточку (click);
• Пользователь просмотрел статью карточки (view).
Каждую неделю менеджеры задают вам одни и те же вопросы:
• Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
• Как много карточек генерируют источники с разными темами?
• Как соотносятся темы карточек и темы источников?
Процесс пора автоматизировать - нужно сделать дашборд.
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан для вас дата-инженерами.
- " 11_Project_2021-04_Прогнозы и предсказания_Удержание клиентов Фитнес-центра.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Применение методов Машинного обучения в бизнесе.
- Кластеризация.
Сеть фитнес-центров «Культурист-датасаентист» разрабатывает стратегию взаимодействия с клиентами на основе аналитических данных.
Распространённая проблема фитнес-клубов и других сервисов — отток клиентов. Для фитнес-центра можно считать, что клиент попал в отток, если за последний месяц ни разу не посетил спортзал. Конечно, не исключено, что он уехал на Бали и по приезде обязательно продолжит ходить на фитнес. Однако чаще бывает наоборот. Если клиент начал новую жизнь с понедельника, немного походил в спортзал, а потом пропал — скорее всего, он не вернётся.
Чтобы бороться с оттоком, отдел по работе с клиентами «Культуриста-датасаентиста» перевёл в электронный вид множество клиентских анкет.
Задача — провести анализ и подготовить план действий по удержанию клиентов.
А именно:
- научиться прогнозировать вероятность оттока (на уровне следующего месяца) для каждого клиента;
- сформировать типичные портреты клиентов: выделить несколько наиболее ярких групп и охарактеризовать их основные свойства;
- проанализировать основные признаки, наиболее сильно влияющие на отток;
- сформулировать основные выводы и разработать рекомендации по повышению качества работы с клиентами:
-
- выделить целевые группы клиентов;
-
- предложить меры по снижению оттока;
-
- определить другие особенности взаимодействия с клиентами.
-
(Выпускной проект - Самостоятельное решение различных задач со всеми стадиями анализа данных)
- " 12A_Project_2021-04_Анализ поведения пользователей "
Посмотреть проект через - nbviewer.jupyter.org - " 12A_Project_2021-04_Презентация_Анализ поведения пользователей в мобильном приложении.pptx "
Посмотреть Презентацию - " 12A_Project_2021-04__DashBoard_Tableau_Анализ поведения пользователей " (Ссылка)
Посмотреть DashBoard_на сайте Tableau
- Проведение всех стадий анализа данных
- Проверка статистических гипотез
- Подготовка презентации
- Подготовка DashBoard на Tableau
- Проанализируйте связь целевого события — просмотра контактов — и других действий пользователей.
- Оцените, какие действия чаще совершают те пользователи, которые просматривают контакты.
- Проведите исследовательский анализ данных
- Проанализируйте влияние событий на совершение целевого события
- Проверьте статистические гипотезы
- Одни пользователи совершают действия
tips_showиtips_click, другие — толькоtips_show. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп. - Сформулируйте собственную статистическую гипотезу. Дополните её нулевой и альтернативной гипотезами. Проверьте гипотезу с помощью статистического теста.
- Одни пользователи совершают действия
- По итогам исследования подготовьте презентацию
- Составьте DashBoard:
- Набор №1
- Постройте диаграмму распределения количества событий по типу события.
- Добавьте индикатор количества пользователей.
- Добавьте фильтр дашборда по дате совершения события.
- Набор №2
- Постройте диаграмму, отображающую количество событий по дням.
- Постройте гистограмму, отображающую количество пользователей, пришедших из разных источников.
- Добавьте фильтр дашборда по типу события.
- Набор №1
- " 12B_Project_2021-04_Проект по АB-тестированию "
(примечание: по непонятной причине GitHub в ячейке "In [35]" не построил график воронки);
Посмотреть проект через - nbviewer.jupyter.org
- Анализ данных + Конверсии, Воронки.
- A/B-тестирование, результаты и выводы.
Ваша задача — провести оценку результатов A/B-теста. В вашем распоряжении есть датасет с действиями пользователей, техническое задание и несколько вспомогательных датасетов.
- Оцените корректность проведения теста
- пересечение тестовой аудитории с конкурирующим тестом,
- совпадение теста и маркетинговых событий, другие проблемы временных границ теста.
- Проанализируйте результаты теста
- Проведите исследовательский анализ данных:
- Как меняется конверсия в воронке на разных этапах?
- Количество событий на пользователя одинаково распределены в выборках?
- В выборках встречаются одни и те же пользователи?
- Как число событий распределено по дням?
- Какие особенности данных нужно учесть, прежде чем приступать к A/B-тестированию?
- Оцените результаты A/B-тестирования
- Что можно сказать про результаты A/В-тестирования?
- Проверьте статистическую разницу долей z-критерием.
- Опишите выводы по этапу исследовательского анализа данных и по проведённой оценке результатов A/B-тестирования.
- " 12C_Project_2021-04_SQL-запросы.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
- Подключение к Базе Данных;
- Составление запросов разной сложности.
Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать. Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.
Задания:
- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.