Skip to content

Bereg48/da18_TolmakovVV

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

104 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Файлы и описание: Проекты 1-12 / Дата Аналитика / Яндекс.Практикум


Проекты упорядочены по ходу обучения

1. Исследование надёжности заёмщиков — анализ банковских данных // (Описание практикума)

2. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости // (Описание практикума)

3. Определение выгодного тарифа для телеком компании // (Описание практикума)

4. Изучение закономерностей, определяющих успешность игр // (Описание практикума)

5. Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей // (Описание практикума)

6. Оптимизация маркетинговых затрат в Яндекс.Афише // (Описание практикума)

7. Проверка гипотез по увеличению выручки в интернет-магазине — оценить результаты A/B теста // (Описание практикума)

8. Исследования рынка общепита в Москве для принятия решения об открытии нового заведения // (Описание практикума)

9. Анализ пользовательского поведения в мобильном приложении // (Описание практикума)

10. Создание дашборда по пользовательским событиям для агрегатора новостей // (Описание практикума)

11. Прогнозирование вероятности оттока пользователей для фитнес-центров // (Описание практикума)

12. Выпускной проект - Поведения пользователей в мобильном приложении

(Проекты лучше смотреть по ссылке на "nbviewer.jupyter.org", так как на GitHub приходится перезагружать и может не отображаться часть графиков)

===================================

1. Предобработка данных - "Исследование надёжности заёмщиков — анализ банковских данных"

к содержанию

Доступные файлы проекта:

  1. 1_Project_2020-11_Предобработка данных_Исследование надёжности заёмщиков.ipynb;
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy

Навыки:

  • Предобработка данных – пропуски, корректировка типов, дубликаты, выбросы, строковые аномалии, категоризация.
  • Анализ данных – зависимости, корреляции

Описание проекта:

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

===================================

2. Исследовательский анализ данных - "Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости"

к содержанию

Визуализация данных с помощью гистограмм и ящиков с усами. Изучение срезов данных. Нахождение взаимосвязей разных параметров в данных. Объединение таблиц. Получение выводов по сгруппированным данным.

Доступные файлы проекта:

  1. " 2_Project_2020-11_Исследовательский анализ_Исследование объявлений о продаже квартир.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / pymystem3 /

Навыки:

  • Предобработка данных
  • Анализ данных
  • работа с инструментами для построения графиков: hist(), boxplot(), plot()
  • выборка срезов данных
  • методы join() и merge() для объединения таблиц
  • Поиск и интерпритация взаимосвязи различных данных
  • автоматизация процесса построения набора графиков

Описание проекта:

Исследование объявлений о продаже квартир

В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.

===================================

3. Статистический анализ данных - "Определение выгодного тарифа для телеком компании"

к содержанию

Изучение объектов и их взаимосвязей методами статистики. Выборки и статистическая значимость. Выявление и обработка аномалий. Проект. Проанализировать тарифы федерального оператора сотовой связи.

Доступные файлы проекта:

  1. " 3_Project_2020-12_Статистический анализ_Определение перспективного тарифа для телеком компании.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / pymystem3 /

Навыки:

  • Предобработка данных
  • Анализ данных
  • Выбор оптимальных метрик для описания данных
  • оценка дискретных и непрерывных величин при помощи гистограмм разных типов
  • делать выводы о данных по статистическим показателям
  • основы теории вероятностей
  • определять тип распределения, рассчитет нормального и биномиального
  • построение и проверка статистических гипотез

Описание проекта:

Определение перспективного тарифа для телеком компании

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

===================================

4. Сборный Проект №1 - "Изучение закономерностей, определяющих успешность игр"

к содержанию

Подготовка данных для анализа. Предварительное исследование датасета. Формулирование и проверка гипотез.

Доступные файлы проекта:

  1. " 4_Project_2020-12_Сборный проект_1.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib /

Навыки:

  • Предобработка данных
  • Анализ данных
  • построение и проверка статистических гипотез

Описание проекта:

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и вы планируете кампанию на 2017-й. Нужно отработать принцип работы с данными. Неважно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.
В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».

===================================

5. Сбор и хранение данных - "Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей"

к содержанию

Интернет как источник данных для анализа. Форматы представления данных. Технология HTTP API. Библиотека BeautifulSoup. Знакомство с реляционными базами данных. Обработка данных скриптами на языке SQL. Операторы Select и Join. Операции с базой: импорт и экспорт данных. Проект. Извлечь данные из базы и дать сводку операционной эффективности интернет-магазина в двух городах за последний месяц.

Доступные файлы проекта:

  1. " 5-1_Project_2021-01_Сбор и хранение данных_Парсинг сайта.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org
  2. " 5-2_Project_2021-01_Сбор и хранение данных__SQL-запросы.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org
  3. " 5-3_Project_2021-01_Сбор и хранение данных_Аналитика в авиакомпании.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / requests / beautifulsoup / sqlalchemy / datetime /

Навыки:

  • Предобработка данных
  • Анализ данных
  • Парсинг сайтов
  • Написание регулярных выражений
  • Написание SQL-запросов разной сложности
  • SQL - срезы данных и составлeние подзапросы
  • SQL - агрегирующие функции
  • SQL - объединение таблиц

Описание проекта:

Вы аналитик компании «F9» — это российская авиакомпания, выполняющая внутренние пассажирские авиаперевозки. Сотни перелётов каждый день. Важно понять предпочтения пользователей, покупающих билеты на те или иные направления.
Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие фестивали.

===================================

6. Анализ бизнес-показателей - "Оптимизация маркетинговых затрат в Яндекс.Афише"

к содержанию

Аналитический подход к бизнесу. Бизнес-метрики и KPI. Анализ пользовательских данных. Маркетинговая аналитика и её инструменты. Воронка продаж. Проект. Провести анализ метрик видеосервиса (DAU,WAU,MAU / LTV,CAC,ROMI / Retention Rate). Выбрать стратегически важные метрики для развития сервиса на следующий год.

Доступные файлы проекта:

  1. " 6_Project_2021-01_Анализ бизнес-показателей и Юнит-экономика.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / datetime /

Навыки:

  • Предобработка данных
  • Анализ данных
  • Рассчёт ASL, DAU, WAU и MAU и средних(+медианных) показателей
  • Когортный анализ
  • Расчет LTV,CAC,ROMI и Retention Rate
  • построение HeatMap

Описание проекта:

Вас пригласили на стажировку в отдел маркетинговой аналитики Яндекс.Афиши. Первое задание: помочь маркетологам снизить расходы — отказаться от невыгодных источников трафика и перераспределить бюджет.

Есть данные Яндекс.Афиши с июня 2017 по конец мая 2018 года:

  • лог сервера с данными о посещениях сайта Яндекс.Афиши,
  • выгрузка всех заказов за этот период,
  • статистика рекламных расходов.

Вам предстоит изучить:

  • как клиенты пользуются сервисом,
  • когда делают первые покупки на сайте,
  • сколько денег приносит компании каждый клиент,
  • когда расходы на привлечение клиента окупаются.

===================================

7. Принятие решений в бизнесе на основе данных - "Проверка гипотез по увеличению выручки в интернет-магазине — оценика результатов A/B теста"

к содержанию

Методы и инструменты проверки гипотез. Проектирование экспериментов. Сезонность. Когортный анализ. A/B-тестирование. Проект. Проверить гипотезы по увеличению выручки для крупного интернет-магазина: осуществить приоритизацию, провести A/B-тест и проанализировать результаты.

Доступные файлы проекта:

  1. " 7_Project_2021-02_Решения в бизнесе_Проверка статистических гипотез.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / datetime / scipy /

Навыки:

  • Предобработка данных
  • Анализ данных
  • Примение фреймворков ICE/RICE для приоритизации гипотез
  • Расчет и анализ показателей: кумулятивной выручки, среднего чека и конверсии; а также относительного изменения среднего чека и конверсии

Описание проекта:

Вы — аналитик крупного интернет-магазина. Вместе с отделом маркетинга вы подготовили список гипотез для увеличения выручки.
Приоритизируйте гипотезы, запустите A/B-тест и проанализируйте результаты.

Часть 1. Приоритизация гипотез.
В файле /datasets/hypothesis.csv 9 гипотез по увеличению выручки интернет-магазина с указанными параметрами Reach, Impact, Confidence, Effort.
Задача:

  • Примените фреймворк ICE для приоритизации гипотез. Отсортируйте их по убыванию приоритета.
  • Примените фреймворк RICE для приоритизации гипотез. Отсортируйте их по убыванию приоритета.
  • Укажите, как изменилась приоритизация гипотез при применении RICE вместо ICE. Объясните, почему так произошло.

Часть 2. Анализ A/B-теста
Вы провели A/B-тест и получили результаты, которые описаны в файлах /datasets/orders.csv и /datasets/visitors.csv.
Проанализируйте A/B-тест и Сделайте выводы и предположения:

  • Постройте график кумулятивной выручки по группам.
  • Постройте график кумулятивного среднего чека по группам.
  • Постройте график относительного изменения кумулятивного среднего чека группы B к группе A.
  • Постройте график кумулятивной конверсии по группам.
  • Постройте график относительного изменения кумулятивной конверсии группы B к группе A.
  • Постройте точечный график количества заказов по пользователям.
  • Посчитайте 95-й и 99-й перцентили количества заказов на пользователя. Выберите границу для определения аномальных пользователей.
  • Постройте точечный график стоимостей заказов.
  • Посчитайте 95-й и 99-й перцентили стоимости заказов. Выберите границу для определения аномальных заказов.
  • Посчитайте статистическую значимость различий в конверсии между группами по «сырым» данным.
  • Посчитайте статистическую значимость различий в среднем чеке заказа между группами по «сырым» данным.
  • Посчитайте статистическую значимость различий в конверсии между группами по «очищенным» данным.
  • Посчитайте статистическую значимость различий в среднем чеке заказа между группами по «очищенным» данным.

**Примите решение по результатам теста и объясните его. **

===================================

8. Как рассказать историю с помощью данных - "Исследования рынка общепита в Москве для принятия решения об открытии нового заведения"

к содержанию

Презентация результатов аналитического исследования. Способы наглядного представления данных. Создание отчётов, объясняющих выводы аналитика. Библиотека Seaborn. Проект. Вы решили открыть небольшое кафе в Москве. Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.

Доступные файлы проекта:

  1. " 8_Project_2021-02_Визуализация данных_Рынок общепита Москвы.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org
  2. " 8_Project_2021-02_Презентация.pdf "
    Ссылка на Презентацию

Библиотеки: pandas / numpy / plotly / matplotlib / seaborn / re /

Навыки:

  • Предобработка данных
  • Анализ данных
  • Визуализация данных с помощью seaborn
  • Визуализация данных с помощью matplotlib
  • Визуализация данных с помощью plotly
  • Подготовка презентации

Описание проекта:

Вы решили открыть небольшое кафе в Москве. Оно оригинальное — гостей должны обслуживать роботы. Проект многообещающий, но дорогой. Вместе с партнёрами вы решились обратиться к инвесторам. Их интересует текущее положение дел на рынке — сможете ли вы снискать популярность на долгое время, когда все зеваки насмотрятся на роботов-официантов? Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.

===================================

9. Сборный проект №2 - "Анализ пользовательского поведения в мобильном приложении"

к содержанию

Получение данных из базы. Предобработка и обзор датасета. Формулирование гипотез с учётом специфики бизнеса. Проверка гипотез и подготовка выводов в формате аналитического отчёта.

Доступные файлы проекта:

  1. " 9_Project_2021-03_Сборный проект_Воронки и AB-tests.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / plotly / matplotlib / seaborn / datetime / math / re / scipy

Навыки:

  • Предобработка данных – пропуски, корректировка типов, дубликаты, выбросы, строковые аномалии.
  • Анализ данных – зависимости, корреляции
  • Анализ воронки событий
  • Проведение и анализ A/A и A/B тестов

Описание проекта:

Описание проекта Вы работаете в стартапе, который продаёт продукты питания. Нужно разобраться, как ведут себя пользователи вашего мобильного приложения.

Изучите воронку продаж. Узнайте, как пользователи доходят до покупки. Сколько пользователей доходит до покупки, а сколько — «застревает» на предыдущих шагах? На каких именно?

После этого исследуйте результаты A/A/B-эксперимента. Дизайнеры захотели поменять шрифты во всём приложении, а менеджеры испугались, что пользователям будет непривычно. Договорились принять решение по результатам A/A/B-теста. Пользователей разбили на 3 группы: 2 контрольные со старыми шрифтами и одну экспериментальную — с новыми. Выясните, какой шрифт лучше.

Создание двух групп A вместо одной имеет определённые преимущества. Если две контрольные группы окажутся равны, вы можете быть уверены в точности проведенного тестирования. Если же между значениями A и A будут существенные различия, это поможет обнаружить факторы, которые привели к искажению результатов. Сравнение контрольных групп также помогает понять, сколько времени и данных потребуется для дальнейших тестов.

В случае общей аналитики и A/A/B-эксперимента работайте с одними и теми же данными. В реальных проектах всегда идут эксперименты. Аналитики исследуют качество работы приложения по общим данным, не учитывая принадлежность пользователей к экспериментам.

===================================

10. Автоматизация - "Создание дашборда по пользовательским событиям для агрегатора новостей"

к содержанию

Автоматизация процессов анализа данных. Потоковые аналитические решения. Регистрация событий в логах, создание регулярных отчетов. Дашборды. Мониторинг. Проект. Собрать систему метрик для мониторинга продуктовой эффективности сервиса доставки еды и настроить для них аналитический дашборд с несколькими источниками данных.

Доступные файлы проекта:

  1. " 10_Project_2021-03_Автоматизация_Выгрузка из БД.ipynb " Подключение к базе данных (+ предобработка/проверка) и выгрузка данных для дашборда
    Посмотреть проект через - nbviewer.jupyter.org
  2. ссылка на дашборд на сайте Tableau Public;
    Дашборд для Яндекс.Дзен - Ссылка на сайте Tableau
  3. " 10_Project_2021-03_Презентация - Анализ взаимодействия пользователей с карточками Яндекс.pdf "
    открыть_Презентацию

Библиотеки: pandas / numpy / sys / getopt / datetime / dash / dash_core_components / dash_html_components / plotly / sqlalchemy

Навыки:

  • Написание Python-скриптов и автоматический запуск
  • Работа с командной строкой (PowerShell / Bash)
  • Настройка расписания запуска скриптов
  • Работа в сервисе Яндекс.Облако (работа с удаленной виртуальной машиной)
  • Построение пайплайнов и дашбордов
  • Работа с Tableau
  • Создание основных типов графиков в библиотеке dash
  • «Верстание» дашбордов на HTML
  • Подготовка презентации

Описание проекта:

Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.
Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».
Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».
Есть три способа взаимодействия пользователей с системой:
• Карточка отображена для пользователя (show);
• Пользователь кликнул на карточку (click);
• Пользователь просмотрел статью карточки (view).
Каждую неделю менеджеры задают вам одни и те же вопросы:
• Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
• Как много карточек генерируют источники с разными темами?
• Как соотносятся темы карточек и темы источников?

Процесс пора автоматизировать - нужно сделать дашборд.
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан для вас дата-инженерами.

===================================

11. Прогнозы и предсказания - "Прогнозирование вероятности оттока пользователей для фитнес-центров"

к содержанию

Доступные файлы проекта:

  1. " 11_Project_2021-04_Прогнозы и предсказания_Удержание клиентов Фитнес-центра.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / sklearn / scipy /

Навыки:

  • Применение методов Машинного обучения в бизнесе.
  • Кластеризация.

Описание проекта:

Сеть фитнес-центров «Культурист-датасаентист» разрабатывает стратегию взаимодействия с клиентами на основе аналитических данных.
Распространённая проблема фитнес-клубов и других сервисов — отток клиентов. Для фитнес-центра можно считать, что клиент попал в отток, если за последний месяц ни разу не посетил спортзал. Конечно, не исключено, что он уехал на Бали и по приезде обязательно продолжит ходить на фитнес. Однако чаще бывает наоборот. Если клиент начал новую жизнь с понедельника, немного походил в спортзал, а потом пропал — скорее всего, он не вернётся.
Чтобы бороться с оттоком, отдел по работе с клиентами «Культуриста-датасаентиста» перевёл в электронный вид множество клиентских анкет.

Задача — провести анализ и подготовить план действий по удержанию клиентов.
А именно:

  • научиться прогнозировать вероятность оттока (на уровне следующего месяца) для каждого клиента;
  • сформировать типичные портреты клиентов: выделить несколько наиболее ярких групп и охарактеризовать их основные свойства;
  • проанализировать основные признаки, наиболее сильно влияющие на отток;
  • сформулировать основные выводы и разработать рекомендации по повышению качества работы с клиентами:
      1. выделить целевые группы клиентов;
      1. предложить меры по снижению оттока;
      1. определить другие особенности взаимодействия с клиентами.

===================================

Финальный проект. (Состоит из 3 частей)

к содержанию

12-1. Анализ поведения пользователей в мобильном приложении

(Выпускной проект - Самостоятельное решение различных задач со всеми стадиями анализа данных)

Доступные файлы проекта:

  1. " 12A_Project_2021-04_Анализ поведения пользователей "
    Посмотреть проект через - nbviewer.jupyter.org
  2. " 12A_Project_2021-04_Презентация_Анализ поведения пользователей в мобильном приложении.pptx "
    Посмотреть Презентацию
  3. " 12A_Project_2021-04__DashBoard_Tableau_Анализ поведения пользователей " (Ссылка)
    Посмотреть DashBoard_на сайте Tableau

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / datetime / scipy / math /

Навыки:

  • Проведение всех стадий анализа данных
  • Проверка статистических гипотез
  • Подготовка презентации
  • Подготовка DashBoard на Tableau

Описание проекта:

Задача:

  1. Проанализируйте связь целевого события — просмотра контактов — и других действий пользователей.
  2. Оцените, какие действия чаще совершают те пользователи, которые просматривают контакты.
  • Проведите исследовательский анализ данных
  • Проанализируйте влияние событий на совершение целевого события
  • Проверьте статистические гипотезы
    1. Одни пользователи совершают действия tips_show и tips_click, другие — только tips_show. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп.
    2. Сформулируйте собственную статистическую гипотезу. Дополните её нулевой и альтернативной гипотезами. Проверьте гипотезу с помощью статистического теста.
  1. По итогам исследования подготовьте презентацию
  2. Составьте DashBoard:
    • Набор №1
      1. Постройте диаграмму распределения количества событий по типу события.
      2. Добавьте индикатор количества пользователей.
      3. Добавьте фильтр дашборда по дате совершения события.
    • Набор №2
      1. Постройте диаграмму, отображающую количество событий по дням.
      2. Постройте гистограмму, отображающую количество пользователей, пришедших из разных источников.
      3. Добавьте фильтр дашборда по типу события.

12-2. Проект по А/B-тестированию. (Отдельный от 12-1)

к содержанию

Доступные файлы проекта:

  1. " 12B_Project_2021-04_Проект по АB-тестированию "
    (примечание: по непонятной причине GitHub в ячейке "In [35]" не построил график воронки);
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / scipy / datetime / math /

Навыки:

  • Анализ данных + Конверсии, Воронки.
  • A/B-тестирование, результаты и выводы.

Описание проекта:

Ваша задача — провести оценку результатов A/B-теста. В вашем распоряжении есть датасет с действиями пользователей, техническое задание и несколько вспомогательных датасетов.

  • Оцените корректность проведения теста
    • пересечение тестовой аудитории с конкурирующим тестом,
    • совпадение теста и маркетинговых событий, другие проблемы временных границ теста.
  • Проанализируйте результаты теста

Этапы задания:

  • Проведите исследовательский анализ данных:
    • Как меняется конверсия в воронке на разных этапах?
    • Количество событий на пользователя одинаково распределены в выборках?
    • В выборках встречаются одни и те же пользователи?
    • Как число событий распределено по дням?
    • Какие особенности данных нужно учесть, прежде чем приступать к A/B-тестированию?
  • Оцените результаты A/B-тестирования
    • Что можно сказать про результаты A/В-тестирования?
    • Проверьте статистическую разницу долей z-критерием.
  • Опишите выводы по этапу исследовательского анализа данных и по проведённой оценке результатов A/B-тестирования.

12-3. Работа с SQL.

к содержанию

Доступные файлы проекта:

  1. " 12C_Project_2021-04_SQL-запросы.ipynb "
    Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / datetime / sqlalchemy /

Навыки:

  • Подключение к Базе Данных;
  • Составление запросов разной сложности.

Описание проекта:

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать. Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

Задания:

  • Посчитайте, сколько книг вышло после 1 января 2000 года;
  • Для каждой книги посчитайте количество обзоров и среднюю оценку;
  • Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
  • Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
  • Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

About

Файлы: Дата Аналитика / Яндекс.Практикум

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 100.0%