Файлы и описание: Проекты 1-12 / Дата Аналитика / Яндекс.Практикум

Проекты упорядочены по ходу обучения

1. Исследование надёжности заёмщиков — анализ банковских данных // (Описание практикума)

2. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости // (Описание практикума)

3. Определение выгодного тарифа для телеком компании // (Описание практикума)

4. Изучение закономерностей, определяющих успешность игр // (Описание практикума)

5. Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей // (Описание практикума)

6. Оптимизация маркетинговых затрат в Яндекс.Афише // (Описание практикума)

7. Проверка гипотез по увеличению выручки в интернет-магазине — оценить результаты A/B теста // (Описание практикума)

8. Исследования рынка общепита в Москве для принятия решения об открытии нового заведения // (Описание практикума)

9. Анализ пользовательского поведения в мобильном приложении // (Описание практикума)

10. Создание дашборда по пользовательским событиям для агрегатора новостей // (Описание практикума)

11. Прогнозирование вероятности оттока пользователей для фитнес-центров // (Описание практикума)

12. Выпускной проект - Поведения пользователей в мобильном приложении

(Проекты лучше смотреть по ссылке на "nbviewer.jupyter.org", так как на GitHub приходится перезагружать и может не отображаться часть графиков)

===================================

1. Предобработка данных - "Исследование надёжности заёмщиков — анализ банковских данных"

к содержанию

Доступные файлы проекта:

1_Project_2020-11_Предобработка данных_Исследование надёжности заёмщиков.ipynb;
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy

Навыки:

Предобработка данных – пропуски, корректировка типов, дубликаты, выбросы, строковые аномалии, категоризация.
Анализ данных – зависимости, корреляции

Описание проекта:

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

===================================

2. Исследовательский анализ данных - "Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости"

к содержанию

Визуализация данных с помощью гистограмм и ящиков с усами. Изучение срезов данных. Нахождение взаимосвязей разных параметров в данных. Объединение таблиц. Получение выводов по сгруппированным данным.

Доступные файлы проекта:

" 2_Project_2020-11_Исследовательский анализ_Исследование объявлений о продаже квартир.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / pymystem3 /

Навыки:

Предобработка данных
Анализ данных
работа с инструментами для построения графиков: hist(), boxplot(), plot()
выборка срезов данных
методы join() и merge() для объединения таблиц
Поиск и интерпритация взаимосвязи различных данных
автоматизация процесса построения набора графиков

Описание проекта:

Исследование объявлений о продаже квартир

В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.

===================================

3. Статистический анализ данных - "Определение выгодного тарифа для телеком компании"

к содержанию

Изучение объектов и их взаимосвязей методами статистики. Выборки и статистическая значимость. Выявление и обработка аномалий. Проект. Проанализировать тарифы федерального оператора сотовой связи.

Доступные файлы проекта:

" 3_Project_2020-12_Статистический анализ_Определение перспективного тарифа для телеком компании.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / pymystem3 /

Навыки:

Предобработка данных
Анализ данных
Выбор оптимальных метрик для описания данных
оценка дискретных и непрерывных величин при помощи гистограмм разных типов
делать выводы о данных по статистическим показателям
основы теории вероятностей
определять тип распределения, рассчитет нормального и биномиального
построение и проверка статистических гипотез

Описание проекта:

Определение перспективного тарифа для телеком компании

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

===================================

4. Сборный Проект №1 - "Изучение закономерностей, определяющих успешность игр"

к содержанию

Подготовка данных для анализа. Предварительное исследование датасета. Формулирование и проверка гипотез.

Доступные файлы проекта:

" 4_Project_2020-12_Сборный проект_1.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib /

Навыки:

Предобработка данных
Анализ данных
построение и проверка статистических гипотез

Описание проекта:

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и вы планируете кампанию на 2017-й. Нужно отработать принцип работы с данными. Неважно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.
В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».

===================================

5. Сбор и хранение данных - "Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей"

к содержанию

Интернет как источник данных для анализа. Форматы представления данных. Технология HTTP API. Библиотека BeautifulSoup. Знакомство с реляционными базами данных. Обработка данных скриптами на языке SQL. Операторы Select и Join. Операции с базой: импорт и экспорт данных. Проект. Извлечь данные из базы и дать сводку операционной эффективности интернет-магазина в двух городах за последний месяц.

Доступные файлы проекта:

" 5-1_Project_2021-01_Сбор и хранение данных_Парсинг сайта.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
" 5-2_Project_2021-01_Сбор и хранение данных__SQL-запросы.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
" 5-3_Project_2021-01_Сбор и хранение данных_Аналитика в авиакомпании.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / requests / beautifulsoup / sqlalchemy / datetime /

Навыки:

Предобработка данных
Анализ данных
Парсинг сайтов
Написание регулярных выражений
Написание SQL-запросов разной сложности
SQL - срезы данных и составлeние подзапросы
SQL - агрегирующие функции
SQL - объединение таблиц

Описание проекта:

Вы аналитик компании «F9» — это российская авиакомпания, выполняющая внутренние пассажирские авиаперевозки. Сотни перелётов каждый день. Важно понять предпочтения пользователей, покупающих билеты на те или иные направления.
Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие фестивали.

===================================

6. Анализ бизнес-показателей - "Оптимизация маркетинговых затрат в Яндекс.Афише"

к содержанию

Аналитический подход к бизнесу. Бизнес-метрики и KPI. Анализ пользовательских данных. Маркетинговая аналитика и её инструменты. Воронка продаж. Проект. Провести анализ метрик видеосервиса (DAU,WAU,MAU / LTV,CAC,ROMI / Retention Rate). Выбрать стратегически важные метрики для развития сервиса на следующий год.

Доступные файлы проекта:

" 6_Project_2021-01_Анализ бизнес-показателей и Юнит-экономика.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / datetime /

Навыки:

Предобработка данных
Анализ данных
Рассчёт ASL, DAU, WAU и MAU и средних(+медианных) показателей
Когортный анализ
Расчет LTV,CAC,ROMI и Retention Rate
построение HeatMap

Описание проекта:

Вас пригласили на стажировку в отдел маркетинговой аналитики Яндекс.Афиши. Первое задание: помочь маркетологам снизить расходы — отказаться от невыгодных источников трафика и перераспределить бюджет.

Есть данные Яндекс.Афиши с июня 2017 по конец мая 2018 года:

лог сервера с данными о посещениях сайта Яндекс.Афиши,
выгрузка всех заказов за этот период,
статистика рекламных расходов.

Вам предстоит изучить:

как клиенты пользуются сервисом,
когда делают первые покупки на сайте,
сколько денег приносит компании каждый клиент,
когда расходы на привлечение клиента окупаются.

===================================

7. Принятие решений в бизнесе на основе данных - "Проверка гипотез по увеличению выручки в интернет-магазине — оценика результатов A/B теста"

к содержанию

Методы и инструменты проверки гипотез. Проектирование экспериментов. Сезонность. Когортный анализ. A/B-тестирование. Проект. Проверить гипотезы по увеличению выручки для крупного интернет-магазина: осуществить приоритизацию, провести A/B-тест и проанализировать результаты.

Доступные файлы проекта:

" 7_Project_2021-02_Решения в бизнесе_Проверка статистических гипотез.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / datetime / scipy /

Навыки:

Предобработка данных
Анализ данных
Примение фреймворков ICE/RICE для приоритизации гипотез
Расчет и анализ показателей: кумулятивной выручки, среднего чека и конверсии; а также относительного изменения среднего чека и конверсии

Описание проекта:

Вы — аналитик крупного интернет-магазина. Вместе с отделом маркетинга вы подготовили список гипотез для увеличения выручки.
Приоритизируйте гипотезы, запустите A/B-тест и проанализируйте результаты.

Часть 1. Приоритизация гипотез.
В файле /datasets/hypothesis.csv 9 гипотез по увеличению выручки интернет-магазина с указанными параметрами Reach, Impact, Confidence, Effort.
Задача:

Примените фреймворк ICE для приоритизации гипотез. Отсортируйте их по убыванию приоритета.
Примените фреймворк RICE для приоритизации гипотез. Отсортируйте их по убыванию приоритета.
Укажите, как изменилась приоритизация гипотез при применении RICE вместо ICE. Объясните, почему так произошло.

Часть 2. Анализ A/B-теста
Вы провели A/B-тест и получили результаты, которые описаны в файлах /datasets/orders.csv и /datasets/visitors.csv.
Проанализируйте A/B-тест и Сделайте выводы и предположения:

Постройте график кумулятивной выручки по группам.
Постройте график кумулятивного среднего чека по группам.
Постройте график относительного изменения кумулятивного среднего чека группы B к группе A.
Постройте график кумулятивной конверсии по группам.
Постройте график относительного изменения кумулятивной конверсии группы B к группе A.
Постройте точечный график количества заказов по пользователям.
Посчитайте 95-й и 99-й перцентили количества заказов на пользователя. Выберите границу для определения аномальных пользователей.
Постройте точечный график стоимостей заказов.
Посчитайте 95-й и 99-й перцентили стоимости заказов. Выберите границу для определения аномальных заказов.
Посчитайте статистическую значимость различий в конверсии между группами по «сырым» данным.
Посчитайте статистическую значимость различий в среднем чеке заказа между группами по «сырым» данным.
Посчитайте статистическую значимость различий в конверсии между группами по «очищенным» данным.
Посчитайте статистическую значимость различий в среднем чеке заказа между группами по «очищенным» данным.

**Примите решение по результатам теста и объясните его. **

===================================

8. Как рассказать историю с помощью данных - "Исследования рынка общепита в Москве для принятия решения об открытии нового заведения"

к содержанию

Презентация результатов аналитического исследования. Способы наглядного представления данных. Создание отчётов, объясняющих выводы аналитика. Библиотека Seaborn. Проект. Вы решили открыть небольшое кафе в Москве. Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.

Доступные файлы проекта:

" 8_Project_2021-02_Визуализация данных_Рынок общепита Москвы.ipynb "
Посмотреть проект через - nbviewer.jupyter.org
" 8_Project_2021-02_Презентация.pdf "
Ссылка на Презентацию

Библиотеки: pandas / numpy / plotly / matplotlib / seaborn / re /

Навыки:

Предобработка данных
Анализ данных
Визуализация данных с помощью seaborn
Визуализация данных с помощью matplotlib
Визуализация данных с помощью plotly
Подготовка презентации

Описание проекта:

Вы решили открыть небольшое кафе в Москве. Оно оригинальное — гостей должны обслуживать роботы. Проект многообещающий, но дорогой. Вместе с партнёрами вы решились обратиться к инвесторам. Их интересует текущее положение дел на рынке — сможете ли вы снискать популярность на долгое время, когда все зеваки насмотрятся на роботов-официантов? Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.

===================================

9. Сборный проект №2 - "Анализ пользовательского поведения в мобильном приложении"

к содержанию

Получение данных из базы. Предобработка и обзор датасета. Формулирование гипотез с учётом специфики бизнеса. Проверка гипотез и подготовка выводов в формате аналитического отчёта.

Доступные файлы проекта:

" 9_Project_2021-03_Сборный проект_Воронки и AB-tests.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / plotly / matplotlib / seaborn / datetime / math / re / scipy

Навыки:

Предобработка данных – пропуски, корректировка типов, дубликаты, выбросы, строковые аномалии.
Анализ данных – зависимости, корреляции
Анализ воронки событий
Проведение и анализ A/A и A/B тестов

Описание проекта:

Описание проекта Вы работаете в стартапе, который продаёт продукты питания. Нужно разобраться, как ведут себя пользователи вашего мобильного приложения.

Изучите воронку продаж. Узнайте, как пользователи доходят до покупки. Сколько пользователей доходит до покупки, а сколько — «застревает» на предыдущих шагах? На каких именно?

После этого исследуйте результаты A/A/B-эксперимента. Дизайнеры захотели поменять шрифты во всём приложении, а менеджеры испугались, что пользователям будет непривычно. Договорились принять решение по результатам A/A/B-теста. Пользователей разбили на 3 группы: 2 контрольные со старыми шрифтами и одну экспериментальную — с новыми. Выясните, какой шрифт лучше.

Создание двух групп A вместо одной имеет определённые преимущества. Если две контрольные группы окажутся равны, вы можете быть уверены в точности проведенного тестирования. Если же между значениями A и A будут существенные различия, это поможет обнаружить факторы, которые привели к искажению результатов. Сравнение контрольных групп также помогает понять, сколько времени и данных потребуется для дальнейших тестов.

В случае общей аналитики и A/A/B-эксперимента работайте с одними и теми же данными. В реальных проектах всегда идут эксперименты. Аналитики исследуют качество работы приложения по общим данным, не учитывая принадлежность пользователей к экспериментам.

===================================

10. Автоматизация - "Создание дашборда по пользовательским событиям для агрегатора новостей"

к содержанию

Автоматизация процессов анализа данных. Потоковые аналитические решения. Регистрация событий в логах, создание регулярных отчетов. Дашборды. Мониторинг. Проект. Собрать систему метрик для мониторинга продуктовой эффективности сервиса доставки еды и настроить для них аналитический дашборд с несколькими источниками данных.

Доступные файлы проекта:

" 10_Project_2021-03_Автоматизация_Выгрузка из БД.ipynb " Подключение к базе данных (+ предобработка/проверка) и выгрузка данных для дашборда
Посмотреть проект через - nbviewer.jupyter.org
ссылка на дашборд на сайте Tableau Public;
Дашборд для Яндекс.Дзен - Ссылка на сайте Tableau
" 10_Project_2021-03_Презентация - Анализ взаимодействия пользователей с карточками Яндекс.pdf "
открыть_Презентацию

Библиотеки: pandas / numpy / sys / getopt / datetime / dash / dash_core_components / dash_html_components / plotly / sqlalchemy

Навыки:

Написание Python-скриптов и автоматический запуск
Работа с командной строкой (PowerShell / Bash)
Настройка расписания запуска скриптов
Работа в сервисе Яндекс.Облако (работа с удаленной виртуальной машиной)
Построение пайплайнов и дашбордов
Работа с Tableau
Создание основных типов графиков в библиотеке dash
«Верстание» дашбордов на HTML
Подготовка презентации

Описание проекта:

Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.
Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».
Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».
Есть три способа взаимодействия пользователей с системой:
• Карточка отображена для пользователя (show);
• Пользователь кликнул на карточку (click);
• Пользователь просмотрел статью карточки (view).
Каждую неделю менеджеры задают вам одни и те же вопросы:
• Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
• Как много карточек генерируют источники с разными темами?
• Как соотносятся темы карточек и темы источников?

Процесс пора автоматизировать - нужно сделать дашборд.
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан для вас дата-инженерами.

===================================

11. Прогнозы и предсказания - "Прогнозирование вероятности оттока пользователей для фитнес-центров"

к содержанию

Доступные файлы проекта:

" 11_Project_2021-04_Прогнозы и предсказания_Удержание клиентов Фитнес-центра.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / sklearn / scipy /

Навыки:

Применение методов Машинного обучения в бизнесе.
Кластеризация.

Описание проекта:

Сеть фитнес-центров «Культурист-датасаентист» разрабатывает стратегию взаимодействия с клиентами на основе аналитических данных.
Распространённая проблема фитнес-клубов и других сервисов — отток клиентов. Для фитнес-центра можно считать, что клиент попал в отток, если за последний месяц ни разу не посетил спортзал. Конечно, не исключено, что он уехал на Бали и по приезде обязательно продолжит ходить на фитнес. Однако чаще бывает наоборот. Если клиент начал новую жизнь с понедельника, немного походил в спортзал, а потом пропал — скорее всего, он не вернётся.
Чтобы бороться с оттоком, отдел по работе с клиентами «Культуриста-датасаентиста» перевёл в электронный вид множество клиентских анкет.

Задача — провести анализ и подготовить план действий по удержанию клиентов.
А именно:

научиться прогнозировать вероятность оттока (на уровне следующего месяца) для каждого клиента;
сформировать типичные портреты клиентов: выделить несколько наиболее ярких групп и охарактеризовать их основные свойства;
проанализировать основные признаки, наиболее сильно влияющие на отток;
сформулировать основные выводы и разработать рекомендации по повышению качества работы с клиентами:
- 1. выделить целевые группы клиентов;
- 1. предложить меры по снижению оттока;
- 1. определить другие особенности взаимодействия с клиентами.

===================================

Финальный проект. (Состоит из 3 частей)

к содержанию

12-1. Анализ поведения пользователей в мобильном приложении

(Выпускной проект - Самостоятельное решение различных задач со всеми стадиями анализа данных)

Доступные файлы проекта:

" 12A_Project_2021-04_Анализ поведения пользователей "
Посмотреть проект через - nbviewer.jupyter.org
" 12A_Project_2021-04_Презентация_Анализ поведения пользователей в мобильном приложении.pptx "
Посмотреть Презентацию
" 12A_Project_2021-04__DashBoard_Tableau_Анализ поведения пользователей " (Ссылка)
Посмотреть DashBoard_на сайте Tableau

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / datetime / scipy / math /

Навыки:

Проведение всех стадий анализа данных
Проверка статистических гипотез
Подготовка презентации
Подготовка DashBoard на Tableau

Описание проекта:

Задача:

Проанализируйте связь целевого события — просмотра контактов — и других действий пользователей.
Оцените, какие действия чаще совершают те пользователи, которые просматривают контакты.

Проведите исследовательский анализ данных
Проанализируйте влияние событий на совершение целевого события
Проверьте статистические гипотезы
1. Одни пользователи совершают действия tips_show и tips_click, другие — только tips_show. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп.
2. Сформулируйте собственную статистическую гипотезу. Дополните её нулевой и альтернативной гипотезами. Проверьте гипотезу с помощью статистического теста.

По итогам исследования подготовьте презентацию
Составьте DashBoard:
- Набор №1
  1. Постройте диаграмму распределения количества событий по типу события.
  2. Добавьте индикатор количества пользователей.
  3. Добавьте фильтр дашборда по дате совершения события.
- Набор №2
  1. Постройте диаграмму, отображающую количество событий по дням.
  2. Постройте гистограмму, отображающую количество пользователей, пришедших из разных источников.
  3. Добавьте фильтр дашборда по типу события.

12-2. Проект по А/B-тестированию. (Отдельный от 12-1)

к содержанию

Доступные файлы проекта:

" 12B_Project_2021-04_Проект по АB-тестированию "
(примечание: по непонятной причине GitHub в ячейке "In [35]" не построил график воронки);
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / scipy / datetime / math /

Навыки:

Анализ данных + Конверсии, Воронки.
A/B-тестирование, результаты и выводы.

Описание проекта:

Ваша задача — провести оценку результатов A/B-теста. В вашем распоряжении есть датасет с действиями пользователей, техническое задание и несколько вспомогательных датасетов.

Оцените корректность проведения теста
- пересечение тестовой аудитории с конкурирующим тестом,
- совпадение теста и маркетинговых событий, другие проблемы временных границ теста.
Проанализируйте результаты теста

Этапы задания:

Проведите исследовательский анализ данных:
- Как меняется конверсия в воронке на разных этапах?
- Количество событий на пользователя одинаково распределены в выборках?
- В выборках встречаются одни и те же пользователи?
- Как число событий распределено по дням?
- Какие особенности данных нужно учесть, прежде чем приступать к A/B-тестированию?
Оцените результаты A/B-тестирования
- Что можно сказать про результаты A/В-тестирования?
- Проверьте статистическую разницу долей z-критерием.
Опишите выводы по этапу исследовательского анализа данных и по проведённой оценке результатов A/B-тестирования.

12-3. Работа с SQL.

к содержанию

Доступные файлы проекта:

" 12C_Project_2021-04_SQL-запросы.ipynb "
Посмотреть проект через - nbviewer.jupyter.org

Библиотеки: pandas / datetime / sqlalchemy /

Навыки:

Подключение к Базе Данных;
Составление запросов разной сложности.

Описание проекта:

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать. Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

Задания:

Посчитайте, сколько книг вышло после 1 января 2000 года;
Для каждой книги посчитайте количество обзоров и среднюю оценку;
Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

Name		Name	Last commit message	Last commit date
Latest commit History 104 Commits
BSQ_GOOD		BSQ_GOOD
10_Project_2021-03_Tableau-DashBoard Link.url		10_Project_2021-03_Tableau-DashBoard Link.url
10_Project_2021-03_Автоматизация_Выгрузка из БД.ipynb		10_Project_2021-03_Автоматизация_Выгрузка из БД.ipynb
10_Project_2021-03_Презентация - Анализ взаимодействия пользователей с карточками Яндекс.pdf		10_Project_2021-03_Презентация - Анализ взаимодействия пользователей с карточками Яндекс.pdf
11_Project_2021-04_Прогнозы и предсказания_Удержание клиентов Фитнес-центра.ipynb		11_Project_2021-04_Прогнозы и предсказания_Удержание клиентов Фитнес-центра.ipynb
12A_Project_2021-04__DashBoard_Tableau_Анализ поведения пользователей.url		12A_Project_2021-04__DashBoard_Tableau_Анализ поведения пользователей.url
12A_Project_2021-04_Анализ поведения пользователей.ipynb		12A_Project_2021-04_Анализ поведения пользователей.ipynb
12A_Project_2021-04_Презентация_Анализ поведения пользователей в мобильном приложении.pptx		12A_Project_2021-04_Презентация_Анализ поведения пользователей в мобильном приложении.pptx
12B_Project_2021-04_Проект по АB-тестированию.ipynb		12B_Project_2021-04_Проект по АB-тестированию.ipynb
12C_Project_2021-04_SQL-запросы.ipynb		12C_Project_2021-04_SQL-запросы.ipynb
1_Project_2020-11_Предобработка данных_Исследование надёжности заёмщиков.ipynb		1_Project_2020-11_Предобработка данных_Исследование надёжности заёмщиков.ipynb
2_Project_2020-11_Исследовательский анализ_Исследование объявлений о продаже квартир.ipynb		2_Project_2020-11_Исследовательский анализ_Исследование объявлений о продаже квартир.ipynb
3_Project_2020-12_Статистический анализ_Определение перспективного тарифа для телеком компании.ipynb		3_Project_2020-12_Статистический анализ_Определение перспективного тарифа для телеком компании.ipynb
4_Project_2020-12_Сборный проект_1.ipynb		4_Project_2020-12_Сборный проект_1.ipynb
5-1_Project_2021-01_Сбор и хранение данных_Парсинг сайта.ipynb		5-1_Project_2021-01_Сбор и хранение данных_Парсинг сайта.ipynb
5-2_Project_2021-01_Сбор и хранение данных__SQL-запросы.ipynb		5-2_Project_2021-01_Сбор и хранение данных__SQL-запросы.ipynb
5-3_Project_2021-01_Сбор и хранение данных_Аналитика в авиакомпании.ipynb		5-3_Project_2021-01_Сбор и хранение данных_Аналитика в авиакомпании.ipynb
6_Project_2021-01_Анализ бизнес-показателей и Юнит-экономика.ipynb		6_Project_2021-01_Анализ бизнес-показателей и Юнит-экономика.ipynb
7_Project_2021-02_Решения в бизнесе_Проверка статистических гипотез.ipynb		7_Project_2021-02_Решения в бизнесе_Проверка статистических гипотез.ipynb
8_Project_2021-02_Визуализация данных_Рынок общепита Москвы.ipynb		8_Project_2021-02_Визуализация данных_Рынок общепита Москвы.ipynb
8_Project_2021-02_Презентация.pdf		8_Project_2021-02_Презентация.pdf
9_Project_2021-03_Сборный проект_Воронки и AB-tests.ipynb		9_Project_2021-03_Сборный проект_Воронки и AB-tests.ipynb
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

Файлы и описание: Проекты 1-12 / Дата Аналитика / Яндекс.Практикум

===================================

1. Предобработка данных - "Исследование надёжности заёмщиков — анализ банковских данных"

Доступные файлы проекта:

Библиотеки: pandas / numpy

Навыки:

Описание проекта:

===================================

2. Исследовательский анализ данных - "Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / pymystem3 /

Навыки:

Описание проекта:

===================================

3. Статистический анализ данных - "Определение выгодного тарифа для телеком компании"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / pymystem3 /

Навыки:

Описание проекта:

===================================

4. Сборный Проект №1 - "Изучение закономерностей, определяющих успешность игр"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib /

Навыки:

Описание проекта:

===================================

5. Сбор и хранение данных - "Исследование данных авиакомпании — проверить гипотезу о повышении спроса во время фестивалей"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / requests / beautifulsoup / sqlalchemy / datetime /

Навыки:

Описание проекта:

===================================

6. Анализ бизнес-показателей - "Оптимизация маркетинговых затрат в Яндекс.Афише"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / seaborn / datetime /

Навыки:

Описание проекта:

===================================

7. Принятие решений в бизнесе на основе данных - "Проверка гипотез по увеличению выручки в интернет-магазине — оценика результатов A/B теста"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / seaborn / datetime / scipy /

Навыки:

Описание проекта:

===================================

8. Как рассказать историю с помощью данных - "Исследования рынка общепита в Москве для принятия решения об открытии нового заведения"

Доступные файлы проекта:

Библиотеки: pandas / numpy / plotly / matplotlib / seaborn / re /

Навыки:

Описание проекта:

===================================

9. Сборный проект №2 - "Анализ пользовательского поведения в мобильном приложении"

Доступные файлы проекта:

Библиотеки: pandas / numpy / plotly / matplotlib / seaborn / datetime / math / re / scipy

Навыки:

Описание проекта:

===================================

10. Автоматизация - "Создание дашборда по пользовательским событиям для агрегатора новостей"

Доступные файлы проекта:

Библиотеки: pandas / numpy / sys / getopt / datetime / dash / dash_core_components / dash_html_components / plotly / sqlalchemy

Навыки:

Описание проекта:

===================================

11. Прогнозы и предсказания - "Прогнозирование вероятности оттока пользователей для фитнес-центров"

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / sklearn / scipy /

Навыки:

Описание проекта:

===================================

Финальный проект. (Состоит из 3 частей)

12-1. Анализ поведения пользователей в мобильном приложении

Доступные файлы проекта:

Библиотеки: pandas / numpy / matplotlib / seaborn / plotly / datetime / scipy / math /

Навыки:

Описание проекта:

Задача:

12-2. Проект по А/B-тестированию. (Отдельный от 12-1)

Packages