Для определения того, является ли химическое соединение потенциальным лекарством, часто требуются длительные биологические эксперименты. Цель этой задачи - ускорить процесс оценки химических соединений на потенциальную ценность для разработки лекарств. Для этого необходимо создать модель, которая способна предсказывать необходимые биологические параметры соединений на основе их химической структуры. Вам предоставлены два набора данных: около 1400 химических соединений с рассчитанными CC50/IC50/SI по отношению к одному и тому же штамму H1N1, и около 35000 химических соединений с рассчитанными IC50 по отношению к разным штаммам H1N1.
-
Набор данных 1 (CC50/IC50/SI): Содержит около 1400 химических соединений с рассчитанными CC50/IC50/SI относительно одного штамма H1N1.
-
Набор данных 2 (IC50): Включает около 35000 химических соединений с рассчитанными IC50 относительно разных штаммов H1N1.
-
Провести разведовательный анализ данных.
-
Провести предобработку, обработку выбросов и анализ корреляции между признаками.
-
Обучить модели машинного обучения, способные предсказывать параметры CC50, IC50 и SI на основе химической структуры соединений.
-
Сравнить различные модели и методы.
Вы можете найти исходный код и дополнительные файлы в этом репозитории GitHub:
-
Предобработка: В данном Jupyter Notebook вы найдете обзор предоставленных данных и описание процедуры предобработки.
-
Обучение с CV: В этом Jupyter Notebook описаны предобработка и кросс-валидация.
-
Обучение на двух датасетах: В этом Jupyter Notebook подробно описано обучение.
-
Определение на большом датасеет: В этом Jupyter Notebook проведено обучение CatBoost на датасете с 35к примерами.