Исследование количественного изменения влияния внешних и внутренних факторов на индекс Мосбиржи IMOEX

Внимание: Некоторые формулы не отображаются на сайте, для корректного отображения скопируйте репозиторий на компьютер и откройте REAMDE локально

Исследование количественного изменения влияния внешних и внутренних факторов на индекс Мосбиржи IMOEX

Анализ корреляций до и после 2014/2022 гг.

1. Проблема

В 2014 и 2022 гг. в России произошли структурные сдвиги, которые потенциально изменили взаимосвязи между индексом Мосбиржи и ключевыми внешними/внутренними факторами. Стандартные модели перестают быть адекватными без учета этих разрывов.

2. Основной тезис

Российский рынок прошел через две точки невозврата:

2014 год: Начало санкционного давления и частичная раскорреляция с Западом после присоединения Крыма.
2022 год: Полный структурный сдвиг, связанный с началом СВО, требующий пересмотра влияния западных и восточных экономических индексов на IMOEX.

3. Проблемы, с которыми мы столкнулись

Частота и недоступность данных
Малое количество наблюдений после 2022 г.
Определение независимых переменных

4. Методология

4.1. Почему ARDL?

Для анализа временных рядов финансовых показателей мы используем модель авторегрессии с распределенным лагом (ARDL). Выбор обусловлен двумя причинами:

Финансовые временные ряды часто имеют разные порядки интеграции: некоторые переменные стационарны (I(0)), другие — нестационарны (I(1)). ARDL-модель корректно работает со смешанными порядками интеграции (при условии, что ни одна переменная не является I(2)).
Текущие значения индекса Мосбиржи зависят от своих прошлых значений (автокорреляция), а также от прошлых значений факторов (лаги). ARDL позволяет включить необходимое количество лагов зависимой и независимых переменных.

4.2. Стационарность и тест ADF

Понятие стационарности означает, что статистические характеристики ряда (среднее, дисперсия) не меняются во времени. Нестационарные ряды содержат тренд или случайное блуждание, что может приводить к ложной регрессии. Для проверки стационарности мы используем расширенный тест Дики–Фуллера (Augmented Dickey–Fuller, ADF). Тест основан на регрессии:

$$ \Delta y_t = \alpha + \beta t + \gamma y_{t-1} + \sum_{i=1}^{p} \delta_i \Delta y_{t-i} + \varepsilon_t $$

Гипотезы:

$H_0$: $\gamma = 0$ (ряд нестационарен, есть единичный корень)
$H_1$: $\gamma < 0$ (ряд стационарен)

Данные приводятся к стационарным путем получения изменения наблюдения $y_{t}$ относительно $y_{t-n}$ в том или ином виде. Мы использовали логарифм: $$\Delta \ln(y_t) = \ln(y_t) - \ln(y_{t-1})$$

Пример данных до и после логарифмирования

4.3. Фиктивные переменные (dummy variables)

Фиктивные переменные принимают значения 0 или 1 и используются для учёта качественных событий: структурных сдвигов, кризисов, шоков. В нашем исследовании мы вводим дамми для:

2008–2009 гг. (мировой финансовый кризис, пик в России)
2014 г. (присоединение Крыма, начало санкций)
2020 г. (первая волна пандемии COVID-19)
2021 г. (вторая волна COVID-19)
2022 г. (начало СВО)

Включение дамми-переменных позволяет оценить изменение константы (сдвиг уровня) или коэффициентов при регрессорах (изменение чувствительности) в периоды структурных разрывов.

4.4. Данные

Индекс мосбиржи IMOEX, взят из библиотеки moexalgo
Индексы S&P 500, Shanghai Composite, Urals Oil, взяты с сайта Investing.com
Ключевая ставка (до 2013 ставка рефинансирования), взята с сайтра Центробанка

5. Решение: Модель 1 (Старый подход)

Математическая модель

$$\Delta \ln(\text{IMOEX}_t) = \beta_0 + \gamma_1 D_{14} + \gamma_2 D_{22} + \sum_{i=0}^{p} \beta_i X_{t-i} + \sum_{i=0}^{p} \delta_i (D_{14} \cdot X_{t-i}) + \sum_{i=0}^{p} \eta_i (D_{22} \cdot X_{t-i}) + \varepsilon_t$$

$$ D_{14} = \begin{cases} 0, & t < \text{18.03.2014} \\ 1, & t \geq \text{18.03.2014} \end{cases} $$

$$ D_{22} = \begin{cases} 0, & t < \text{24.02.2022} \\ 1, & t \geq \text{24.02.2022} \end{cases} $$

Результаты оценки ARDL-модели

Переменная	Коэффициент	Стд. ошибка	z-статистика	P > \|z\|	95% Доверительный интервал
const	0.0092	0.006	1.423	0.156	[-0.004, 0.022]
imoex_log_ret.L1	0.0789	0.075	1.053	0.293	[-0.069, 0.226]
snp_log_ret.L0	0.8057	0.122	6.620	0.000	[0.566, 1.045]
snp_log_ret.L1	0.1334	0.114	1.174	0.241	[-0.090, 0.357]
shang_log_ret.L0	0.2052	0.065	3.145	0.002	[0.077, 0.334]
shang_log_ret.L1	0.0674	0.099	0.682	0.496	[-0.127, 0.262]
key_rate_log_change.L0	-0.0356	0.089	-0.399	0.690	[-0.211, 0.140]
key_rate_log_change.L1	-0.0724	0.127	-0.571	0.568	[-0.322, 0.177]
D14.L0	-0.0068	0.007	-0.928	0.354	[-0.021, 0.008]
D22.L0	-0.0141	0.013	-1.072	0.285	[-0.040, 0.012]
snp_log_ret_D14.L0	-0.1554	0.188	-0.827	0.409	[-0.525, 0.215]
snp_log_ret_D14.L1	-0.1939	0.126	-1.541	0.125	[-0.442, 0.054]
snp_log_ret_D22.L0	0.1633	0.391	0.417	0.677	[-0.607, 0.934]
snp_log_ret_D22.L1	0.5616	0.262	2.142	0.033	[0.045, 1.078]
shang_log_ret_D14.L0	-0.3224	0.084	-3.832	0.000	[-0.488, -0.157]
shang_log_ret_D14.L1	0.0458	0.129	0.356	0.722	[-0.207, 0.299]
shang_log_ret_D22.L0	-0.0419	0.196	-0.214	0.831	[-0.427, 0.343]
shang_log_ret_D22.L1	0.1197	0.176	0.681	0.496	[-0.226, 0.466]
key_rate_log_change_D14.L0	-0.0895	0.101	-0.890	0.375	[-0.288, 0.109]
key_rate_log_change_D14.L1	0.1935	0.154	1.252	0.212	[-0.111, 0.498]
key_rate_log_change_D22.L0	-0.1154	0.090	-1.281	0.201	[-0.293, 0.062]
key_rate_log_change_D22.L1	-0.0153	0.104	-0.147	0.883	[-0.220, 0.189]

Главное в этой таблице - значение самого коэффицента и значение p-value из 4 столбца, которое отражает z-статистику для теста данного коэффицента.

Гипотезы:

$H_0$: $\beta_{i} = 0$ (коэффицент равен нулю и не значим)
$H_1$: $\beta_{i} > 0$

Формула: $$ z=\frac{\hat{\beta}i}{SE{HAC}(\hat{\beta}_i)} $$

Замечение: При создании модели мы передавали в функцию из библиотеки statsmodels параметр cov_type=HAC (Heteroscedasticity Autocorrelation Consistent), этот параметр влияет на оценку моделью стандартных ошибок. Метод оценки - MLE (метод подбора таким параметров, при которых вероятность получить искомые данные максимально высока) а не OLS (геометрический).

Проблемы

Очень большое количество переменных → потеря степеней свободы
Малое количество наблюдений после 2022
Статистическая незначимость большинства коэффициентов

6. Решение: Модель 2

Спецификация: Данная модель представляет собой две отдельные ARDL-модели, построенные до и после 2014 г. Такое разделение позволяет сохранить подход с фиктивными переменными, при этом дать нам больше наблюдений для второго периода.

1 часть (до 2014 г.)

$$\Delta \ln(\text{IMOEX}_t) = \alpha + \gamma D_{08} + \sum_{i=0}^{p} \beta_i X_{t-i} + \varepsilon_t$$

2 часть (с 2014 г.)

$$\Delta \ln(\text{IMOEX}_t) = \alpha + \gamma_{20} D_{20} + \gamma_{21} D_{21} + \gamma_{22} D_{22} + \sum_{i=0}^{p} \beta_i X_{t-i} + \sum_{i=0}^{p} \delta_i (D_{22} \cdot X_{t-i}) + \varepsilon_t$$

$$ D_{22} = \begin{cases} 0, & t < \text{24.02.2022} \\ 1, & t \geq \text{24.02.2022} \end{cases} $$

Результаты оценки ARDL-модели (1 часть)

Модель	ARDL(1, 1, 1, 0, 1, 0)
Зависимая переменная	`imoex_log_ret`
Метод	Conditional MLE
Дата	Thu, 19 Mar 2026
Время	07:49:42
Выборка	02-01-2001 – 10-01-2012
Количество наблюдений	142
Log Likelihood	180.393
SD of innovations	0.067
AIC	-338.787
BIC	-306.350
HQIC	-325.606

Коэффициенты модели

Переменная	Коэффициент	Стан. ошибка	z-статистика	P > \|z\|	95% Доверительный интервал
`const`	0.0156	0.008	2.070	0.040	[0.001, 0.030]
`imoex_log_ret.L1`	0.0727	0.071	1.027	0.306	[-0.067, 0.213]
`snp_log_ret.L0`	0.7420	0.115	6.477	0.000	[0.515, 0.969]
`snp_log_ret.L1`	0.1356	0.127	1.067	0.288	[-0.116, 0.387]
`shang_log_ret.L0`	0.2099	0.076	2.766	0.006	[0.060, 0.360]
`shang_log_ret.L1`	0.0408	0.101	0.404	0.687	[-0.159, 0.240]
`oil_log_ret.L0`	0.0061	0.011	0.538	0.591	[-0.016, 0.029]
`key_rate_log_change.L0`	0.1399	0.175	0.801	0.424	[-0.205, 0.485]
`key_rate_log_change.L1`	-0.1189	0.263	-0.452	0.652	[-0.639, 0.402]
`D08.L0`	-0.0699	0.027	-2.557	0.012	[-0.124, -0.016]

Диагностика

1. Тест Харке–Бера (Jarque–Bera Test)

Тест на нормальность распределения, основанный на коэффициентах асимметрии (skewness) и эксцесса (kurtosis):

$$ JB = \frac{n}{6} \left( S^2 + \frac{(K - 3)^2}{4} \right) $$

где:

$n$ — количество наблюдений;
$S$ — коэффициент асимметрии: $$ S = \frac{\hat{\mu}3}{\hat{\sigma}^3} = \frac{\frac{1}{n}\sum{i=1}^{n}(x_i - \bar{x})^3}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^{3/2}} $$
$K$ — коэффициент эксцесса: $$ K = \frac{\hat{\mu}4}{\hat{\sigma}^4} = \frac{\frac{1}{n}\sum{i=1}^{n}(x_i - \bar{x})^4}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^2} $$

Нулевая гипотеза $H_0$: распределение является нормальным.
Альтернативная гипотеза $H_1$: распределение не является нормальным.

При нормальном распределении $JB \sim \chi^2(2)$.

2. Тест ARCH-LM (Engle’s ARCH Lagrange Multiplier Test)

Тест на условную гетероскедастичность (непостоянность дисперсии) (ARCH-эффекты):

Наличие гетероскедастичности может сигнализировать о том, что подобранные коэффицента неэффективны. Так же гетероскедастичность влияент на t-статистику и может вести к неправильным результатам тестов.

Шаг 1. Оценивается регрессия квадратов остатков: $$ \hat{\varepsilon}t^2 = \alpha_0 + \alpha_1 \hat{\varepsilon}{t-1}^2 + \alpha_2 \hat{\varepsilon}{t-2}^2 + \dots + \alpha_q \hat{\varepsilon}{t-q}^2 + u_t $$ где $\hat{\varepsilon}_t$ — остатки основной модели, $q$ — количество лагов, $u_t$ — ошибка вспомогательной регрессии.

Шаг 2. Статистика теста: $$ LM = n \cdot R^2 \sim \chi^2(q) $$ где $n$ — число наблюдений во вспомогательной регрессии, $R^2$ — коэффициент детерминации этой регрессии, $q$ — число степеней свободы (DF в таблице).

Нулевая гипотеза $H_0$: $\alpha_1 = \alpha_2 = \dots = \alpha_q = 0$ (нет ARCH-эффектов).
Альтернативная гипотеза $H_1$: хотя бы один $\alpha_i \neq 0$ (есть ARCH-эффекты).

1 часть

Тест на нормальность

Jarque-Bera	P-value	Skewness	Kurtosis
6.341	0.042	-0.489	3.349

Тест на условную гомоскедастичность (ARCH-LM)

Lag	ARCH-LM	P-value	DF
1	0.001	0.976	1
2	0.100	0.951	2
3	0.378	0.945	3
4	4.259	0.372	4
5	4.143	0.529	5
6	4.377	0.626	6
7	4.613	0.707	7
8	7.434	0.491	8
9	11.232	0.260	9
10	12.156	0.275	10

2 часть

Тест на нормальность

Jarque-Bera	P-value	Skewness	Kurtosis
5.071	0.079	-0.357	3.682

Тест на условную гомоскедастичность (ARCH-LM)

Lag	ARCH-LM	P-value	DF
1	3.152	0.076	1
2	3.186	0.203	2
3	3.408	0.333	3
4	4.355	0.360	4
5	4.947	0.422	5
6	6.236	0.397	6
7	8.661	0.278	7
8	9.022	0.340	8
9	9.648	0.380	9
10	10.582	0.391	10

Как видно из теста Харке–Бера, p‑value в первой части модели < 0.05 → мы отвергаем гипотезу о нормальности распределения остатков.

Возможными причинами такой статистики могли послужить кризис 2008 года и пандемия 2020, вызвавшие последующие шоки на рынке. Мы попытались исправить эту проблему введением новых «шоковых» констант, которые должны поглотить данные выбросы.

7. Итоговая модель

Спецификация: Для максимально полного учёта шоков мы разделяем выборку на два периода (до 2014 г. и с 2014 г.) и в каждом периоде добавляем дамми-переменные, соответствующие кризисным эпизодам.

1 часть (до 2014 г.)

$$\Delta \ln(\text{IMOEX}_t) = \beta_0 + \gamma_{08} D_{08} + \sum_{i=0}^{p} \beta_i X_{t-i} + \varepsilon_t$$

$$ D_{08} = \begin{cases} 1, & \text{сентябрь 2008 – январь 2009} \\ 0, & \text{иначе} \end{cases} $$

2 часть (с 2014 г.)

$$\Delta \ln(\text{IMOEX}_t) = \beta_0 + \gamma_{20} D_{20} + \gamma_{21} D_{21} + \gamma_{22} D_{22} + \sum_{i=0}^{p} \beta_i X_{t-i} + \sum_{i=0}^{p} \delta_i (D_{22} \cdot X_{t-i}) + \varepsilon_t$$

$$ D_{20} = \begin{cases} 1, & \text{март 2020 – апрель 2020} \\ 0, & \text{иначе} \end{cases} $$

$$ D_{21} = \begin{cases} 1, & \text{апрель 2021 – декабрь 2021} \\ 0, & \text{иначе} \end{cases} $$

$$ D_{22} = \begin{cases} 0, & t < \text{24.02.2022} \\ 1, & t \geq \text{24.02.2022} \end{cases} $$

Модель	ARDL(1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0)
Зависимая переменная	`imoex_log_ret`
Метод	Conditional MLE
Дата	Thu, 19 Mar 2026
Время	07:49:42
Выборка	04-01-2014 – 08-01-2024
Количество наблюдений	126
Log Likelihood	208.710
SD of innovations	0.046
AIC	-385.420
BIC	-340.167
HQIC	-367.036

Коэффициенты модели

Переменная	Коэффициент	Стан. ошибка	z-статистика	P > \|z\|	95% Доверительный интервал
`const`	0.0029	0.005	0.537	0.592	[-0.008, 0.014]
`imoex_log_ret.L1`	-0.1256	0.097	-1.300	0.196	[-0.317, 0.066]
`snp_log_ret.L0`	0.5884	0.169	3.486	0.001	[0.254, 0.923]
`snp_log_ret.L1`	0.0563	0.123	0.457	0.649	[-0.188, 0.301]
`shang_log_ret.L0`	-0.0833	0.067	-1.251	0.213	[-0.215, 0.049]
`shang_log_ret.L1`	0.1250	0.091	1.379	0.171	[-0.055, 0.305]
`oil_log_ret.L0`	0.0388	0.029	1.341	0.183	[-0.019, 0.096]
`key_rate_log_change.L0`	-0.2586	0.094	-2.748	0.007	[-0.445, -0.072]
`key_rate_log_change.L1`	0.0624	0.061	1.018	0.311	[-0.059, 0.184]
`D22.L0`	-0.0049	0.012	-0.400	0.690	[-0.029, 0.020]
`D20.L0`	-0.0067	0.012	-0.567	0.572	[-0.030, 0.017]
`D21.L0`	0.0049	0.012	0.423	0.673	[-0.018, 0.028]
`snp_log_ret_D22.L0`	-0.1794	0.233	-0.769	0.444	[-0.642, 0.283]
`shang_log_ret_D22.L0`	0.4275	0.173	2.465	0.015	[0.084, 0.771]
`key_rate_log_change_D22.L0`	0.4038	0.103	3.902	0.000	[0.199, 0.609]

Диагностика

1 часть

Тест на нормальность

Jarque-Bera	P-value	Skewness	Kurtosis
6.341	0.042	-0.489	3.349

Тест на условную гомоскедастичность (ARCH-LM)

Lag	ARCH-LM	P-value	DF
1	0.001	0.976	1
2	0.100	0.951	2
3	0.378	0.945	3
4	4.259	0.372	4
5	4.143	0.529	5
6	4.377	0.626	6
7	4.613	0.707	7
8	7.434	0.491	8
9	11.232	0.260	9
10	12.156	0.275	10

2 часть

Тест на нормальность

Jarque-Bera	P-value	Skewness	Kurtosis
5.071	0.079	-0.357	3.682

Тест на условную гомоскедастичность (ARCH-LM)

Lag	ARCH-LM	P-value	DF
1	3.152	0.076	1
2	3.186	0.203	2
3	3.408	0.333	3
4	4.355	0.360	4
5	4.947	0.422	5
6	6.236	0.397	6
7	8.661	0.278	7
8	9.022	0.340	8
9	9.648	0.380	9
10	10.582	0.391	10

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
all_data		all_data
pics		pics
README.md		README.md
requirements.txt		requirements.txt
research.ipynb		research.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Исследование количественного изменения влияния внешних и внутренних факторов на индекс Мосбиржи IMOEX

Анализ корреляций до и после 2014/2022 гг.

1. Проблема

2. Основной тезис

3. Проблемы, с которыми мы столкнулись