Max Goplerud (2023) @ American Political Science Review, 1-8
A técnica de MrP envolve (\(\approx\)) duas etapas:
Usar regressão multinível faz sentido, mas não é a única abordagem possível. Na prática, podemos optar por qualquer abordagem que estime probabilidades (por exemplo, árvores de decisão (Bisbee 2019)).
De fato, outras abordagens podem ser preferíveis, inclusive por frequentemente serem não-paramétricas e naturalmente lidarem com interações não lineares entre as covariáveis.
Modelos multinível podem lidar com interações não-lineares a partir de termos interativos (Ghitza and Gelman 2013).
O grande bottleneck desses modelos complexos (deep) é o tempo necessário para ajustá-los (Goplerud 2023).
Goplerud (2022) mostra que podemos acelerar (e muito) o tempo de estimação usando inferência variacional (de várias horas para alguns minutos ou segundos);
Goplerud (2023) expande testes de performance de modelos multinível contra modelos de machine learning (i) ajustando a escolha da priori sobre os parâmetros, (ii) usando splines para capturar os efeitos não-lineares de covariáveis contínuas e (iii) aplicando ensemble learning.
While recent work has reported that BART outperforms noticeably better than traditional MRP (Bisbee 2019), I demonstrate that this is not the case. (Goplerud 2023, 530)
Which prior distribution to choose?
Usa os mesmos dados de Buttice and Highton (2013) – o dataset com 89 policy questions. O modelo utilizado na ocasião, no entanto, é muito simples e não serve aos propósitos de Goplerud (2023), mesmo porque inclui apenas um termo interativo:
\[ \begin{align} \mathbb{P}(y_i = 1 | X_i) = \text{logit}^{-1}( &\beta_0 + \beta_{\text{pvote}} \cdot \text{pvote}_{g[i]} + \beta_{\text{relig}} \cdot \text{relig}_{g[i]} + \\ &\alpha^{\text{age}}_{g[i]} + \alpha^{\text{educ}}_{g[i]} + \alpha^{\text{g} \times \text{r}}_{g[i]} + \alpha^{\text{state}}_{g[i]} + \alpha^{\text{region}}_{g[i]} ) \end{align} \]
\(\alpha_g^j \sim \mathcal{N}(0, \sigma^2_j) \ \text{for all } j \ \text{and} \ g.\)
O autor expande esse modelo em 3 versões:
Ao invés de usar os modelos de MRP especificados por si só, Goplerud (2023) os combina a várias técnicas de machine learning em um ensemble.
Resultados do ensemble
Problema: pode ser mais difícil quantificar incerteza quando você combina vários modelos. Nesse caso, pesquisadores podem preferir usar um único modelo.
After some preliminary exploration, I discovered an error in Bisbee (2019)’s replication archive. […]. In brief, the error arbitrarily injected random noise into the MRP estimates at the prediction stage. When this is corrected, traditional MRP’s performance increases markedly and is only slightly beaten by BART. (Goplerud 2023, p 533)
Corrigendum
Se o bottleneck de modelos multinível “profundos” (i.e., com muitos parâmetros a serem estimados) é o tempo necessário para ajustá-los, a inferência variacional é uma estratégia eficiente de lidar com o problema;
Modelos de machine learning, apesar de atrativos por serem não-paramétricos e aprenderem relações não-lineares de maneira eficiente, não necessariamente performam melhor que a modelagem multinível e podem ser mais difíceis de interpretar;
A combinação de várias técnicas (via ensemble) é uma boa estratégia para melhorar a capacidade preditiva. Ainda assim, os modelos de regressão multinível normalmente apresentam – pelo menos em Goplerud (2023) – a maior capacidade de previsão fora da amostra.