Re-Evaluating Machine Learning for MRP Given the Comparable Performance of (Deep) Hierarchical Models

Max Goplerud (2023) @ American Political Science Review, 1-8

Felipe Lamarca – felipelamarca@iesp.uerj.br

Relembrando

MrP

A técnica de MrP envolve (\(\approx\)) duas etapas:

  1. ajustamos um modelo de regressão multinível para estimar \(\mathbb{P}(y_i = 1 | X_i)\)
  2. usamos a probabilidade estimada para calcular as proporções na população (em termos de \(N\))

Outras abordagens

Usar regressão multinível faz sentido, mas não é a única abordagem possível. Na prática, podemos optar por qualquer abordagem que estime probabilidades (por exemplo, árvores de decisão (Bisbee 2019)).

De fato, outras abordagens podem ser preferíveis, inclusive por frequentemente serem não-paramétricas e naturalmente lidarem com interações não lineares entre as covariáveis.

⌛Bottleneck

Modelos multinível podem lidar com interações não-lineares a partir de termos interativos (Ghitza and Gelman 2013).

O grande bottleneck desses modelos complexos (deep) é o tempo necessário para ajustá-los (Goplerud 2023).

  • Goplerud (2022) mostra que podemos acelerar (e muito) o tempo de estimação usando inferência variacional (de várias horas para alguns minutos ou segundos);

  • Goplerud (2023) expande testes de performance de modelos multinível contra modelos de machine learning (i) ajustando a escolha da priori sobre os parâmetros, (ii) usando splines para capturar os efeitos não-lineares de covariáveis contínuas e (iii) aplicando ensemble learning.

While recent work has reported that BART outperforms noticeably better than traditional MRP (Bisbee 2019), I demonstrate that this is not the case. (Goplerud 2023, 530)

A escolha da priori para \(\sigma_j\)

  • Uma priori gama-inversa põe pouca probabilidade em valores próximos de 0 e, portanto, superestimamos o efeito aleatório
  • A priori Huang-Wand põe mais peso em valores menores do efeito aleatório, permitindo maior regularização. Com efeito, o tempo de ajuste é “infinitamente” maior.

Which prior distribution to choose?

Os dados e os modelos

Usa os mesmos dados de Buttice and Highton (2013) – o dataset com 89 policy questions. O modelo utilizado na ocasião, no entanto, é muito simples e não serve aos propósitos de Goplerud (2023), mesmo porque inclui apenas um termo interativo:

\[ \begin{align} \mathbb{P}(y_i = 1 | X_i) = \text{logit}^{-1}( &\beta_0 + \beta_{\text{pvote}} \cdot \text{pvote}_{g[i]} + \beta_{\text{relig}} \cdot \text{relig}_{g[i]} + \\ &\alpha^{\text{age}}_{g[i]} + \alpha^{\text{educ}}_{g[i]} + \alpha^{\text{g} \times \text{r}}_{g[i]} + \alpha^{\text{state}}_{g[i]} + \alpha^{\text{region}}_{g[i]} ) \end{align} \]

\(\alpha_g^j \sim \mathcal{N}(0, \sigma^2_j) \ \text{for all } j \ \text{and} \ g.\)

O autor expande esse modelo em 3 versões:

  1. Adiciona termos interativos entre covariáveis demográficas e geográficas;
  2. Adiciona splines (combinações de polinômios) para capturar efeitos não lineares;
  3. A combinação de 1 e 2.

Ensemble learning

Ao invés de usar os modelos de MRP especificados por si só, Goplerud (2023) os combina a várias técnicas de machine learning em um ensemble.

Resultados do ensemble

Problema: pode ser mais difícil quantificar incerteza quando você combina vários modelos. Nesse caso, pesquisadores podem preferir usar um único modelo.

O erro em Bisbee (2019)

After some preliminary exploration, I discovered an error in Bisbee (2019)’s replication archive. […]. In brief, the error arbitrarily injected random noise into the MRP estimates at the prediction stage. When this is corrected, traditional MRP’s performance increases markedly and is only slightly beaten by BART. (Goplerud 2023, p 533)

Corrigendum

Conclusões

  1. Se o bottleneck de modelos multinível “profundos” (i.e., com muitos parâmetros a serem estimados) é o tempo necessário para ajustá-los, a inferência variacional é uma estratégia eficiente de lidar com o problema;

  2. Modelos de machine learning, apesar de atrativos por serem não-paramétricos e aprenderem relações não-lineares de maneira eficiente, não necessariamente performam melhor que a modelagem multinível e podem ser mais difíceis de interpretar;

  3. A combinação de várias técnicas (via ensemble) é uma boa estratégia para melhorar a capacidade preditiva. Ainda assim, os modelos de regressão multinível normalmente apresentam – pelo menos em Goplerud (2023) – a maior capacidade de previsão fora da amostra.

Sugestões

Breiman (2001)

Shmueli (2010)

Referências

Bisbee, James. 2019. “BARP: Improving Mister p Using Bayesian Additive Regression Trees.” American Political Science Review 113 (4): 1060–65.
Breiman, Leo. 2001. “Statistical Modeling: The Two Cultures (with Comments and a Rejoinder by the Author).” Statistical Science 16 (3): 199–231. https://doi.org/10.1214/ss/1009213726.
Buttice, M. K., and B. Highton. 2013. “How Does Multilevel Regression and Poststratification Perform with Conventional National Surveys?” Political Analysis, 449–67.
Ghitza, Yair, and Andrew Gelman. 2013. “Deep Interactions with MRP: Election Turnout and Voting Patterns Among Small Electoral Subgroups.” American Journal of Political Science 57 (3): 762–76.
Goplerud, Max. 2022. “Fast and Accurate Estimation of Non-Nested Binomial Hierarchical Models Using Variational Inference.” Bayesian Analysis, 623–50.
———. 2023. “Re-Evaluating Machine Learning for MRP Given the Comparable Performance of (Deep) Hierarchical Models.” American Political Science Review, 1–8.
Shmueli, Galit. 2010. “To Explain or to Predict?” Statistical Science 25 (3): 289–310. https://doi.org/10.1214/10-STS330.