1 Aula 1

Published

March 11, 2026

1.1 Diagramas causais

Um grafo acíclico dirigido (DAG) é uma representação gráfica de relações causais. A seta básica $X \rightarrow Y$ carrega vários significados simultâneos:

$X$ é parte do processo gerador de dados (PGD) de $Y$
Contrafactual: se $X$ não tivesse ocorrido, $Y$ provavelmente também não teria
Se propositalmente mudássemos o valor de $X$, $Y$ provavelmente se alteraria
Em resumo: $X$ causa $Y$

Duas propriedades importantes das causas nos DAGs:

Múltiplas causas. Um mesmo $Y$ pode ter várias causas: $X_1 \rightarrow Y$, $X_2 \rightarrow Y$, $X_3 \rightarrow Y$. Cada $X_i$ é uma causa parcial.
Causas são probabilísticas. Elas alteram a distribuição de $Y$, não determinam seu valor com certeza. Estamos falando de coletivos de unidades de observação.

Por que acíclico?

Setas unidirecionais não funcionam em ciclos. Um DAG deve ser acíclico — cadeias do tipo $A \rightarrow D \rightarrow E \rightarrow F \rightarrow A$ são proibidas. Há uma justificativa lógica: ciclos geram tautologias. Há também uma justificativa operacional: o aciclo viabiliza certas propriedades matemáticas que seriam impossíveis de outra forma.

1.2 Como escolher as setas

É muito difícil escolher quais setas não criar, porque o mundo é de fato complicado. A melhor forma de decidir quais setas incluir é por meio de revisão de literatura — em particular, revisão sistemática e meta-análise.

Revisão sistemática: permite identificar se o efeito existe e em que direção opera
Meta-análise: fornece pistas sobre a magnitude e a forma funcional da relação

Note

O DAG não informa nada sobre a forma funcional da relação entre as variáveis — apenas sobre sua existência e direção. A revisão de literatura preenche essa lacuna.

Simplificação de DAGs

Na prática, é necessário simplificar. Quatro estratégias úteis:

Eliminar fatores desimportantes (ligação obscura com $Y$ ou muito distante)
Agregar variáveis redundantes ou usar apenas uma delas
Eliminar irrelevâncias
Desconsiderar a representação de mediadores, se a mediação não é o alvo do interesse

1.3 Relações triádicas fundamentais

Toda a estrutura de um DAG pode ser decomposta em três tipos de relações entre três variáveis:

1. Mediação (chain)

$X \rightarrow M \rightarrow Y$ — e possivelmente também $X \rightarrow Y$ diretamente.

Code

dag_mediacao <- dagify(
  M ~ X,
  Y ~ M + X,
  coords = list(
    x = c(X = 0, M = 1, Y = 2),
    y = c(X = 0, M = 0, Y = 0)
  )
)
ggdag(dag_mediacao) + theme_dag()

2. Confusão / Confounder (fork)

Um determinante comum $Z$ que causa tanto $X$ quanto $Y$:

Code

dag_fork <- dagify(
  X ~ Z,
  Y ~ Z,
  coords = list(
    x = c(Z = 1, X = 0, Y = 2),
    y = c(Z = 1, X = 0, Y = 0)
  )
)
ggdag(dag_fork) + theme_dag()

3. Colisão / Collider (inverted fork)

Duas causas independentes que convergem num mesmo efeito: $X \rightarrow C \leftarrow Y$.

Code

dag_collider <- dagify(
  C ~ X + Y,
  coords = list(
    x = c(X = 0, Y = 2, C = 1),
    y = c(X = 1, Y = 1, C = 0)
  )
)
ggdag(dag_collider) + theme_dag()

O exemplo de Hollywood

Suponha que atores em Hollywood sejam selecionados por talento ou beleza — e que, na população geral, talento e beleza sejam independentes. Uma vez dentro desse grupo, observamos uma correlação negativa entre as duas características: quanto menos talentoso, mais belo — e vice-versa.

Essa correlação não existe na população; ela é criada pela seleção. Beleza e talento explicam conjuntamente a chance de estar em Hollywood — que é o collider.

Warning

Controlar por um collider tem o mesmo efeito de selecionar uma amostra que é fruto de um collider. Colliders são armadilhas como variáveis de controle.

1.4 Implicações observáveis

O DAG nos ajuda a desenhar diversas formas funcionais que, na prática, deveriam produzir os mesmos efeitos causais para uma variável de interesse. Um único DAG pode gerar dezenas de proposições empiricamente testáveis — independências condicionais, regressões equivalentes, restrições de sobreidentificação.

A função principal dos DAGs é, portanto, gerar implicações observáveis que podem ser confrontadas com os dados.

--- title: "Aula 1" date: 2026-03-11 --- ```{r} #| include: false library(ggdag) library(ggplot2) ``` ## Diagramas causais Um **grafo acíclico dirigido** (DAG) é uma representação gráfica de relações causais. A seta básica $X \rightarrow Y$ carrega vários significados simultâneos: - $X$ é parte do processo gerador de dados (PGD) de $Y$ - Contrafactual: se $X$ não tivesse ocorrido, $Y$ provavelmente também não teria - Se propositalmente mudássemos o valor de $X$, $Y$ provavelmente se alteraria - Em resumo: $X$ **causa** $Y$ Duas propriedades importantes das causas nos DAGs: 1. **Múltiplas causas.** Um mesmo $Y$ pode ter várias causas: $X_1 \rightarrow Y$, $X_2 \rightarrow Y$, $X_3 \rightarrow Y$. Cada $X_i$ é uma causa parcial. 2. **Causas são probabilísticas.** Elas alteram a distribuição de $Y$, não determinam seu valor com certeza. Estamos falando de coletivos de unidades de observação. ### Por que acíclico? Setas unidirecionais não funcionam em ciclos. Um DAG **deve** ser acíclico — cadeias do tipo $A \rightarrow D \rightarrow E \rightarrow F \rightarrow A$ são proibidas. Há uma justificativa lógica: ciclos geram tautologias. Há também uma justificativa operacional: o aciclo viabiliza certas propriedades matemáticas que seriam impossíveis de outra forma. --- ## Como escolher as setas É muito difícil escolher quais setas *não* criar, porque o mundo é de fato complicado. A melhor forma de decidir quais setas incluir é por meio de **revisão de literatura** — em particular, revisão sistemática e meta-análise. - **Revisão sistemática:** permite identificar se o efeito existe e em que direção opera - **Meta-análise:** fornece pistas sobre a magnitude e a forma funcional da relação ::: callout-note O DAG não informa nada sobre a forma funcional da relação entre as variáveis — apenas sobre sua existência e direção. A revisão de literatura preenche essa lacuna. ::: ### Simplificação de DAGs Na prática, é necessário simplificar. Quatro estratégias úteis: 1. Eliminar fatores desimportantes (ligação obscura com $Y$ ou muito distante) 2. Agregar variáveis redundantes ou usar apenas uma delas 3. Eliminar irrelevâncias 4. Desconsiderar a representação de mediadores, se a mediação não é o alvo do interesse --- ## Relações triádicas fundamentais Toda a estrutura de um DAG pode ser decomposta em três tipos de relações entre três variáveis: ### 1. Mediação (*chain*) $X \rightarrow M \rightarrow Y$ — e possivelmente também $X \rightarrow Y$ diretamente. ```{r} #| message: false #| fig-width: 5 #| fig-height: 2 dag_mediacao <- dagify( M ~ X, Y ~ M + X, coords = list( x = c(X = 0, M = 1, Y = 2), y = c(X = 0, M = 0, Y = 0) ) ) ggdag(dag_mediacao) + theme_dag() ``` ### 2. Confusão / *Confounder* (*fork*) Um determinante comum $Z$ que causa tanto $X$ quanto $Y$: ```{r} #| message: false #| fig-width: 4 #| fig-height: 2.5 dag_fork <- dagify( X ~ Z, Y ~ Z, coords = list( x = c(Z = 1, X = 0, Y = 2), y = c(Z = 1, X = 0, Y = 0) ) ) ggdag(dag_fork) + theme_dag() ``` ### 3. Colisão / *Collider* (*inverted fork*) Duas causas independentes que convergem num mesmo efeito: $X \rightarrow C \leftarrow Y$. ```{r} #| message: false #| fig-width: 4 #| fig-height: 2.5 dag_collider <- dagify( C ~ X + Y, coords = list( x = c(X = 0, Y = 2, C = 1), y = c(X = 1, Y = 1, C = 0) ) ) ggdag(dag_collider) + theme_dag() ``` #### O exemplo de Hollywood Suponha que atores em Hollywood sejam selecionados por talento *ou* beleza — e que, na população geral, talento e beleza sejam independentes. Uma vez dentro desse grupo, observamos uma correlação negativa entre as duas características: quanto menos talentoso, mais belo — e vice-versa. Essa correlação não existe na população; ela é **criada pela seleção**. Beleza e talento explicam conjuntamente a chance de estar em Hollywood — que é o collider. ::: callout-warning **Controlar por um collider tem o mesmo efeito de selecionar uma amostra que é fruto de um collider.** Colliders são armadilhas como variáveis de controle. ::: --- ## Implicações observáveis O DAG nos ajuda a desenhar diversas formas funcionais que, na prática, deveriam produzir os mesmos efeitos causais para uma variável de interesse. Um único DAG pode gerar dezenas de proposições empiricamente testáveis — independências condicionais, regressões equivalentes, restrições de sobreidentificação. A função principal dos DAGs é, portanto, **gerar implicações observáveis** que podem ser confrontadas com os dados.