Published

March 11, 2026

1.1 Diagramas causais

Um grafo acíclico dirigido (DAG) é uma representação gráfica de relações causais. A seta básica \(X \rightarrow Y\) carrega vários significados simultâneos:

  • \(X\) é parte do processo gerador de dados (PGD) de \(Y\)
  • Contrafactual: se \(X\) não tivesse ocorrido, \(Y\) provavelmente também não teria
  • Se propositalmente mudássemos o valor de \(X\), \(Y\) provavelmente se alteraria
  • Em resumo: \(X\) causa \(Y\)

Duas propriedades importantes das causas nos DAGs:

  1. Múltiplas causas. Um mesmo \(Y\) pode ter várias causas: \(X_1 \rightarrow Y\), \(X_2 \rightarrow Y\), \(X_3 \rightarrow Y\). Cada \(X_i\) é uma causa parcial.
  2. Causas são probabilísticas. Elas alteram a distribuição de \(Y\), não determinam seu valor com certeza. Estamos falando de coletivos de unidades de observação.

Por que acíclico?

Setas unidirecionais não funcionam em ciclos. Um DAG deve ser acíclico — cadeias do tipo \(A \rightarrow D \rightarrow E \rightarrow F \rightarrow A\) são proibidas. Há uma justificativa lógica: ciclos geram tautologias. Há também uma justificativa operacional: o aciclo viabiliza certas propriedades matemáticas que seriam impossíveis de outra forma.


1.2 Como escolher as setas

É muito difícil escolher quais setas não criar, porque o mundo é de fato complicado. A melhor forma de decidir quais setas incluir é por meio de revisão de literatura — em particular, revisão sistemática e meta-análise.

  • Revisão sistemática: permite identificar se o efeito existe e em que direção opera
  • Meta-análise: fornece pistas sobre a magnitude e a forma funcional da relação
Note

O DAG não informa nada sobre a forma funcional da relação entre as variáveis — apenas sobre sua existência e direção. A revisão de literatura preenche essa lacuna.

Simplificação de DAGs

Na prática, é necessário simplificar. Quatro estratégias úteis:

  1. Eliminar fatores desimportantes (ligação obscura com \(Y\) ou muito distante)
  2. Agregar variáveis redundantes ou usar apenas uma delas
  3. Eliminar irrelevâncias
  4. Desconsiderar a representação de mediadores, se a mediação não é o alvo do interesse

1.3 Relações triádicas fundamentais

Toda a estrutura de um DAG pode ser decomposta em três tipos de relações entre três variáveis:

1. Mediação (chain)

\(X \rightarrow M \rightarrow Y\) — e possivelmente também \(X \rightarrow Y\) diretamente.

Code
dag_mediacao <- dagify(
  M ~ X,
  Y ~ M + X,
  coords = list(
    x = c(X = 0, M = 1, Y = 2),
    y = c(X = 0, M = 0, Y = 0)
  )
)
ggdag(dag_mediacao) + theme_dag()

2. Confusão / Confounder (fork)

Um determinante comum \(Z\) que causa tanto \(X\) quanto \(Y\):

Code
dag_fork <- dagify(
  X ~ Z,
  Y ~ Z,
  coords = list(
    x = c(Z = 1, X = 0, Y = 2),
    y = c(Z = 1, X = 0, Y = 0)
  )
)
ggdag(dag_fork) + theme_dag()

3. Colisão / Collider (inverted fork)

Duas causas independentes que convergem num mesmo efeito: \(X \rightarrow C \leftarrow Y\).

Code
dag_collider <- dagify(
  C ~ X + Y,
  coords = list(
    x = c(X = 0, Y = 2, C = 1),
    y = c(X = 1, Y = 1, C = 0)
  )
)
ggdag(dag_collider) + theme_dag()

O exemplo de Hollywood

Suponha que atores em Hollywood sejam selecionados por talento ou beleza — e que, na população geral, talento e beleza sejam independentes. Uma vez dentro desse grupo, observamos uma correlação negativa entre as duas características: quanto menos talentoso, mais belo — e vice-versa.

Essa correlação não existe na população; ela é criada pela seleção. Beleza e talento explicam conjuntamente a chance de estar em Hollywood — que é o collider.

Warning

Controlar por um collider tem o mesmo efeito de selecionar uma amostra que é fruto de um collider. Colliders são armadilhas como variáveis de controle.


1.4 Implicações observáveis

O DAG nos ajuda a desenhar diversas formas funcionais que, na prática, deveriam produzir os mesmos efeitos causais para uma variável de interesse. Um único DAG pode gerar dezenas de proposições empiricamente testáveis — independências condicionais, regressões equivalentes, restrições de sobreidentificação.

A função principal dos DAGs é, portanto, gerar implicações observáveis que podem ser confrontadas com os dados.