Capítulo 13 Ética en la gestión de datos
La selección de muestras endógenas y la asignación de tratamientos endógenos son problemas comunes en los datos observacionales. Pueden ocurrir juntos o por separado.8
13.1 Endogeneidad y autoselección
La selección muestral es un término ambiguo porque diferentes autores lo han usado con diferentes connotaciones. Para agregar más ambigüedad, en algunas disciplinas la selección muestral se ha equiparado con el sesgo de falta de respuesta y con el sesgo de selección.9
Selección muestral endógena y exógena
Cuando hay selección muestral, un proceso mapea a cada persona dentro o fuera de la muestra.
Este proceso depende de variables observables y factores no observables.
Cuando los factores no observables que afectan quién está en la muestra son independientes de los factores no observables que afectan el resultado, la selección muestral es exógena.
En este caso, la selección muestral es ignorable: nuestro estimador que ignora la selección de la muestra (por ejemplo, la regresión en el caso lineal) aún es consistente.
Por el contrario, cuando los factores no observables que afectan a quiénes estén incluida en la muestra se correlacionan con los factores no observables que afectan el resultado, la selección de la muestra es endógena y no ignorable, porque los estimadores que ignoran la selección de la muestra endógena no son consistentes en este caso.
Las regresiones del efecto del tratamiento modelan el efecto de un tratamiento o intervención discretos sobre el resultado.
En los datos observacionales, no podemos asignar aleatoriamente un tratamiento de interés a los individuos.
El estado del tratamiento puede estar relacionado con otras covariables que medimos. Incluso, puede estar relacionado con los factores no observados que afectan el resultado y ser por lo tanto, endógeno.
El tratamiento puede interpretarse como una covariable que afecta el resultado.
Los estimadores que ignoran la endogeneidad del tratamiento serán inconsistentes, al igual que los estimadores que ignoran la endogeneidad de las covariables.
El tratamiento puede tener un efecto de intersección en el resultado, o efectos de intersección y pendiente (donde las betas de las otras covariables difieren según el nivel de tratamiento).
Puede que haya diferentes correlaciones entre los errores de asignación de tratamiento y los errores de resultado en los grupos de control y tratamiento. También puede diferir la varianza para cada grupo de tratamiento.
Adaptado de Daniel Millimet↩︎
Gran parte de la ambigüedad surge de la imprecisión de las personas que investigan sobre cuándo se puede ignorar (estadísticamente hablando) la selección muestral.↩︎