Unmeasured but Not Unbiased: The Missingness Demographic Leakage Audit (MDLA) for Calibration-Aware Fairness Evaluation in Critical Care Mortality Prediction

Patel, K.; Beedala, P.

2026-05-03 health informatics

10.64898/2026.05.01.26352193 medRxiv

Show abstract

ObjectiveClinical prediction models trained on electronic health records are routinely evaluated for fairness on observed feature values, but the informativeness of which measurements are absent remains unaudited. We developed the Missingness Demographic Leakage Audit (MDLA), a reproducible four-step informatics framework that tests whether patterns of clinical measurement absence function as latent demographic proxies -- constituting a bias pathway invisible to standard fairness audits. Materials and MethodsWe applied MDLA across development (MIMIC-IV v2.2; n=50,827; mortality 10.2%) and external validation (eICU-CRD v2.0; n=137,773; mortality 9.5%) cohorts following TRIPOD+AI standards. XGBoost, random forest, and logistic regression were trained on 43 clinical features and 44 binary missingness indicators. MDLA quantified demographic predictability from missingness alone, tested feature-level associations with Bonferroni correction, and verified model reliance via ablation. A calibration-aware fairness audit evaluated five criteria across four demographic axes; six post-hoc recalibration strategies were compared on a fairness-utility Pareto frontier. ResultsMissingness indicators alone predicted racial group membership above chance (AUROC=0.543; 95% CI, 0.540-0.546), with 18 of 43 features showing Bonferroni-significant race-missingness associations (all Cramers V<0.10). Ablation confirmed model reliance: adding missingness indicators increased racial AUROC disparity by 10.7% (0.063 to 0.069) without improving global performance. XGBoost achieved AUROC=0.910 internally (AUROC=0.799 on external validation). Global Platt recalibration reduced overall calibration error by 94% and maximum racial calibration error by 51%, with zero AUROC loss and successful parameter transfer to external validation without retraining. ConclusionMDLA provides a structured, reproducible protocol for detecting missingness-encoded demographic signals prior to model deployment. Applied across 188,600 ICU patient-stays from two institutionally diverse databases, it identified a statistically confirmed but subtle bias pathway undetectable by standard fairness audits. Missingness-aware auditing and calibration-aware evaluation should be integrated into clinical AI validation pipelines.

Unmeasured but Not Unbiased: The Missingness Demographic Leakage Audit (MDLA) for Calibration-Aware Fairness Evaluation in Critical Care Mortality Prediction

Matching journals