Federated Learning Performance Depends on Site Variation in Global HIV Data Consortia

Jackson, N. J.; Yan, C.; Caro-Vega, Y.; Paredes, F.; Ismerio Moreira, R.; Cadet, S.; Varela, D.; Cesar, C.; Duda, S. N.; Shepherd, B. E.; Malin, B. A.

2026-03-27 health informatics

10.64898/2026.03.25.26349286 medRxiv

Show abstract

Digital health technologies, including machine learning (ML), are transforming infectious disease management, however ML models for HIV care have been limited by data sharing restrictions that prevent multi-site collaboration. Federated Learning (FL) offers a privacy-preserving solution, enabling cross-site model training without sharing patient-level data. We evaluated FL for developing clinical prediction models using data from 22,234 people living with HIV (PLWH) across six sites in five countries within the Caribbean, Central, and South America network for HIV epidemiology (CCASAnet). Across four prediction tasks --- 1-year mortality, 3-year mortality, tuberculosis incidence, and AIDS-defining cancer incidence --- FL algorithms achieved near-centralized performance while substantially outperforming site-specific models. Performance gains varied across sites, driven by both site size and between-site heterogeneity. Local fine-tuning often improved FL performance, though benefits were task dependent. These findings support FL as a scalable, privacy-preserving infrastructure for multi-site ML in international HIV research.

Matching journals

●Non-profit ◐University press ○Commercial

The top 5 journals account for 50% of the predicted probability mass.

Only show non-profit

npj Digital Medicine

○ 97 papers in training set

Nature Communications

○ 4913 papers in training set

○ 70 papers in training set

Nature Medicine

○ 117 papers in training set

PLOS Digital Health

● 91 papers in training set

50% of probability mass above

Journal of the American Medical Informatics Association

◐ 61 papers in training set

Nature Computational Science

○ 50 papers in training set

Scientific Reports

○ 3102 papers in training set

● 4510 papers in training set

○ 167 papers in training set

Science Translational Medicine

● 111 papers in training set

Nature Biomedical Engineering

○ 42 papers in training set

Science Advances

● 1098 papers in training set

PLOS Computational Biology

● 1633 papers in training set

● 5422 papers in training set

The Lancet Digital Health

○ 25 papers in training set

International Journal of Medical Informatics

○ 25 papers in training set

◐ 1061 papers in training set

Communications Medicine

○ 85 papers in training set

Communications Biology

○ 886 papers in training set

Frontiers in Digital Health

○ 20 papers in training set

○ 38 papers in training set

◐ 172 papers in training set

○ 1063 papers in training set

Journal of Medical Internet Research

◐ 85 papers in training set

IEEE Journal of Biomedical and Health Informatics

● 34 papers in training set

Nature Machine Intelligence

○ 61 papers in training set

Journal of Biomedical Informatics

○ 45 papers in training set

Nature Genetics

○ 240 papers in training set

Advanced Science

○ 249 papers in training set