Enabling pan-repository reanalysis for big data science of public metabolomics data

Yasin El Abiead; Michael Strobel; Thomas Payne; Eoin Fahy; Claire O’Donovan; Shankar Subramamiam; Juan Antonio Vizcaíno; Özgür Yürekten; Victoria Deleray; Simone Zuffa; Shipei Xing; Helena Mannochio-Russo; Ipsita Mohanty; Haoqi Nina Zhao; Andrés Mauricio Caraballo‐Rodríguez; Paulo Wender Portal Gomes; Nicole E. Avalon; Trent R. Northen; Benjamin P. Bowen; Katherine Louie; Pieter C. Dorrestein; Mingxun Wang

doi:10.1038/s41467-025-60067-y

Enabling pan-repository reanalysis for big data science of public metabolomics data

Yasin El Abiead(University of California San Diego), Michael Strobel(University of California, Riverside), Thomas Payne(European Bioinformatics Institute), Eoin Fahy(San Diego Supercomputer Center), Claire O’Donovan(European Bioinformatics Institute), Shankar Subramamiam(San Diego Supercomputer Center), Juan Antonio Vizcaíno(European Bioinformatics Institute), Özgür Yürekten(European Bioinformatics Institute), Victoria Deleray(University of California San Diego), Simone Zuffa(University of California San Diego), Shipei Xing(University of California San Diego), Helena Mannochio-Russo(University of California San Diego), Ipsita Mohanty(University of California San Diego), Haoqi Nina Zhao(University of California San Diego), Andrés Mauricio Caraballo‐Rodríguez(University of California San Diego), Paulo Wender Portal Gomes(University of California San Diego), Nicole E. Avalon(Scripps Institution of Oceanography), Trent R. Northen(Lawrence Berkeley National Laboratory), Benjamin P. Bowen(Lawrence Berkeley National Laboratory), Katherine Louie(Lawrence Berkeley National Laboratory), Pieter C. Dorrestein(University of California San Diego), Mingxun Wang(University of California, Riverside)

Nature Communications

May 24, 2025

10.1038/s41467-025-60067-y

Cited by 27Open Access

Full Text

Abstract

Public untargeted metabolomics data is a growing resource for metabolite and phenotype discovery; however, accessing and utilizing these data across repositories pose significant challenges. Therefore, here we develop pan-repository universal identifiers and harmonized cross-repository metadata. This ecosystem facilitates discovery by integrating diverse data sources from public repositories including MetaboLights, Metabolomics Workbench, and GNPS/MassIVE. Our approach simplified data handling and unlocks previously inaccessible reanalysis workflows, fostering unmatched research opportunities.

Related Papers

No related papers found

Powered by citation graph analysis