De novo generation of small molecules from mass spectra via discrete diffusion model
De novo generování malých molekul z hmotnostních spekter pomocí modelu diskrétní difúze
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/200889Identifiers
Study Information System: 282334
Collections
- Kvalifikační práce [11606]
Author
Advisor
Referee
Hoksza, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Department of Software and Computer Science Education
Date of defense
20. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Difuzní modely|Generování molekulových grafů|Tandemová hmotnostní spektra|Podmíněné generováníKeywords (English)
Diffusion Models|Molecular graph generation|Tandem mass spectra|Conditional generationTandemová hmotnostní spektrometrie je účinná metoda pro objevování molekul. Postupně prochází molekuly ve vzorku a fragmentuje je. Informace o vzniklých fragmentech jsou uloženy jako tandemová hmotnostní spektra. Tato spektra kódují strukturální znaky užitečné pro rekonstrukci molekulových grafů. Rekonstrukce molekul ze spekter je náročná kvůli omezenému množství parovanych dat a mnohočetnému přiřazení mezi spektry a molekulárními strukturami. Představujeme diskrétní difuzní model pro generování molekul, který je podmíněn přesnými molekulárními vzorci a DreaMS embeddingy tandemových hmotnostních spekter. Náš model překonává předchozí textové přístupy ve všech měřených metrikách a dosahuje nejlepšího výsledku (state-of-the-art) v top-1 MCES vzdálenosti na testovacím datasetu MassSpecGym. Výsledky ukazují, že model dokáže generovat molekuly se strukturální podobností k referenčním molekulárním strukturám. Tato práce poskytuje základ pro další zlepšení v oblasti de novo generování molekul.
Tandem mass spectrometry is a powerful method for discovering molecules. It iterates over the molecules in a sample and fragments them. Information about the resulting fragments is saved as tandem mass spectra. These spectra encode structural features useful for reconstructing molecular graphs. Reconstructing molecules from spectra is challenging due to limited paired data and the many- to-many mapping between spectra and molecular structures. We introduce a discrete diffusion model for molecular generation, conditioned on exact molecular formulas and DreaMS embeddings of tandem mass spectra. Our model outperforms previous text-based approaches across all measured metrics and achieves state-of-the-art top-1 MCES distance on the MassSpecGym test fold. The results show that the model can generate molecules with structural similarity to the ground truth molecular structures. This work offers a foundation for future improvements in de novo molecular generation.