De novo generation of small molecules from mass spectra via discrete diffusion model
De novo generování malých molekul z hmotnostních spekter pomocí modelu diskrétní difúze
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200889Identifikátory
SIS: 282334
Kolekce
- Kvalifikační práce [11606]
Autor
Vedoucí práce
Oponent práce
Hoksza, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
20. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Difuzní modely|Generování molekulových grafů|Tandemová hmotnostní spektra|Podmíněné generováníKlíčová slova (anglicky)
Diffusion Models|Molecular graph generation|Tandem mass spectra|Conditional generationTandemová hmotnostní spektrometrie je účinná metoda pro objevování molekul. Postupně prochází molekuly ve vzorku a fragmentuje je. Informace o vzniklých fragmentech jsou uloženy jako tandemová hmotnostní spektra. Tato spektra kódují strukturální znaky užitečné pro rekonstrukci molekulových grafů. Rekonstrukce molekul ze spekter je náročná kvůli omezenému množství parovanych dat a mnohočetnému přiřazení mezi spektry a molekulárními strukturami. Představujeme diskrétní difuzní model pro generování molekul, který je podmíněn přesnými molekulárními vzorci a DreaMS embeddingy tandemových hmotnostních spekter. Náš model překonává předchozí textové přístupy ve všech měřených metrikách a dosahuje nejlepšího výsledku (state-of-the-art) v top-1 MCES vzdálenosti na testovacím datasetu MassSpecGym. Výsledky ukazují, že model dokáže generovat molekuly se strukturální podobností k referenčním molekulárním strukturám. Tato práce poskytuje základ pro další zlepšení v oblasti de novo generování molekul.
Tandem mass spectrometry is a powerful method for discovering molecules. It iterates over the molecules in a sample and fragments them. Information about the resulting fragments is saved as tandem mass spectra. These spectra encode structural features useful for reconstructing molecular graphs. Reconstructing molecules from spectra is challenging due to limited paired data and the many- to-many mapping between spectra and molecular structures. We introduce a discrete diffusion model for molecular generation, conditioned on exact molecular formulas and DreaMS embeddings of tandem mass spectra. Our model outperforms previous text-based approaches across all measured metrics and achieves state-of-the-art top-1 MCES distance on the MassSpecGym test fold. The results show that the model can generate molecules with structural similarity to the ground truth molecular structures. This work offers a foundation for future improvements in de novo molecular generation.