Identifikace sekvenačních chyb v NGS vznikajících na podkladě sekvenčního kontextu, analytických postupů a mapovacích nástrojů
Identification of NGS sequencing errors caused by sequencing context, analytical procedures, and mapping tools
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200223Identifikátory
SIS: 266930
Kolekce
- Kvalifikační práce [20864]
Autor
Vedoucí práce
Konzultant práce
Kleibl, Zdeněk
Oponent práce
Holý, Petr
Fakulta / součást
Přírodovědecká fakulta
Obor
Bioinformatika
Katedra / ústav / klinika
Katedra buněčné biologie
Datum obhajoby
17. 6. 2025
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
Illumina, DNA sekvenování, mapování, variant calling, chybyKlíčová slova (anglicky)
Illumina, DNA sequencing, mapping, variant calling, errorsSekvenování DNA je základním pilířem moderní diagnostiky pro současné potřeby molekulární medicíny. Ačkoliv soudobé technologie sekvenování druhé generace (NGS) umožňují efektivní přečtení celého lidského genomu, jsou - od přípravy vzorku po bioinformatickou analýzu - stále zatíženy různými chybami. Ty mohou mít závažné důsledky pro výstupy výsledného genetického vyšetření. Práce se zaměřuje na systematické chyby specifické pro nejrozšířenější diagnostickou platformu NGS, technologii Illumina, při analýze germinální DNA. Práce se věnuje chybám vyplývajícím ze sekvenčního kontextu, vznikajícím v důsledku sekvenační technologie, chybám souvisejícím s bioinformatickým zpracování, včetně mapování krátkých čtení na referenční genom a chybám vznikajícím během identifikace variantních alel (variant callingu). Cílem práce je přispět k lepšímu porozumění zdrojům těchto chyb a podpořit přesnější a bezpečnější využití NGS v klinickém prostředí. Výsledky mohou sloužit jako referenční rámec pro výběr vhodných nástrojů, metod a parametrů v bioinformatické analýze genomových dat.
DNA sequencing represents a fundamental pillar ofmoderndiagnostics for current needs of molecular medicine. Although today's next-generation sequencing (NGS) technologies enable efficient reading of the entire humangenome, they are - from sample preparation to bioinformatic analysis - still affected by various types of errors. These errors can have serious consequences for the results of genetic testing. This thesis focuses on systematic errors specific to the most widely used diagnostic NGS platform, the Illumina technology, in the analysis of germline DNA. It addresses errors arising from the sequence context, errors caused by the sequencing technology itself, errors associated with bioinformatic processing - including the mapping of short reads to the reference genome - and errors emerging during variant allele identification (variant calling). The aim of this thesis is to contribute to a better understanding of the sources of these errors and to support the more accurate and safer application of NGS in the clinical setting. The results can serve as a reference framework for the selection of appropriate tools, methods, and parameters in the bioinformatic analysis of genomic data.