Použití LLM k vytvoření znalostní databáze nad dokumenty

Lejko, Martin

Using LLM to create a knowledge base from documents

dc.contributor.advisor	Škoda, Petr
dc.creator	Lejko, Martin
dc.date.accessioned	2025-07-11T09:21:55Z
dc.date.available	2025-07-11T09:21:55Z
dc.date.issued	2025
dc.identifier.uri	http://hdl.handle.net/20.500.11956/200827
dc.description.abstract	Velké jazykové modely (LLM) čelí při použití v oblasti podnikových dokumentů řadě výzev, včetně zastaralých znalostí, halucinací a rizik spojených s ochranou soukromí při využívání cloudových služeb. Tato práce se těmito problémy zabývá prostřednictvím návrhu plně lokální implementace retrieval-augmented generation na běžném osobním počítači s cílem zajistit úplnou ochranu dat. Výzkum se zaměřuje na analýzu charakteristik dokumentů, zejména finančních zpráv, a na vytvoření počátečního proof-of-concept řešení pomocí open-source nástrojů, jako je Ollama a kvantované LLM. Práce využívá iterativní přístup k vývoji systému, kdy je systém postupně vylepšován cílenými úpravami jednotlivých komponent pipeline. Každá iterace je systematicky hodnocena pomocí LLM, který slouží jako hodnotitel změn výkonu a kvality. Výsledkem je funkční pipeline pro retrieval-augmented generation, která ukazuje praktickou proveditelnost bezpečného a soukromí chránícího vyhledávání informací na osobním počítači. Tato práce přináší poznatky o optimalizaci lokálních konfigurací, hodnotí kompromisy při omezených zdrojích a nabízí nový rámec pro hodnocení a zlepšování retrieval-augmented generation pipeline.	cs_CZ
dc.description.abstract	Large language models (LLMs) face challenges when applied to enterprise documents, including outdated knowledge, hallucinations, and privacy risks associated with cloud-based services. This thesis addresses these problems by exploring a fully local implementation of retrieval-augmented generation on standard personal computer to ensure complete data privacy. The research focuses on analyzing document characteristics, particularly financial reports, and building an initial proof-of-concept pipeline using open-source tools such as Ollama and quantized LLMs. The work adopts an iterative development approach, refining the system through targeted modifications of individual pipeline components. Each iteration is systematically evaluated using an LLM as a judge to assess changes in performance and quality. The final outcome is a functional retrieval-augmented generation pipeline that demonstrates the practical feasibility of secure, privacy-preserving information retrieval on a personal computer. This thesis provides insights into optimizing local configurations, evaluates trade-offs under resource constraints, and offers a novel assessment framework for improving retrieval-augmented generation pipelines.	en_US
dc.language	Čeština	cs_CZ
dc.language.iso	cs_CZ
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	zpracování přirozeného textu\|velké jazykové modely\|čištění dat	en_US
dc.subject	natural language processing\|Large Language Models\|retrieval augmented generation\|data cleaning	cs_CZ
dc.title	Použití LLM k vytvoření znalostní databáze nad dokumenty	cs_CZ
dc.type	bakalářská práce	cs_CZ
dcterms.created	2025
dcterms.dateAccepted	2025-06-20
dc.description.department	Katedra softwarového inženýrství	cs_CZ
dc.description.department	Department of Software Engineering	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.identifier.repId	281139
dc.title.translated	Using LLM to create a knowledge base from documents	en_US
dc.contributor.referee	Koupil, Pavel
thesis.degree.name	Bc.
thesis.degree.level	bakalářské	cs_CZ
thesis.degree.discipline	Computer Science with specialisation in Programming and Software Development	en_US
thesis.degree.discipline	Informatika se specializací Programování a vývoj software	cs_CZ
thesis.degree.program	Informatika	cs_CZ
thesis.degree.program	Computer Science	en_US
uk.thesis.type	bakalářská práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Katedra softwarového inženýrství	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Department of Software Engineering	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Informatika se specializací Programování a vývoj software	cs_CZ
uk.degree-discipline.en	Computer Science with specialisation in Programming and Software Development	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Computer Science	en_US
thesis.grade.cs	Velmi dobře	cs_CZ
thesis.grade.en	Very good	en_US
uk.abstract.cs	Velké jazykové modely (LLM) čelí při použití v oblasti podnikových dokumentů řadě výzev, včetně zastaralých znalostí, halucinací a rizik spojených s ochranou soukromí při využívání cloudových služeb. Tato práce se těmito problémy zabývá prostřednictvím návrhu plně lokální implementace retrieval-augmented generation na běžném osobním počítači s cílem zajistit úplnou ochranu dat. Výzkum se zaměřuje na analýzu charakteristik dokumentů, zejména finančních zpráv, a na vytvoření počátečního proof-of-concept řešení pomocí open-source nástrojů, jako je Ollama a kvantované LLM. Práce využívá iterativní přístup k vývoji systému, kdy je systém postupně vylepšován cílenými úpravami jednotlivých komponent pipeline. Každá iterace je systematicky hodnocena pomocí LLM, který slouží jako hodnotitel změn výkonu a kvality. Výsledkem je funkční pipeline pro retrieval-augmented generation, která ukazuje praktickou proveditelnost bezpečného a soukromí chránícího vyhledávání informací na osobním počítači. Tato práce přináší poznatky o optimalizaci lokálních konfigurací, hodnotí kompromisy při omezených zdrojích a nabízí nový rámec pro hodnocení a zlepšování retrieval-augmented generation pipeline.	cs_CZ
uk.abstract.en	Large language models (LLMs) face challenges when applied to enterprise documents, including outdated knowledge, hallucinations, and privacy risks associated with cloud-based services. This thesis addresses these problems by exploring a fully local implementation of retrieval-augmented generation on standard personal computer to ensure complete data privacy. The research focuses on analyzing document characteristics, particularly financial reports, and building an initial proof-of-concept pipeline using open-source tools such as Ollama and quantized LLMs. The work adopts an iterative development approach, refining the system through targeted modifications of individual pipeline components. Each iteration is systematically evaluated using an LLM as a judge to assess changes in performance and quality. The final outcome is a functional retrieval-augmented generation pipeline that demonstrates the practical feasibility of secure, privacy-preserving information retrieval on a personal computer. This thesis provides insights into optimizing local configurations, evaluates trade-offs under resource constraints, and offers a novel assessment framework for improving retrieval-augmented generation pipelines.	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství	cs_CZ
thesis.grade.code	2
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	O