dc.contributor.advisor | Pecina, Pavel | |
dc.creator | Vondrák, David | |
dc.date.accessioned | 2022-04-06T11:32:52Z | |
dc.date.available | 2022-04-06T11:32:52Z | |
dc.date.issued | 2022 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/171774 | |
dc.description.abstract | Cílem práce bylo použití hlubokého učení k rozpoznávání učebnic a jejich klasifikaci do vyučovacích předmětů a úrovní, a to na základě textových údajů, jako je název knihy, autor, nakladatel a stručný popis obsahu. Jako součást práce formulujeme vlastní definici učebnice, vytváříme dataset pomocí extrakce údajů ze zdrojů dostupných na internetu a ručně anotujeme trénovací a testovací mno- žinu dat. Pro klasifikaci používáme jako baseline naivní bayesovský klasifikátor, z neuronových sítí pak konvoluční a rekurentní architekturu i jejich kombinace. Porovnáváme také různý způsob reprezentace dat vektory (tzv. word embedding) a dosažené výsledky podrobně analyzujeme. Výsledný nejlepší model dosahuje na testovacích datech u všech tří úloh vysokých úspěšností a nabízí se tak možnost jeho uplatnění v praxi. 1 | cs_CZ |
dc.description.abstract | The aim of the thesis was to use deep learning methods for recognizing text- books and classifying their subject and level, based on text parameters, like name of the book, author, publisher or brief content description. As part of the thesis, we formulate custom definition of textbook, create a dataset by extracting data from source available on the internet and manually label train and test dataset. We use naive bayes classifier as a baseline and then neural networks with con- volutional, recurrent or combined architectures. We compare various methods of representing data with vectors (word embedding) and analyze the results in de- tail. Resulting best model reaches high accuracy in all three tasks which suggests the possibility of its application in practice. 1 | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | deep learning|book classification|neural networks|textbook | en_US |
dc.subject | hluboké učení|klasifikace knih|neuronové sítě|učebnice | cs_CZ |
dc.title | Rozpoznávání a klasifikace učebnic pomocí hlubokého učení | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2022 | |
dcterms.dateAccepted | 2022-02-08 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 236467 | |
dc.title.translated | Recognition and classification of textbooks by deep learning | en_US |
dc.contributor.referee | Novák, Michal | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Softwarové systémy | cs_CZ |
thesis.degree.discipline | Software Systems | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové systémy | cs_CZ |
uk.degree-discipline.en | Software Systems | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Cílem práce bylo použití hlubokého učení k rozpoznávání učebnic a jejich klasifikaci do vyučovacích předmětů a úrovní, a to na základě textových údajů, jako je název knihy, autor, nakladatel a stručný popis obsahu. Jako součást práce formulujeme vlastní definici učebnice, vytváříme dataset pomocí extrakce údajů ze zdrojů dostupných na internetu a ručně anotujeme trénovací a testovací mno- žinu dat. Pro klasifikaci používáme jako baseline naivní bayesovský klasifikátor, z neuronových sítí pak konvoluční a rekurentní architekturu i jejich kombinace. Porovnáváme také různý způsob reprezentace dat vektory (tzv. word embedding) a dosažené výsledky podrobně analyzujeme. Výsledný nejlepší model dosahuje na testovacích datech u všech tří úloh vysokých úspěšností a nabízí se tak možnost jeho uplatnění v praxi. 1 | cs_CZ |
uk.abstract.en | The aim of the thesis was to use deep learning methods for recognizing text- books and classifying their subject and level, based on text parameters, like name of the book, author, publisher or brief content description. As part of the thesis, we formulate custom definition of textbook, create a dataset by extracting data from source available on the internet and manually label train and test dataset. We use naive bayes classifier as a baseline and then neural networks with con- volutional, recurrent or combined architectures. We compare various methods of representing data with vectors (word embedding) and analyze the results in de- tail. Resulting best model reaches high accuracy in all three tasks which suggests the possibility of its application in practice. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |