Show simple item record

Semi-supervised učení z nepříznivě distribuovaných dat
dc.contributor.advisorPilát, Martin
dc.creatorSochor, Matěj
dc.date.accessioned2020-07-29T10:01:48Z
dc.date.available2020-07-29T10:01:48Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/119538
dc.description.abstractSemi-supervised learning (SSL) is a branch of machine learning focusing on using not only labeled data samples, but also unlabeled ones, in an effort to decrease the need for labeled data and thus allow using machine learning even when labeling large amounts of data would be too costly. Despite its quick development in the recent years, there are still issues left to be solved before it can be broadly deployed in practice. One of those issues is class distribution mismatch. It arises when the unlabeled data contains samples not belonging to the classes present in the labeled data. This confuses the training and can even lead to getting a classifier performing worse than a classifier trained on the available data in purely supervised fashion. We designed a filtration method called Unfavorable Data Filtering (UDF) which extracts important features from the data and then uses a similarity-based filter to filter the irrelevant data out according to those features. The filtering happens before any of the SSL training takes places, making UDF usable with any SSL algorithm. To judge its effectiveness, we performed many experiments, mainly on the CIFAR-10 dataset. We found out that UDF is capable of significantly improving the resulting accuracy when compared to not filtering the data, identified basic guidelines...en_US
dc.description.abstractSemi-supervised učení je technika strojového učení snažící se využít nejen označko- vaná data (data pro která známe požadované výstupy), ale i neoznačkovaná data (data pro která požadované výstupy neznáme) s cílem snížit požadavky na množství označko- vaných dat a tím umožnit použití strojového učení i v případech kdy je označkování velkého množství dat příliš náročné. I přes svůj rychlý vývoj v posledních letech stále trpí problémy které brání jeho širokému využití v praxi. Jedním z těchto problémů je nesoulad distribucí tříd. Ten vzniká, když neoznačkovaná data obsahují vzorky které nepatří do žádné ze tříd označkovaných dat. To může zmást učení klasifikátoru do takové míry, že je ve výsledku horší než kdyby neoznačkovaná data vůbec nebyla využita. Tato diplomová práce navrhuje metodu nazvanou Unfavorable Data Filtering (UDF), která nejprve z dat extrahuje důležité příznaky a pak se na jejich základě pomocí filtru založeného na podobnosti datových vzorků snažít vyřadit nerelevantní data z trénovacích dat. Díky tomu, že je UDF použita před semi-supervised učením je možné ji použít s libovolnou učící metodou. Pro zjištění jak efektivní UDF je jsme provedli mnoho ex- perimentů, převážně na datasetu zvaném CIFAR-10. Pomocí těchto experimentů jsme zjistili, že filtrování pomocí UDF je opravdu schopno výrazně...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectSemi-supervised Learningen_US
dc.subjectDeep Learningen_US
dc.subjectUnbalanced distributionen_US
dc.subjectSemi-supervised učenícs_CZ
dc.subjectHluboké učenícs_CZ
dc.subjectNevyvážená distribucecs_CZ
dc.titleSemi-supervised Learning from Unfavorably Distributed Dataen_US
dc.typediplomová prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-07-08
dc.description.departmentDepartment of Theoretical Computer Science and Mathematical Logicen_US
dc.description.departmentKatedra teoretické informatiky a matematické logikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId222808
dc.title.translatedSemi-supervised učení z nepříznivě distribuovaných datcs_CZ
dc.contributor.refereeMrázová, Iveta
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logicen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csSemi-supervised učení je technika strojového učení snažící se využít nejen označko- vaná data (data pro která známe požadované výstupy), ale i neoznačkovaná data (data pro která požadované výstupy neznáme) s cílem snížit požadavky na množství označko- vaných dat a tím umožnit použití strojového učení i v případech kdy je označkování velkého množství dat příliš náročné. I přes svůj rychlý vývoj v posledních letech stále trpí problémy které brání jeho širokému využití v praxi. Jedním z těchto problémů je nesoulad distribucí tříd. Ten vzniká, když neoznačkovaná data obsahují vzorky které nepatří do žádné ze tříd označkovaných dat. To může zmást učení klasifikátoru do takové míry, že je ve výsledku horší než kdyby neoznačkovaná data vůbec nebyla využita. Tato diplomová práce navrhuje metodu nazvanou Unfavorable Data Filtering (UDF), která nejprve z dat extrahuje důležité příznaky a pak se na jejich základě pomocí filtru založeného na podobnosti datových vzorků snažít vyřadit nerelevantní data z trénovacích dat. Díky tomu, že je UDF použita před semi-supervised učením je možné ji použít s libovolnou učící metodou. Pro zjištění jak efektivní UDF je jsme provedli mnoho ex- perimentů, převážně na datasetu zvaném CIFAR-10. Pomocí těchto experimentů jsme zjistili, že filtrování pomocí UDF je opravdu schopno výrazně...cs_CZ
uk.abstract.enSemi-supervised learning (SSL) is a branch of machine learning focusing on using not only labeled data samples, but also unlabeled ones, in an effort to decrease the need for labeled data and thus allow using machine learning even when labeling large amounts of data would be too costly. Despite its quick development in the recent years, there are still issues left to be solved before it can be broadly deployed in practice. One of those issues is class distribution mismatch. It arises when the unlabeled data contains samples not belonging to the classes present in the labeled data. This confuses the training and can even lead to getting a classifier performing worse than a classifier trained on the available data in purely supervised fashion. We designed a filtration method called Unfavorable Data Filtering (UDF) which extracts important features from the data and then uses a similarity-based filter to filter the irrelevant data out according to those features. The filtering happens before any of the SSL training takes places, making UDF usable with any SSL algorithm. To judge its effectiveness, we performed many experiments, mainly on the CIFAR-10 dataset. We found out that UDF is capable of significantly improving the resulting accuracy when compared to not filtering the data, identified basic guidelines...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV