Rozhodovací stromy pro klasifikaci dat
Decision Trees for Classification
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/14848Identifiers
Study Information System: 43200
Collections
- Kvalifikační práce [11216]
Author
Advisor
Referee
Štefka, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
26. 5. 2008
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
K problémům týkajících se klasifikace dat je možné přistupovat různými způsoby. Mezi ty nejvýznamnější patří neuronové sítě, Bayesovské sítě, klastrování, lineární modely, asociační pravidla apod. Tato práce se zabývá rozhodovacími stromy, které si rovněž zaslouží pozornost mezi odbornou veřejností. Postupně budou popsány metody C4.5, CART a SDT stromy, které využívají teorii fuzzy množin. Podstatná část je také věnována ořezávacím algoritmům. Jednotlivé modely budou experimentálně ověřeny a vzájemně srovnány na volně dostupných datových množinách příznakových vektorů s ohledem na ukončovací kritéria, kritéria na dělení uzlu a velikost vzniklých stromů. Součástí experimentů je i zhodnocení vlastních výsledků.
There is a lot of approaches for data classification problems resolving. The most significant data classification methods are neural networks, Bayes nets, clustering, linear models, associative rules, etc. This thesis deals with decision trees which deserves attention of experts as well. Step by step are discussed C4.5, CART and SDT trees, a variant of classical decision tree inductive learning using fuzzy sets theory. Substantial part of work is devoted to pruning algorithms as well. Particular methods are examined and compared over freely available data sets of feature vectors with respect to stopping criteria, splitting criteria of a node and size of constructed trees. A summary of our own results is included.