Rozhodovací stromy pro klasifikaci dat
Decision Trees for Classification
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/14848Identifikátory
SIS: 43200
Kolekce
- Kvalifikační práce [10932]
Autor
Vedoucí práce
Oponent práce
Štefka, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
26. 5. 2008
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
K problémům týkajících se klasifikace dat je možné přistupovat různými způsoby. Mezi ty nejvýznamnější patří neuronové sítě, Bayesovské sítě, klastrování, lineární modely, asociační pravidla apod. Tato práce se zabývá rozhodovacími stromy, které si rovněž zaslouží pozornost mezi odbornou veřejností. Postupně budou popsány metody C4.5, CART a SDT stromy, které využívají teorii fuzzy množin. Podstatná část je také věnována ořezávacím algoritmům. Jednotlivé modely budou experimentálně ověřeny a vzájemně srovnány na volně dostupných datových množinách příznakových vektorů s ohledem na ukončovací kritéria, kritéria na dělení uzlu a velikost vzniklých stromů. Součástí experimentů je i zhodnocení vlastních výsledků.
There is a lot of approaches for data classification problems resolving. The most significant data classification methods are neural networks, Bayes nets, clustering, linear models, associative rules, etc. This thesis deals with decision trees which deserves attention of experts as well. Step by step are discussed C4.5, CART and SDT trees, a variant of classical decision tree inductive learning using fuzzy sets theory. Substantial part of work is devoted to pruning algorithms as well. Particular methods are examined and compared over freely available data sets of feature vectors with respect to stopping criteria, splitting criteria of a node and size of constructed trees. A summary of our own results is included.