Diskretizácia spojitých premenných v úlohe kreditného skóringu
Continuous Variables Discretization in Credit Scoring
Diskretizace spojitých proměnných v úloze kreditního skóringu
diploma thesis (NOT DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/199284Identifiers
Study Information System: 269366
Collections
- Kvalifikační práce [11421]
Author
Advisor
Consultant
Kopa, Miloš
Referee
Branda, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Financial and insurance mathematics
Department
Department of Probability and Mathematical Statistics
Date of defense
3. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Fail
Keywords (Czech)
diskretizácia|kreditné riziko|pravdepodobnosť zlyhaniaKeywords (English)
credit risk|discretization|probability of defautDiskretizácia spojitých premenných je v oblasti kreditného skóringu dôležitým kro- kom, ktorý ovplyvňuje nielen interpretovateľnosť, ale aj predikčnú silu výsledných mode- lov. Hlavnou úlohou tejto práce je spracovanie relevantnej teórie, porovnanie skúmaných metód diskretizácie spojitých premenných a výkonnosti vybraných modelov v úlohe kre- ditného skóringu. Najprv predstavujeme základné princípy kreditného rizika a najpouží- vanejšie modely na odhad pravdepodobnosti zlyhania, ako sú logistická regresia, XGBoost a neurónové siete. Následne sa zameriavame na teoretické zavedenie a popis vybraných diskretizačných algoritmov, ktorými sú Equal-Width, ChiMerge a MDLP. V empirickej časti porovnávame tieto metódy a modely na reálnych dátach z oblasti kreditného rizika a prezentujeme získané výsledky. 1
Discretization of continuous variables is an important step in credit scoring that af- fects not only the interpretability but also the predictive power of the resulting models. The main objective of this thesis is to elaborate on the relevant theory, compare the investigated methods of discretization of continuous variables and the performance of the selected models in the credit scoring task. First, we introduce the basic principles of credit scoring and the most widely used models for estimating default probabilities, such as logistic regression, XGBoost and neural networks. We then focus on the theoretical overview and description of selected discretization algorithms, which are Equal-Width, ChiMerge and MDLP. In the empirical part, we compare these methods and models on real credit risk data and present the obtained results. 1