Application of machine learning methods for estimating apartment prices in the Czech Republic
Aplikace metod strojového učení pro odhad cen bytů v České republice
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/110189Identifikátory
SIS: 203087
Kolekce
- Kvalifikační práce [18370]
Autor
Vedoucí práce
Oponent práce
Baruník, Jozef
Fakulta / součást
Fakulta sociálních věd
Obor
Ekonomie a finance
Katedra / ústav / klinika
Institut ekonomických studií
Datum obhajoby
16. 9. 2019
Nakladatel
Univerzita Karlova, Fakulta sociálních vědJazyk
Angličtina
Známka
Výborně
V této diplomové práci navrhujeme alternativní způsoby hromadného oceňování bytů. Práce obohacuje současnou literaturu pomocí využití několika způsobů sběru dat a odhadu cen. Autor nemá vědomí o žádné práci, která by poskytla podobný přehled o českém trhu s nemovitostmi. Pomocí empirické analýzy aplikujeme pět různých metod (metoda nej- menších čtverců, regresní metoda lasso, rozhodovací strom, náhodné lesy a al- goritmus k-nejbližších sousedů) na datovou sadu 15 848 inzerátů. Cílem studie je najít nejpřesnější způsob odhadu cen, pomocí strukturovaných proměnných a dat extrahovaných z textu. K ověření výsledků používáme několik statistik přesnosti a grafickou analýzu. Metody obsahující rozhodovací stromy, konkrétně pak metoda náhodného lesa, dosahuje při předpovídání nabídkových cen ne- jvyšší přesnosti. Obsažení textových proměnných v lineárních modelech navíc způsobuje zmenšení chyb v odhadech. Poslední část analýzy zahrnuje porovnání determinantů cen nemovitosti v Praze a ve zbytku České republiky. Ukazujeme, že ceny v Praze lze odhadnout s vyšší přesností a s nižším počtem nezávislých proměnných.
In this thesis, we propose alternative ways to apartments' mass appraisal. This work enriches the current literature by combining several techniques of data extraction and price estimation. We are not aware of any similar work providing an in-depth overview of the Czech apartment market. Throughout the empirical analysis, five different methods (OLS, LASSO, decision tree, random forests, and kNN) are applied to the dataset of 15,848 classifieds. The aim of the study is to find the most accurate method of esti- mating offering prices, using structured variables as well as data extracted by text mining. We use various accuracy statistics and graphical analysis to vali- date our results. Tree-based methods, specifically the random forest algorithm, results with the highest accuracy in predicting offering prices. Additionally, text-based variables included in the model cause the reduction of errors on linear models. The last part of the analysis covers the main determinants of property value in Prague and the rest of the Czech Republic. We show that prices in Prague can be estimated with higher preciseness and with the lower number of independent variables.