Application of machine learning methods for estimating apartment prices in the Czech Republic
Aplikace metod strojového učení pro odhad cen bytů v České republice
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/110189Identifiers
Study Information System: 203087
Collections
- Kvalifikační práce [18393]
Author
Advisor
Referee
Baruník, Jozef
Faculty / Institute
Faculty of Social Sciences
Discipline
Economics and Finance
Department
Institute of Economic Studies
Date of defense
16. 9. 2019
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Excellent
V této diplomové práci navrhujeme alternativní způsoby hromadného oceňování bytů. Práce obohacuje současnou literaturu pomocí využití několika způsobů sběru dat a odhadu cen. Autor nemá vědomí o žádné práci, která by poskytla podobný přehled o českém trhu s nemovitostmi. Pomocí empirické analýzy aplikujeme pět různých metod (metoda nej- menších čtverců, regresní metoda lasso, rozhodovací strom, náhodné lesy a al- goritmus k-nejbližších sousedů) na datovou sadu 15 848 inzerátů. Cílem studie je najít nejpřesnější způsob odhadu cen, pomocí strukturovaných proměnných a dat extrahovaných z textu. K ověření výsledků používáme několik statistik přesnosti a grafickou analýzu. Metody obsahující rozhodovací stromy, konkrétně pak metoda náhodného lesa, dosahuje při předpovídání nabídkových cen ne- jvyšší přesnosti. Obsažení textových proměnných v lineárních modelech navíc způsobuje zmenšení chyb v odhadech. Poslední část analýzy zahrnuje porovnání determinantů cen nemovitosti v Praze a ve zbytku České republiky. Ukazujeme, že ceny v Praze lze odhadnout s vyšší přesností a s nižším počtem nezávislých proměnných.
In this thesis, we propose alternative ways to apartments' mass appraisal. This work enriches the current literature by combining several techniques of data extraction and price estimation. We are not aware of any similar work providing an in-depth overview of the Czech apartment market. Throughout the empirical analysis, five different methods (OLS, LASSO, decision tree, random forests, and kNN) are applied to the dataset of 15,848 classifieds. The aim of the study is to find the most accurate method of esti- mating offering prices, using structured variables as well as data extracted by text mining. We use various accuracy statistics and graphical analysis to vali- date our results. Tree-based methods, specifically the random forest algorithm, results with the highest accuracy in predicting offering prices. Additionally, text-based variables included in the model cause the reduction of errors on linear models. The last part of the analysis covers the main determinants of property value in Prague and the rest of the Czech Republic. We show that prices in Prague can be estimated with higher preciseness and with the lower number of independent variables.