Multi-agent trading environment for training robust reinforcement learning agents
Multi-agentní burzovní prostředí pro hledání robustních strategií pomocí zpětnovazebního učení
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/188486Identifikátory
SIS: 257479
Kolekce
- Kvalifikační práce [10923]
Autor
Vedoucí práce
Konzultant práce
Schmid, Martin
Oponent práce
Neruda, Roman
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
13. 2. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
zpětnovazební učení|algoritmické obchodování|generalizace|R2D2|hluboké učeníKlíčová slova (anglicky)
reinforcement learning|algorithmic trading|generalization|R2D2|deep learningTato práce přináší rozsáhlou studii aplikace zpětnovazebního učení v oblasti algo- ritmického obchodování. Práce se zaměřuje zejména na to, jak modely zpětnovazebního učení generalizují, jak z pohledu velikosti trénovací množiny, tak z pohledu jejich ná- sledného přenesení na reálné finanční trhy. Za tímto cílem vytváříme simulační prostředí zohledňující důležité faktory, které ovlivňují výsledky obchodní strategie při reálném ob- chodování. V našich experimentech používáme také rozšíření algoritmu DQN, známé jako R2D2, které dosahuje velice slibných výsledků. Pokud je nám známo, je tato práce první, která algoritmus R2D2 aplikuje na oblast algorimického obchodování. Algoritmy natré- nované ve vytvořeném simulačním prostředí následně vyhodnocujeme oproti obvykle uží- vaným postupům algoritmického obchodování, abychom demonstrovali sílu modelů zpět- novazebního učení. Dále ukazujeme, jak zvyšování transakčních nákladů zvyšuje nároč- nost trénování vybraných modelů a že algoritmus R2D2 svými výsledky překonává běžné postupy algoritmického obchodování i ostatní modely zpětnovazebního učení v úloze al- goritmického obchodování. 1
This thesis presents a comprehensive study of the application of reinforcement learning to algorithmic trading. The main focus of this thesis is on the generalization properties of various reinforcement learning algorithms, both from the data perspective and the applicability of the trained agents to real algorithmic trading. To that end, we develop a training environment taking into account various real-world factors influencing the performance of algorithmic trading strategies. We also experiment with the recurrent replay buffer extension of the DQN algorithm, known as R2D2, being, to the best of our knowledge, the first to employ this algorithm for the task of algorithmic trading. Each algorithm is evaluated against traditional algorithmic trading strategies, including the buy-and-hold strategy, to demonstrate the superior performance of the reinforcement learning strategies. On top of that we also provide a study on how the amount of training data and transaction costs influence the generalization of the algorithms to unseen market conditions. We show how transaction costs significantly increase the task complexity and that the R2D2 algorithm overperforms the commonly used baselines, as well as other state-of-the-art reinforcement learning algorithms in this task. 1