Neural networks and knowledge distillation
Neuronové sítě a destilace znalostí
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/199279Identifiers
Study Information System: 272497
Collections
- Kvalifikační práce [11606]
Author
Advisor
Referee
Mizera, Ivan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Financial and insurance mathematics
Department
Department of Probability and Mathematical Statistics
Date of defense
3. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
neuronové sítě|strojové učení|destilace znalostí|KL divergenceKeywords (English)
neural networks|machine learning|knowledge distillation|KL divergenceTato diplomová práce se zabývá metodou destilace znalostí (knowledge distillation), což je tréninková technika v kontextu neuronových sítí, a navrhuje novou metodu, ve které je standardní volba Kullback-Leiblerovy divergence v minimalizované ztrátové funkci nahrazena obecnou Rényiho divergencí s parametrem α. Navržená technika je hodnocena testováním na úloze počítačového vidění, a to pomocí běžně používané obrazové databáze a neuronové architektury, přičemž se zohledňuje rychlost konvergence a dosažená přes- nost. Na základě důkladného odvození a empirických testů byly formulovány a porovnány tři různé přístupy. Tato práce vytváří základ pro budoucí výzkum aplikace Rényiho di- vergence v oblasti destilace znalostí. 1
This thesis studies knowledge distillation, a training technique in the context of neural networks, and proposes a novel method in which the standard choice of Kullback-Leibler divergence in the minimized loss is replaced with the general Rényi divergence with parameter α. The proposed technique is evaluated by testing on a computer vision task using a standard image dataset and neural architecture, in terms of speed of convergence and final accuracy. Based on rigorous derivations and empirical testing, a total of three different approaches were formulated and compared. This work establishes a foundation for future research into the application of Rényi divergence in knowledge distillation. 1