Transformation Robustness in Computer Vision: Invariant & Equivariant Neural Networks
Robustnost vůči transformacím v počítačovém vidění: invariantní & equivariantní neuronové sítě
dissertation thesis (DEFENDED)

Item with restricted access
Whole item or its parts have restricted access until 26. 05. 2030
Reason for restricted acccess:
Protection of information protected by a special law
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/198701Identifiers
Study Information System: 272626
Collections
- Kvalifikační práce [11342]
Author
Advisor
Consultant
Šikudová, Elena
Šroubek, Filip
Referee
Bujack, Roxana
Jiřík, Radovan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Visual computing and computer games
Department
Department of Software and Computer Science Education
Date of defense
26. 5. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
neuronové sítě|invariance|equivariance|počítačové vidění|robustnost vůči transformacímKeywords (English)
neural networks|invariance|equivariance|computer vision|transformation robustnessPráce řeší problém robustnosti modelů počítačového vidění vůči transformacím a za- měřuje se na návrh neuronových sítí, které jsou svou architekturou invariantní k rotacím a posunu. Přestože se k dosažení robustnosti běžně využívá data augmentation, tento přístup postrádá matematické záruky a vyžaduje značné množství vzorků. Naše práce rozvíjí alternativní metodu, která je robustní vůči transformacím díky aplikaci poznatků teorie grup do neuronových sítí. Tato metoda přináší řadu výhod: teoretické důkazy invariance, nižší výpočetní náročnost, efektivnější práci se vzorky a lepší generalizaci na neviděné transformace. Naše hlavní přínosy zahrnují: (1) dvě nové architektury neu- ronových sítí zajišťující úplnou invarianci vůči rotacím a posunu, (2) propojení klasick- ých hand-crafted příznaků s moderními neuronovými sítěmi pro zvýšení odolnosti vůči transformacím a (3) empirické ověření prokazující vyšší spolehlivost a účinnost při řešení různých úloh počítačového vidění.
This Thesis addresses the fundamental challenge of transformation robustness in com- puter vision, focusing on designing neural networks that are inherently invariant to rota- tions and translations. While data augmentation is commonly used to achieve robustness, it lacks mathematical guarantees and requires large amounts of data samples. We build on an alternative approach that embeds transformation robustness directly into the design of neural networks using established group theory principles. This method offers signif- icant advantages, including theoretical guarantees of invariance, reduced computational complexity, improved sampling efficiency, and better generalization to previously unseen transformations. Our major contributions include: (1) two novel neural network archi- tectures that provide end-to-end invariance to rotations and translations, (2) integration of classical hand-crafted features into modern neural networks to enhance transformation robustness, and (3) empirical validation demonstrating improved reliability and efficiency in various computer vision tasks.