Transformation Robustness in Computer Vision: Invariant & Equivariant Neural Networks
Robustnost vůči transformacím v počítačovém vidění: invariantní & equivariantní neuronové sítě
dizertační práce (OBHÁJENO)

Omezená dostupnost dokumentu
Celý dokument nebo jeho části jsou nepřístupné do 26. 05. 2030
Důvod omezené dostupnosti:
Ochrana informací chráněných zvláštním zákonem
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/198701Identifikátory
SIS: 272626
Kolekce
- Kvalifikační práce [11342]
Autor
Vedoucí práce
Konzultant práce
Šikudová, Elena
Šroubek, Filip
Oponent práce
Bujack, Roxana
Jiřík, Radovan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Vizuální výpočty a počítačové hry
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
26. 5. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
neuronové sítě|invariance|equivariance|počítačové vidění|robustnost vůči transformacímKlíčová slova (anglicky)
neural networks|invariance|equivariance|computer vision|transformation robustnessPráce řeší problém robustnosti modelů počítačového vidění vůči transformacím a za- měřuje se na návrh neuronových sítí, které jsou svou architekturou invariantní k rotacím a posunu. Přestože se k dosažení robustnosti běžně využívá data augmentation, tento přístup postrádá matematické záruky a vyžaduje značné množství vzorků. Naše práce rozvíjí alternativní metodu, která je robustní vůči transformacím díky aplikaci poznatků teorie grup do neuronových sítí. Tato metoda přináší řadu výhod: teoretické důkazy invariance, nižší výpočetní náročnost, efektivnější práci se vzorky a lepší generalizaci na neviděné transformace. Naše hlavní přínosy zahrnují: (1) dvě nové architektury neu- ronových sítí zajišťující úplnou invarianci vůči rotacím a posunu, (2) propojení klasick- ých hand-crafted příznaků s moderními neuronovými sítěmi pro zvýšení odolnosti vůči transformacím a (3) empirické ověření prokazující vyšší spolehlivost a účinnost při řešení různých úloh počítačového vidění.
This Thesis addresses the fundamental challenge of transformation robustness in com- puter vision, focusing on designing neural networks that are inherently invariant to rota- tions and translations. While data augmentation is commonly used to achieve robustness, it lacks mathematical guarantees and requires large amounts of data samples. We build on an alternative approach that embeds transformation robustness directly into the design of neural networks using established group theory principles. This method offers signif- icant advantages, including theoretical guarantees of invariance, reduced computational complexity, improved sampling efficiency, and better generalization to previously unseen transformations. Our major contributions include: (1) two novel neural network archi- tectures that provide end-to-end invariance to rotations and translations, (2) integration of classical hand-crafted features into modern neural networks to enhance transformation robustness, and (3) empirical validation demonstrating improved reliability and efficiency in various computer vision tasks.