Relational reasoning in vision-language models
Relační reasoning ve vision-language modelech
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200782Identifikátory
SIS: 269037
Kolekce
- Kvalifikační práce [11597]
Autor
Vedoucí práce
Oponent práce
Libovický, Jindřich
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
20. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
relační síte|relační uvažování|hluboké učeníKlíčová slova (anglicky)
Relation Networks|relational reasoning|deep learningUvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních.
Relational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones.