Relational reasoning in vision-language models
Relační reasoning ve vision-language modelech
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/200782Identifiers
Study Information System: 269037
Collections
- Kvalifikační práce [11590]
Author
Advisor
Referee
Libovický, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
20. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
relační síte|relační uvažování|hluboké učeníKeywords (English)
Relation Networks|relational reasoning|deep learningUvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních.
Relational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones.