Relational reasoning in vision-language models

Kuchta, Daniel

Relační reasoning ve vision-language modelech

bachelor thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (347.0Kb)

Permanent link

http://hdl.handle.net/20.500.11956/200782

Identifiers

Study Information System: 269037

Referee

Libovický, Jindřich

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Computer Science with specialisation in Artificial Intelligence

Department

Department of Theoretical Computer Science and Mathematical Logic

Date of defense

20. 6. 2025

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Keywords (Czech)

relační síte|relační uvažování|hluboké učení

Keywords (English)

Relation Networks|relational reasoning|deep learning

Uvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních.

Abstract (English)

Relational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones.

Citace dokumentu

Metadata

Show full item record