dc.contributor.advisor | Bulín, Jakub | |
dc.creator | Kuchta, Daniel | |
dc.date.accessioned | 2025-07-11T09:03:38Z | |
dc.date.available | 2025-07-11T09:03:38Z | |
dc.date.issued | 2025 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/200782 | |
dc.description.abstract | Uvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních. | cs_CZ |
dc.description.abstract | Relational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones. | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Relation Networks|relational reasoning|deep learning | en_US |
dc.subject | relační síte|relační uvažování|hluboké učení | cs_CZ |
dc.title | Relational reasoning in vision-language models | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2025 | |
dcterms.dateAccepted | 2025-06-20 | |
dc.description.department | Katedra teoretické informatiky a matematické logiky | cs_CZ |
dc.description.department | Department of Theoretical Computer Science and Mathematical Logic | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 269037 | |
dc.title.translated | Relační reasoning ve vision-language modelech | cs_CZ |
dc.contributor.referee | Libovický, Jindřich | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Artificial Intelligence | en_US |
thesis.degree.discipline | Informatika se specializací Umělá inteligence | cs_CZ |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logic | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Uvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních. | cs_CZ |
uk.abstract.en | Relational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |