Zobrazit minimální záznam

Relační reasoning ve vision-language modelech
dc.contributor.advisorBulín, Jakub
dc.creatorKuchta, Daniel
dc.date.accessioned2025-07-11T09:03:38Z
dc.date.available2025-07-11T09:03:38Z
dc.date.issued2025
dc.identifier.urihttp://hdl.handle.net/20.500.11956/200782
dc.description.abstractUvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních.cs_CZ
dc.description.abstractRelational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones.en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectRelation Networks|relational reasoning|deep learningen_US
dc.subjectrelační síte|relační uvažování|hluboké učenícs_CZ
dc.titleRelational reasoning in vision-language modelsen_US
dc.typebakalářská prácecs_CZ
dcterms.created2025
dcterms.dateAccepted2025-06-20
dc.description.departmentKatedra teoretické informatiky a matematické logikycs_CZ
dc.description.departmentDepartment of Theoretical Computer Science and Mathematical Logicen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId269037
dc.title.translatedRelační reasoning ve vision-language modelechcs_CZ
dc.contributor.refereeLibovický, Jindřich
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineComputer Science with specialisation in Artificial Intelligenceen_US
thesis.degree.disciplineInformatika se specializací Umělá inteligencecs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typebakalářská prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logicen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika se specializací Umělá inteligencecs_CZ
uk.degree-discipline.enComputer Science with specialisation in Artificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csUvažování o vztazích je klíčovou složkou fluidní inteligence, se kterou však tradiční architektury hlubokého učení často zápasí. Relační sítě, které představili Santoro et al., přinášejí silný induktivní bias, který pomáhá tuto slabinu překonat. V této práci předsta- vujeme D2R2-open-source datovou sadu navrženou pro oddělené hodnocení relačního a nerelačního uvažování v syntetických scénách. Na základě experimentů ukazujeme, že mezi výkony běžných modelů na relačních a nerelačních úlohách existuje výrazný rozdíl, a ověřujeme, že relační sítě tento rozdíl dokáží výrazně snížit. Dále porovnáváme výkon- nost předních multimodálních jazykových modelů a zjišťujeme, že základní modely si s relačními úlohami neporadí, zatímco specializované modely zaměřené na uvažování dosa- hují nadlidských výsledků. Nakonec prezentujeme výsledky studie s lidskými účastníky, která ukazuje, že i lidé si v relačních otázkách vedou hůře než v těch nerelačních.cs_CZ
uk.abstract.enRelational reasoning is a fundamental component of fluid intelligence, yet standard deep learning architectures often struggle with it. Relation Networks, introduced by Santoro et al., offer a strong inductive bias that helps address this limitation. In this work, we introduce D2R2-an open-source, extensible, and controlled dataset designed to separately evaluate relational and non-relational reasoning. We empirically demonstrate the performance gap between relational and non-relational tasks in standard deep learning models and validate the effectiveness of Relation Networks in closing this gap. We further benchmark leading multimodal language models and find that while base models struggle with relational tasks, specialized reasoning models can achieve superhuman performance. Finally, we report results from a human study showing that even humans perform worse on relational questions compared to non-relational ones.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV