Algonauts challenge 2023: predicting human fMRI activity in response to visual stimulation

Petliak, Nataliia

Soutež Algonauts 2023: predikce lidské fMRI aktivity při stimulaci vizuálními stimuli

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (347.2Kb)

Permanent link

http://hdl.handle.net/20.500.11956/188490

Identifiers

Study Information System: 256920

Consultant

Baroni, Luca

Referee

Bojar, Ondřej

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Computer Science - Artificial Intelligence

Department

Department of Software and Computer Science Education

Date of defense

13. 2. 2024

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Keywords (Czech)

hluboké učení|predikce fMRI|vizualní stimuly|vision transformers

Keywords (English)

deep learning|fMRI prediction|visual stimuli|vision transformers

V této diplomové práci zkoumáme využití předtrénovaných hlubokých neuronových sítí, zejména Vision Transformers (ViT), pro predikce lidské fMRI aktivity při stimu- laci vizuálními stimuli. Dataset z Algonauts Challenge 2023, která slouží jako rozsáhlý standard pro data fMRI lidského mozku, nám umožňuje hodnotit výkon ViT ve srovnání s etablovanými architekturami CNN, jako jsou VGG a ResNet. Naše studie zdůrazňuje složitost tohoto úkolu, zejména při přesném modelování různorodých oblastí celé vizuální kůry. Identifikujeme konkrétní vrstvy ViT, které jsou v souladu s hierarchickým zpra- cováním mozku a ukazují se jako nejpředpovědnější. Jedním z omezení, na které jsme narazili u předtrénovaného ViT, je jeho snížená adaptabilita kvůli vrozené variabilitě subjektů. Toto omezení zdůrazňuje výzvu ve vývoji jediného modelu, který je univer- zálně účinný pro různé jedince. Abychom toto řešili, implementujeme iterativní strategii trénování, začínající vrstvami, které fungují nejlépe napříč všemi subjekty, následované jemným laděním pro specifické vizuální oblasti jednotlivých subjektů. Navzdory těmto snahám se účinnost ViT liší; u některých subjektů dosahuje uspokojivých výsledků, ale u jiných se potýká, zejména ve word-selectivnich oblastech. Přidání textových dat ke vstupu vede ke zlepšení výkonu modelu v...

Abstract (English)

In this thesis, we investigate the application of pretrained Deep Neural Networks, par- ticularly Vision Transformers (ViT), for predicting human fMRI activity in response to visual stimulation. The Algonauts Challenge 2023 dataset, serving as a large-scale bench- mark of human fMRI data, allows us to assess the performance of ViT in comparison with established CNN architectures like VGG and ResNet. Our study highlights the complex- ity of this task, especially in accurately modeling the diverse regions of the full visual cortex. We identify specific ViT layers that align with the brain's hierarchical processing and prove to be the most predictive. However, one of the limitations we encounter with pretrained ViT is its reduced adaptability due to inherent subject variability. This limi- tation underscores the challenge in developing a single model that is universally effective across different individuals. To address this, we implement an iterative training strategy, starting with the layers that perform best across all subjects, followed by fine-tuning for specific visual areas in individual subjects. Despite these efforts, the effectiveness of ViT varies; it performs satisfactorily in some subjects but struggles in others, particu- larly in word-selective regions. The incorporation of textual data...

Citace dokumentu

Metadata

Show full item record