Algonauts challenge 2023: predicting human fMRI activity in response to visual stimulation
Soutež Algonauts 2023: predikce lidské fMRI aktivity při stimulaci vizuálními stimuli
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/188490Identifiers
Study Information System: 256920
Collections
- Kvalifikační práce [11214]
Author
Advisor
Consultant
Baroni, Luca
Referee
Bojar, Ondřej
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Department of Software and Computer Science Education
Date of defense
13. 2. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
hluboké učení|predikce fMRI|vizualní stimuly|vision transformersKeywords (English)
deep learning|fMRI prediction|visual stimuli|vision transformersV této diplomové práci zkoumáme využití předtrénovaných hlubokých neuronových sítí, zejména Vision Transformers (ViT), pro predikce lidské fMRI aktivity při stimu- laci vizuálními stimuli. Dataset z Algonauts Challenge 2023, která slouží jako rozsáhlý standard pro data fMRI lidského mozku, nám umožňuje hodnotit výkon ViT ve srovnání s etablovanými architekturami CNN, jako jsou VGG a ResNet. Naše studie zdůrazňuje složitost tohoto úkolu, zejména při přesném modelování různorodých oblastí celé vizuální kůry. Identifikujeme konkrétní vrstvy ViT, které jsou v souladu s hierarchickým zpra- cováním mozku a ukazují se jako nejpředpovědnější. Jedním z omezení, na které jsme narazili u předtrénovaného ViT, je jeho snížená adaptabilita kvůli vrozené variabilitě subjektů. Toto omezení zdůrazňuje výzvu ve vývoji jediného modelu, který je univer- zálně účinný pro různé jedince. Abychom toto řešili, implementujeme iterativní strategii trénování, začínající vrstvami, které fungují nejlépe napříč všemi subjekty, následované jemným laděním pro specifické vizuální oblasti jednotlivých subjektů. Navzdory těmto snahám se účinnost ViT liší; u některých subjektů dosahuje uspokojivých výsledků, ale u jiných se potýká, zejména ve word-selectivnich oblastech. Přidání textových dat ke vstupu vede ke zlepšení výkonu modelu v...
In this thesis, we investigate the application of pretrained Deep Neural Networks, par- ticularly Vision Transformers (ViT), for predicting human fMRI activity in response to visual stimulation. The Algonauts Challenge 2023 dataset, serving as a large-scale bench- mark of human fMRI data, allows us to assess the performance of ViT in comparison with established CNN architectures like VGG and ResNet. Our study highlights the complex- ity of this task, especially in accurately modeling the diverse regions of the full visual cortex. We identify specific ViT layers that align with the brain's hierarchical processing and prove to be the most predictive. However, one of the limitations we encounter with pretrained ViT is its reduced adaptability due to inherent subject variability. This limi- tation underscores the challenge in developing a single model that is universally effective across different individuals. To address this, we implement an iterative training strategy, starting with the layers that perform best across all subjects, followed by fine-tuning for specific visual areas in individual subjects. Despite these efforts, the effectiveness of ViT varies; it performs satisfactorily in some subjects but struggles in others, particu- larly in word-selective regions. The incorporation of textual data...