Creating 3D Diorama from Single Image with Deep Learning
Vytvoření 3D dioramatu z jednoho obrázku pomocí hlubokého učení
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/181877Identifiers
Study Information System: 254039
Collections
- Kvalifikační práce [11423]
Author
Advisor
Consultant
Preisler, Martin
Referee
Holeňa, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Department of Software and Computer Science Education
Date of defense
12. 6. 2023
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
hloubka|diorama|Blender|hluboké učení|panoptická segmentace|odhad hloubkyKeywords (English)
depth|diorama|Blender|deep learning|panoptic segmentation|monocular depth estimationCílem této práce je automatizovat proces generování 3D dioramatických scén z jedné fotky. Po rozsáhlé analýze stávajících přístupů jsme se rozhodli zkombinovat výstup modelů hlubokého učení pro panoptickou segmentaci a odhad hloubky. V průběhu práce jsme narazili na určitá omezení v modelu odhadujícím hloubku, která jsme vyřešili finetunováním na novém datasetu. Výsledné diorama konstruujeme tak, že rozdělíme objekty identifikované seg- mentací do samostatných obrázků s průhledným pozadím. Tyto obrázky pak umístíme do 3D scény tak, aby jejich vzájemná vzdálenost odpovídala odhad- nuté hloubce jednotlivých objektů. Naše řešení jsme implementovali formou add-onu pro Blender. Diplomová práce byla vypracována ve spolupráci s fir- mou polygoniq.
The goal of this thesis is to automate the process of generating 3D dio- rama scenes from a single image. After an extensive analysis of existing approaches, we propose to combine the output of deep learning models for panoptic segmentation and monocular depth estimation. We encountered some limitations of the available depth model for our use case, which we addressed through fine-tuning. To construct the diorama, we separate the objects identified by segmentation into distinct images with transparent back- grounds. These images are placed in a 3D scene, arranged in a way that reflects the estimated depth of each object. We implemented our method as an add-on for Blender. The thesis was developed in collaboration with a company called polygoniq.