dc.contributor.advisor | Lokoč, Jakub | |
dc.creator | Souček, Tomáš | |
dc.date.accessioned | 2020-10-05T10:13:54Z | |
dc.date.available | 2020-10-05T10:13:54Z | |
dc.date.issued | 2020 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/121024 | |
dc.description.abstract | Vyhledávání ve videu představuje náročný problém s mnoha záludnostmi a dílčími problémy. Tato práce se zaměřuje na dva z těchto podproblémů, konkrétně na detekci střihů a textové vyhledávání. V případě detekce střihů bylo v posledních desetiletích navrženo mnoho řešení. Nedávné přístupy založené na hlubokém učení zlepšily přes- nost detekce pomocí 3D konvolučních architektur a uměle vytvořených trénovacích dat, ale stoprocentní přesnost je stále nedosažitelným ideálem. V této práci představujeme TransNet V2, hlubokou síť pro detekci střihů, která dosahuje nejlepších výsledků v porovnání s konkurenčními metodami na respekovaných datasetech. V případě druhého námi řešeného problému textového vyhledávání se ukázaly jako efektivní řešení hluboké neuronové sítě promítající textové dotazy a snímky videa do společného prostoru. V této práci zkoumáme použítí těchto sítí pro případ hledání známého objektu ve videu a navrhujeme vylepšení způsobu, jakým lze zakódovat textový dotaz. 1 | cs_CZ |
dc.description.abstract | Video retrieval represents a challenging problem with many caveats and sub-problems. This thesis focuses on two of these sub-problems, namely shot transition detection and text-based search. In the case of shot detection, many solutions have been proposed over the last decades. Recently, deep learning-based approaches improved the accuracy of shot transition detection using 3D convolutional architectures and artificially created training data, but one hundred percent accuracy is still an unreachable ideal. In this thesis we present a deep network for shot transition detection TransNet V2 that reaches state-of- the-art performance on respected benchmarks. In the second case of text-based search, deep learning models projecting textual query and video frames into a joint space proved to be effective for text-based video retrieval. We investigate these query representation learning models in a setting of known-item search and propose improvements for the text encoding part of the model. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | hluboké učení | cs_CZ |
dc.subject | detekce střihů | cs_CZ |
dc.subject | hledání známé scény | cs_CZ |
dc.subject | učení reprezentací | cs_CZ |
dc.subject | deep learning | en_US |
dc.subject | shot transition detection | en_US |
dc.subject | known-item search | en_US |
dc.subject | representation learning | en_US |
dc.title | Detekce střihů a vyhledávání známých scén ve videu s pomocí metod hlubokého učení | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2020 | |
dcterms.dateAccepted | 2020-09-14 | |
dc.description.department | Katedra softwarového inženýrství | cs_CZ |
dc.description.department | Department of Software Engineering | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 224473 | |
dc.title.translated | Detekce střihů a vyhledávání známých scén ve videu s pomocí metod hlubokého učení | cs_CZ |
dc.contributor.referee | Peška, Ladislav | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Artificial Intelligence | en_US |
thesis.degree.discipline | Umělá inteligence | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwarového inženýrství | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software Engineering | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Vyhledávání ve videu představuje náročný problém s mnoha záludnostmi a dílčími problémy. Tato práce se zaměřuje na dva z těchto podproblémů, konkrétně na detekci střihů a textové vyhledávání. V případě detekce střihů bylo v posledních desetiletích navrženo mnoho řešení. Nedávné přístupy založené na hlubokém učení zlepšily přes- nost detekce pomocí 3D konvolučních architektur a uměle vytvořených trénovacích dat, ale stoprocentní přesnost je stále nedosažitelným ideálem. V této práci představujeme TransNet V2, hlubokou síť pro detekci střihů, která dosahuje nejlepších výsledků v porovnání s konkurenčními metodami na respekovaných datasetech. V případě druhého námi řešeného problému textového vyhledávání se ukázaly jako efektivní řešení hluboké neuronové sítě promítající textové dotazy a snímky videa do společného prostoru. V této práci zkoumáme použítí těchto sítí pro případ hledání známého objektu ve videu a navrhujeme vylepšení způsobu, jakým lze zakódovat textový dotaz. 1 | cs_CZ |
uk.abstract.en | Video retrieval represents a challenging problem with many caveats and sub-problems. This thesis focuses on two of these sub-problems, namely shot transition detection and text-based search. In the case of shot detection, many solutions have been proposed over the last decades. Recently, deep learning-based approaches improved the accuracy of shot transition detection using 3D convolutional architectures and artificially created training data, but one hundred percent accuracy is still an unreachable ideal. In this thesis we present a deep network for shot transition detection TransNet V2 that reaches state-of- the-art performance on respected benchmarks. In the second case of text-based search, deep learning models projecting textual query and video frames into a joint space proved to be effective for text-based video retrieval. We investigate these query representation learning models in a setting of known-item search and propose improvements for the text encoding part of the model. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |