dc.contributor.advisor | Kofroň, Jan | |
dc.creator | Kaštovský, Ondřej | |
dc.date.accessioned | 2024-11-28T18:59:05Z | |
dc.date.available | 2024-11-28T18:59:05Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/192050 | |
dc.description.abstract | Kvalitní data dnes hrají zásadní roli ve strategickém plánování a rozhodo- vacích procesech firem. Schopnost předpovídat délku trvání úloh spojených s jejich zpracováním a analýzou je klíčová pro efektivní využití zdrojů a opti- malizaci pracovních procesů. Cílem práce je rozšířit funkcionalitu platformy pro správu dat Ataccama ONE společnosti Ataccama o novou mikroservisu umožňující předpovídat délku trvání úloh datového profilování. V řešení se zabýváme identifikací klíčových vlastností dat, které délku trvání úloh ovliv- ňují, a využitím těchto poznatků ke tvorbě prototypu modelu strojového učení, jenž umožní délky trvání úloh predikovat. Součástí řešení je také de- tekce a zpracování úloh v reálném čase a příprava na budoucí integraci řešení do platformy. Důraz je kladen na kvalitu implementace a rozšiřitelnost o možnost predikce dalších typů úloh. | cs_CZ |
dc.description.abstract | Today, data quality plays a vital role in strategic planning and corporate decision-making processes. The ability to predict the duration of tasks re- lated to data processing and analysis is crucial for efficient use of resources and optimization of work processes. The goal of this work is to extend the functionality of Ataccama ONE, a data management platform of Ataccama, with a new microservice that allows predicting the duration of data profil- ing jobs. Our solution involves identifying the key data characteristics that affect the duration of these jobs and using these insights to prototype a ma- chine learning model to predict job durations. An important part of the solution is also to detect and process newly executed jobs in the platform in real-time and prepare the microservices for future integration into the plat- form. Emphasis is then placed on the quality of the implementation and the extensibility of the solution to predict other types of jobs. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | data management|data profiling|prediction | en_US |
dc.subject | datový management|datové profilování|predikce | cs_CZ |
dc.title | Predikce délky trvání datového profilování | cs_CZ |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-06-28 | |
dc.description.department | Department of Distributed and Dependable Systems | en_US |
dc.description.department | Katedra distribuovaných a spolehlivých systémů | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 255909 | |
dc.title.translated | Prediction of data-profiling duration | en_US |
dc.contributor.referee | Kliber, Filip | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Programming and Software Development | en_US |
thesis.degree.discipline | Informatika se specializací Programování a vývoj software | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra distribuovaných a spolehlivých systémů | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Distributed and Dependable Systems | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Programování a vývoj software | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Programming and Software Development | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Kvalitní data dnes hrají zásadní roli ve strategickém plánování a rozhodo- vacích procesech firem. Schopnost předpovídat délku trvání úloh spojených s jejich zpracováním a analýzou je klíčová pro efektivní využití zdrojů a opti- malizaci pracovních procesů. Cílem práce je rozšířit funkcionalitu platformy pro správu dat Ataccama ONE společnosti Ataccama o novou mikroservisu umožňující předpovídat délku trvání úloh datového profilování. V řešení se zabýváme identifikací klíčových vlastností dat, které délku trvání úloh ovliv- ňují, a využitím těchto poznatků ke tvorbě prototypu modelu strojového učení, jenž umožní délky trvání úloh predikovat. Součástí řešení je také de- tekce a zpracování úloh v reálném čase a příprava na budoucí integraci řešení do platformy. Důraz je kladen na kvalitu implementace a rozšiřitelnost o možnost predikce dalších typů úloh. | cs_CZ |
uk.abstract.en | Today, data quality plays a vital role in strategic planning and corporate decision-making processes. The ability to predict the duration of tasks re- lated to data processing and analysis is crucial for efficient use of resources and optimization of work processes. The goal of this work is to extend the functionality of Ataccama ONE, a data management platform of Ataccama, with a new microservice that allows predicting the duration of data profil- ing jobs. Our solution involves identifying the key data characteristics that affect the duration of these jobs and using these insights to prototype a ma- chine learning model to predict job durations. An important part of the solution is also to detect and process newly executed jobs in the platform in real-time and prepare the microservices for future integration into the plat- form. Emphasis is then placed on the quality of the implementation and the extensibility of the solution to predict other types of jobs. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra distribuovaných a spolehlivých systémů | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |