Optimization of Processing of Data Files in System DIRAC
Optimization of Processing of Data Files in System DIRAC
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/81486Identifiers
Study Information System: 165309
CU Caralogue: 990020690830106986
Collections
- Kvalifikační práce [11342]
Author
Advisor
Consultant
Chudoba, Jiří
Adamová, Dagmar
Referee
Svoboda, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Administration of computer systems
Department
Department of Software Engineering
Date of defense
2. 2. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Systém DIRAC, NoSQL databáze, efektivní zpracování datových souborů, dotazování nad metadatyKeywords (English)
System DIRAC, NoSQL databases, efficient processing of data files, metadata queryingSystém DIRAC je softwarový framework poskytující kompletní řešení pro jednu nebo více uživatelských komunit, které potřebují zajistit přístup k distribuovaným výpočetním zdrojům. V této práci je rozšířen DIRAC File Catalog (DFC) o modul DatasetManager, přidávající funkcionalitu datasetů definovaných dotazem nad metadaty. K vylepšení práce s dotazy v kódu systému je vyvinuta nová třída MetaQuery, která shlukuje obslužné metody a přidává normalizaci a optimalizaci dotazu na vstupu. Jazyk vyjadřující dotazy byl také rozšířen přidáním možnosti používat logické spojky a závorky. Druhá část práce se zabývá testováním hypotézy, že použití NoSQL databáze jako back-end pro metadatovou část DFC by přineslo vylepšení výkonu vyhledávání. Několik NoSQL databází je otestováno na datech podobných produkčním datům používaných systémem DIRAC. Nejvýkonější z testovaných databází je pak připojena k DFC použitím nového specializovaného rozhraní. Powered by TCPDF (www.tcpdf.org)
DIRAC is a software framework for distributed computing providing a complete solution to one (or more) user community requiring access to distributed resources. In this thesis the DIRAC File Catalog (DFC) is extended by adding a DatasetManager module, thus adding support for datasets based on metadata queries. To improve the metaquery handling in the code, a new class MetaQuery was implemented that bundles the handling methods and adds normalization and optimization of the user input. The metaquery language was extended enabling logical operators and parenthesis. In the second part of the thesis the hypothesis that connecting the metadata part of the DIRAC File Catalog to a NoSQL database could improve metaquery performance is evaluated. Several databases are tested and the best performing one is then connected via an interface module to the DFC. Powered by TCPDF (www.tcpdf.org)