Syllable-based compression of XML
Syllable-based compression of XML
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/4447Identifiers
Study Information System: 43190
Collections
- Kvalifikační práce [11327]
Author
Advisor
Referee
Dvořák, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
22. 5. 2006
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Slabiková komprese prokazuje dobré výsledky na malých a středně velkých textových dokumentech. Protože většina XML dokumentů je středně velká, domníváme se, že slabiková komprese muůže být vhodná pro XML, zvláště pak pro dokumenty, které mají jednoduchou strukturu (malý počet elementu a atributu) a poměrně dlouhý znakový obsah. V této práci jsme navrhli dvě slabikové kompresní metody pro textová data ve formátu XML. První metoda, XMLSyl, nahrazuje XML značky (elementy a atributy) ve vstupním dokumentu speciálními kódy a pak komprimuje dokument pomoci slabikové komprese. Druhá metoda, XMillSyl, spojuje slabikovou kompresi a kompresní metodu XMill. XMLSyl a XMillSyl porovnáváme s již existujícími kompresními metodami pro XML a s obecnými slabikovými kompresními metodami.
Syllable-based compression achieves sufficient results on small or middle-sized text documents. Since the majority of XML documents are that size, we suppose that the syllable-based method can give good results on XML documents, especially on documents that have a simple structure (small amount of elements and attributes) and relatively long character data content. In this paper we propose two syllable-based compression methods for XML documents. The first method, XMLSyl, replaces XML tokens (element tags and attributes) by special codes in input document and then compresses this document using a syllable-based method. The second method, XMillSyl, incorporates syllable-based compression into the existing method for XML compression XMill. XMLSyl and XMillSyl are compared with other XML-conscious compression methods as well as with a non-XML syllable-based compression methods.