Show simple item record

Arithmetic coding over alphabet of syllables
dc.contributor.advisorLánský, Jan
dc.creatorChroustovský, Jan
dc.date.accessioned2017-04-06T11:24:02Z
dc.date.available2017-04-06T11:24:02Z
dc.date.issued2007
dc.identifier.urihttp://hdl.handle.net/20.500.11956/13229
dc.description.abstractSlabiková komprese je nová metoda komprese textu, nabízející zajímavý kompromis mezi kompresí po znacích a po celých slovech, která by měla být výhodná především pro soubory střední velikosti. Slabiky jsou pro kódování vhodné, neboť přirozeně tvoří logické často se opakující jednotky, ze kterých se skládají celá slova. Nevýhodou slabik je, že datové struktury s nimi pracující se musí vyrovnat s teoreticky nekonečnou množinou slabik, která se může v textu vyskytnout. Tato diplomová práce se zaměřuje na využití aritmetického kódování pro slabikovou kompresi a použití rychlých a efektivních datových struktur pro statistický model a slabikový kontext. V práci je popsán nový aritmetický slabikový kompresní algoritmus AritSyll, který vychází z algoritmu HuffSyll. Značného vylepšení, oproti HuffSyll, doznal slabikový kontextový model, který je v AritSyllu dlouhý až tři slabiky a lépe reprezentuje skladbu věty v přirozeném jazyce, a statistický model, který je inicializován statistickými informacemi lišící se podle zvoleného jazyka, pro lepší kompresi souborů malé velikosti. Kromě "klasických" textových souborů s osmibitovou velikostí znaku, je pomocí AritSyllu možné efektivně kódovat i textové soubory v kódování UTF8. Implementovaný slabikový kompresní algoritmus je srovnáván s jinými znakovými i slovními...cs_CZ
dc.description.abstractA syllablebased compression is a new method of a text compression, offering interesting tradeoff between a characterbased compression and a wordbased compression. Syllablebased compression should be best suited for middle sized files. Syllables are favorable, because they are forming logical units, which words are composed of. Syllables have disadvantage that data structures working with them must deal with infinite set of syllables. This thesis is focused to usage of arithmetic coding for syllablebased compression and usage of fast and effective data structures for a statistical model and a syllable context. In this thesis is described new arithmetic syllablebased compression algorithm AritSyll, which is based on the HuffSyll algorithm. A considerable improvement is new syllable context, which is up to three syllables long and which better represents sentences in a language. The next improvement is statistical model, which is initialized with statistical information based on selected language, for better compression of small sized files. With the AritSyll is possible to effectively encode text files in UTF8 coding. Implemented syllablebased compression algorithm is compared with other characterbased, wordbased compression algorithms.en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.titleAritmetické kódování nad abecedou slabikcs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2007
dcterms.dateAccepted2007-09-18
dc.description.departmentKatedra softwarového inženýrstvícs_CZ
dc.description.departmentDepartment of Software Engineeringen_US
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId45818
dc.title.translatedArithmetic coding over alphabet of syllablesen_US
dc.contributor.refereeDvořák, Tomáš
dc.identifier.aleph000830957
thesis.degree.nameMgr.
thesis.degree.levelmagisterskécs_CZ
thesis.degree.disciplineSoftwarové systémycs_CZ
thesis.degree.disciplineSoftware systemsen_US
thesis.degree.programInformaticsen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra softwarového inženýrstvícs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Software Engineeringen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csSoftwarové systémycs_CZ
uk.degree-discipline.enSoftware systemsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enInformaticsen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csSlabiková komprese je nová metoda komprese textu, nabízející zajímavý kompromis mezi kompresí po znacích a po celých slovech, která by měla být výhodná především pro soubory střední velikosti. Slabiky jsou pro kódování vhodné, neboť přirozeně tvoří logické často se opakující jednotky, ze kterých se skládají celá slova. Nevýhodou slabik je, že datové struktury s nimi pracující se musí vyrovnat s teoreticky nekonečnou množinou slabik, která se může v textu vyskytnout. Tato diplomová práce se zaměřuje na využití aritmetického kódování pro slabikovou kompresi a použití rychlých a efektivních datových struktur pro statistický model a slabikový kontext. V práci je popsán nový aritmetický slabikový kompresní algoritmus AritSyll, který vychází z algoritmu HuffSyll. Značného vylepšení, oproti HuffSyll, doznal slabikový kontextový model, který je v AritSyllu dlouhý až tři slabiky a lépe reprezentuje skladbu věty v přirozeném jazyce, a statistický model, který je inicializován statistickými informacemi lišící se podle zvoleného jazyka, pro lepší kompresi souborů malé velikosti. Kromě "klasických" textových souborů s osmibitovou velikostí znaku, je pomocí AritSyllu možné efektivně kódovat i textové soubory v kódování UTF8. Implementovaný slabikový kompresní algoritmus je srovnáván s jinými znakovými i slovními...cs_CZ
uk.abstract.enA syllablebased compression is a new method of a text compression, offering interesting tradeoff between a characterbased compression and a wordbased compression. Syllablebased compression should be best suited for middle sized files. Syllables are favorable, because they are forming logical units, which words are composed of. Syllables have disadvantage that data structures working with them must deal with infinite set of syllables. This thesis is focused to usage of arithmetic coding for syllablebased compression and usage of fast and effective data structures for a statistical model and a syllable context. In this thesis is described new arithmetic syllablebased compression algorithm AritSyll, which is based on the HuffSyll algorithm. A considerable improvement is new syllable context, which is up to three syllables long and which better represents sentences in a language. The next improvement is statistical model, which is initialized with statistical information based on selected language, for better compression of small sized files. With the AritSyll is possible to effectively encode text files in UTF8 coding. Implemented syllablebased compression algorithm is compared with other characterbased, wordbased compression algorithms.en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrstvícs_CZ
dc.identifier.lisID990008309570106986


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV