Efektivní ukládání html stránek
Effective storage for html documents
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/13254Identifikátory
SIS: 46228
Kolekce
- Kvalifikační práce [11216]
Autor
Vedoucí práce
Oponent práce
Lánský, Jan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Datové inženýrství
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
18. 9. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
V rámci této práce byl vytvořen prototyp úložiště html dokumentů. Ukládání celých dokumentů je založeno jak na stávajících kompresních technikách (gzip, bzip2), tak i na novým metodách, kdy se dokument před kompresí vhodným způsobem předzpracuje. Ukládá-li se k jednomu dokumentu více verzí, mohou některé z nich být uloženy v podobě rozdílového souboru - je-li to v daném případě výhodné. Tyto rozdílové soubory mohou být opět komprimovány. V testech se metody z předzpracováním ukázaly jako mírně účinnější než metody původní. Rozdíl mezi účinností testovaných bezeztrátových a ztrátových metod předzpracování je relativně malý. Kombinace výše uvedených technik se v testech ukázala jako vhodná náhrada za kompaktní (solidní) archivy verzí jednotlivých dokumentů, přičemž navíc poskytuje velmi rychlý přístup k poslední (aktuální) verzi dokumentu, o které předpokládáme, že bude tou nejčastji požadovanou.
In the presented work a prototype of a storage for html documents is designed and implemented. The storing of complete documents is based on both current compression techniques (gzip, bzip2) and new methods. An input document is modi ed by the new methods and compressed by the current techniques. If there are stored many versions of the same document, some of them can be stored in the form of di erential les { in the case that it is more useful. These di erential les can be compressed as well. The compression methods with preprocessed input are a bit more e ffective than the original methods. The diff erence of efficiency of lossy and lossless compression methods is in this case relatively small. The performed tests showed that a combination of mentioned techniques could be a suitable substitution of compact archives for versioned documents. The implementation guarantees quick access to the actual version what is very important as we suppose that such versions will be the most requested ones.