Zobrazit minimální záznam

Streaming Algorithms for Lp Sampling from Large Datasets
dc.contributor.advisorVeselý, Pavel
dc.creatorAdámek, Jan
dc.date.accessioned2024-11-28T20:19:45Z
dc.date.available2024-11-28T20:19:45Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/193058
dc.description.abstractRozsáhlé výpočty často vyžadují práci s daty daleko většími, než kolik máme k dis- pozici paměti. To vytváří potřebu umět shrnout velká data v malém prostoru. Jeden z možných postupů je Lp vzorkování. Jeho cílem je z proudu dat budujícího vektor frekvencí náhodně vybrat vzorek indexu s pravděpodobností úměrnou p-té mocnině jeho frekvence. V této práci popíšeme hlavní existující algoritmy pro Lp vzorkování s p = 0 a p = 2. Při tom představíme drobné vylepšení algoritmu pro Distinct sampling a doplníme odhad frekvence pro algoritmus Truly perfect sampler. Poté tyto algoritmy implementujeme a experimentálně vyhodnotíme jejich efektivitu.cs_CZ
dc.description.abstractLarge-scale computations often require working with datasets far larger than the avail- able memory. That creates the need to summarise large data in small space. One of the possible techniques is Lp sampling. Its goal is to take a stream of data defining a vector of frequencies and randomly sample an index with the probability proportional to the p-th power of its frequency. In this work we will describe the main existing algorithms for Lp sampling with p = 0 a p = 2. In the process we will introduce a slight algorith- mic improvement for Distinct Sampling and extend the Truly Perfect Sampler algorithm with frequency estimation. Next we will implement these algorithms and experimentally evaluate their efficiency.en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectsampling|linear sketching|streaming algorithms|data summaries|precision sampling algorithm|distinct samplingen_US
dc.subjectvzorkování|lineární sketching|proudové algoritmy|souhrny dat|algoritmus precision sampling|vzorkování nezávislé na frekvencics_CZ
dc.titleProudové algoritmy pro Lp vzorkování velkých datcs_CZ
dc.typebakalářská prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-09-05
dc.description.departmentComputer Science Institute of Charles Universityen_US
dc.description.departmentInformatický ústav Univerzity Karlovycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId270271
dc.title.translatedStreaming Algorithms for Lp Sampling from Large Datasetsen_US
dc.contributor.refereeVu, Tung Anh
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineComputer Science with specialisation in Programming and Software Developmenten_US
thesis.degree.disciplineInformatika se specializací Programování a vývoj softwarecs_CZ
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typebakalářská prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Informatický ústav Univerzity Karlovycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Computer Science Institute of Charles Universityen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika se specializací Programování a vývoj softwarecs_CZ
uk.degree-discipline.enComputer Science with specialisation in Programming and Software Developmenten_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVelmi dobřecs_CZ
thesis.grade.enVery gooden_US
uk.abstract.csRozsáhlé výpočty často vyžadují práci s daty daleko většími, než kolik máme k dis- pozici paměti. To vytváří potřebu umět shrnout velká data v malém prostoru. Jeden z možných postupů je Lp vzorkování. Jeho cílem je z proudu dat budujícího vektor frekvencí náhodně vybrat vzorek indexu s pravděpodobností úměrnou p-té mocnině jeho frekvence. V této práci popíšeme hlavní existující algoritmy pro Lp vzorkování s p = 0 a p = 2. Při tom představíme drobné vylepšení algoritmu pro Distinct sampling a doplníme odhad frekvence pro algoritmus Truly perfect sampler. Poté tyto algoritmy implementujeme a experimentálně vyhodnotíme jejich efektivitu.cs_CZ
uk.abstract.enLarge-scale computations often require working with datasets far larger than the avail- able memory. That creates the need to summarise large data in small space. One of the possible techniques is Lp sampling. Its goal is to take a stream of data defining a vector of frequencies and randomly sample an index with the probability proportional to the p-th power of its frequency. In this work we will describe the main existing algorithms for Lp sampling with p = 0 a p = 2. In the process we will introduce a slight algorith- mic improvement for Distinct Sampling and extend the Truly Perfect Sampler algorithm with frequency estimation. Next we will implement these algorithms and experimentally evaluate their efficiency.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Informatický ústav Univerzity Karlovycs_CZ
thesis.grade.code2
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV