dc.contributor.advisor | Pecina, Pavel | |
dc.creator | Benčík, Daniel | |
dc.date.accessioned | 2017-04-06T10:37:45Z | |
dc.date.available | 2017-04-06T10:37:45Z | |
dc.date.issued | 2007 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/13003 | |
dc.description.abstract | Tato práce se zabývá problematikou vyhledávání dokumentů, které jsou si natolik podobné, že je můžeme považovat za (téměř) stejné, a to v kolekcích čítajících až miliony dokumentů. Největší důraz práce je kladen na porovnání nových, rychlých algoritmů řešících danou úlohu s algoritmy stávajícími, které jsou díky své složitosti pro obrovské kolekce nepoužitelné. Práce obsahuje implementaci obou metod přístupu k dané problematice spolu s aplikacemi umožňujícími experimentální porovnání obou těchto metod. | cs_CZ |
dc.description.abstract | This thesis deals with the problematics of detecting documents, which are so similair one to another, that we can consider them to be (nearly) identical and that in collections having up to millions of documents. The greatest aim of this thesis is a comparison of new, fast algorithms designed to solve this task with current algorithms, which due to their complexitiy cannot be used for large collections. The thesis contains an implementation of both new and current methods of solving the given task toghether with applications that are designed to experimentally compare these methods. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Hledání téměř identických dokumentů ve velkých kolekcích | cs_CZ |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2007 | |
dcterms.dateAccepted | 2007-09-10 | |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 44310 | |
dc.title.translated | Near duplicate detection in large document collections | en_US |
dc.contributor.referee | Kopecký, Michal | |
dc.identifier.aleph | 000840228 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Správa počítačových systémů | cs_CZ |
thesis.degree.discipline | Administration of computer systems | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Správa počítačových systémů | cs_CZ |
uk.degree-discipline.en | Administration of computer systems | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato práce se zabývá problematikou vyhledávání dokumentů, které jsou si natolik podobné, že je můžeme považovat za (téměř) stejné, a to v kolekcích čítajících až miliony dokumentů. Největší důraz práce je kladen na porovnání nových, rychlých algoritmů řešících danou úlohu s algoritmy stávajícími, které jsou díky své složitosti pro obrovské kolekce nepoužitelné. Práce obsahuje implementaci obou metod přístupu k dané problematice spolu s aplikacemi umožňujícími experimentální porovnání obou těchto metod. | cs_CZ |
uk.abstract.en | This thesis deals with the problematics of detecting documents, which are so similair one to another, that we can consider them to be (nearly) identical and that in collections having up to millions of documents. The greatest aim of this thesis is a comparison of new, fast algorithms designed to solve this task with current algorithms, which due to their complexitiy cannot be used for large collections. The thesis contains an implementation of both new and current methods of solving the given task toghether with applications that are designed to experimentally compare these methods. | en_US |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990008402280106986 | |