Hledání téměř identických dokumentů ve velkých kolekcích

Benčík, Daniel

Near duplicate detection in large document collections

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (163.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/13003

Identifikátory

SIS: 44310

Katalog UK: 990008402280106986

Oponent práce

Kopecký, Michal

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Správa počítačových systémů

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

10. 9. 2007

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Tato práce se zabývá problematikou vyhledávání dokumentů, které jsou si natolik podobné, že je můžeme považovat za (téměř) stejné, a to v kolekcích čítajících až miliony dokumentů. Největší důraz práce je kladen na porovnání nových, rychlých algoritmů řešících danou úlohu s algoritmy stávajícími, které jsou díky své složitosti pro obrovské kolekce nepoužitelné. Práce obsahuje implementaci obou metod přístupu k dané problematice spolu s aplikacemi umožňujícími experimentální porovnání obou těchto metod.

Abstrakt (anglicky)

This thesis deals with the problematics of detecting documents, which are so similair one to another, that we can consider them to be (nearly) identical and that in collections having up to millions of documents. The greatest aim of this thesis is a comparison of new, fast algorithms designed to solve this task with current algorithms, which due to their complexitiy cannot be used for large collections. The thesis contains an implementation of both new and current methods of solving the given task toghether with applications that are designed to experimentally compare these methods.

Citace dokumentu

Metadata

Zobrazit celý záznam