Automatické čištění HTML dokumentů

Marek, Michal

Automatické čištění HTML dokumentů

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (271.5Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/13024

Identifikátory

SIS: 45804

Katalog UK: 990008313400106986

Oponent práce

Straňák, Pavel

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Programování

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

11. 9. 2007

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek.

Abstrakt (anglicky)

This paper describes a system for automatic cleaning of HTML documents, which was used in the participation of the Charles University in CLEANEVAL 2007. CLEANEVAL is a shared task and competitive evaluation of automatic systems for cleaning arbitrary web pages with the goal of preparing web data for use as a corpus in the area of computational linguistics and natural language processing. We try to solve this task as a sequence-labeling problem and our experimental system is based on Conditional Random Fields exploiting a set of features extracted from textual content and HTML structure of analyzed web pages for each block of text.

Citace dokumentu

Metadata

Zobrazit celý záznam