Automatické čištění HTML dokumentů

Marek, Michal

Automatické čištění HTML dokumentů

bachelor thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (271.5Kb)

Permanent link

http://hdl.handle.net/20.500.11956/13024

Identifiers

Study Information System: 45804

CU Caralogue: 990008313400106986

Referee

Straňák, Pavel

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Programming

Department

Institute of Formal and Applied Linguistics

Date of defense

11. 9. 2007

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek.

Abstract (English)

This paper describes a system for automatic cleaning of HTML documents, which was used in the participation of the Charles University in CLEANEVAL 2007. CLEANEVAL is a shared task and competitive evaluation of automatic systems for cleaning arbitrary web pages with the goal of preparing web data for use as a corpus in the area of computational linguistics and natural language processing. We try to solve this task as a sequence-labeling problem and our experimental system is based on Conditional Random Fields exploiting a set of features extracted from textual content and HTML structure of analyzed web pages for each block of text.

Citace dokumentu

Metadata

Show full item record