Deep contextualized word embeddings from character language models for neural sequence labeling
Použití hlubokých kontextualizovaných slovních reprezentací založených na znacích pro neuronové sekvenční značkování
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/105144Identifikátory
SIS: 210186
Kolekce
- Kvalifikační práce [11325]
Autor
Vedoucí práce
Oponent práce
Kocmi, Tom
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
4. 2. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
umělé nuronové sítě, sekvenční značkování, znakové jazykové modelyKlíčová slova (anglicky)
artificial neural networks, sequence labeling, character language models, part-of-speech tagging, named entity recognition, multiword expression, word embedding, deep learning, PortugueseRodina úkolů pro zpracování přirozeného jazyka (NLP), jako je označování po částech řeči (PoS), identifikace pojmenované entity (NER) a identifikace více slov (MWE), zahrnují přiřazení štítků sekvencím slov v textu označování). Většina moderních přístupů strojového učení k sekvenčnímu označování využívá vkládání slov, naučené reprezentace textu, ve kterých mají slova s podobnými významy podobné reprezentace. Docela nedávno, kontextualizované slovní embeddings získaly hodně pozornosti, protože na rozdíl od předem vyškolených kontextově necitlivých embeddings, jako je word2vec, jsou schopni zachytit význam slova v kontextu. V této diplomové práci hodnotím výkonnost různých nastavení vkládání (kontextu citlivé, kontextově necitlivé slovo, stejně jako slovo specifické pro danou práci, charakter, lemma a PoS) na třech výše uvedených úlohách označování sekvence pomocí hlubokého modelu učení ( BiLSTM) a portugalských datových sad.
A family of Natural Language Processing (NLP) tasks such as part-of- speech (PoS) tagging, Named Entity Recognition (NER), and Multiword Expression (MWE) identification all involve assigning labels to sequences of words in text (sequence labeling). Most modern machine learning approaches to sequence labeling utilize word embeddings, learned representations of text, in which words with similar meanings have similar representations. Quite recently, contextualized word embeddings have garnered much attention because, unlike pretrained context- insensitive embeddings such as word2vec, they are able to capture word meaning in context. In this thesis, I evaluate the performance of different embedding setups (context-sensitive, context-insensitive word, as well as task-specific word, character, lemma, and PoS) on the three abovementioned sequence labeling tasks using a deep learning model (BiLSTM) and Portuguese datasets. v