A contrastive description of English and Czech using the methodology of n-gram extraction
Kontrastivní popis angličtiny a češtiny s využitím metodologie n-gramů
dizertační práce (OBHÁJENO)

Zobrazit/otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/178511Identifikátory
SIS: 194144
Kolekce
- Kvalifikační práce [23977]
Autor
Vedoucí práce
Konzultant práce
Milička, Jiří
Oponent práce
Březina, Václav
Kopřivová, Marie
Fakulta / součást
Filozofická fakulta
Obor
Anglický jazyk
Katedra / ústav / klinika
Ústav obecné lingvistiky
Datum obhajoby
19. 9. 2022
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
n-gramy|frazeologie|corpus-driven|registr|čeština|angličtinaKlíčová slova (anglicky)
n-grams|phraseology|corpus-driven|register|Czech|EnglishTato disertační práce zkoumá frazeologické vzorce ve třech různých registrech (parlamentní debaty, noviny a dětská beletrie) v angličtině a češtině. Vyhledává a rozebírá rekurentní sekvence slov pomocí metody n-gramů. Cílem je popsat frazeologické vlastnosti každého registru a porovnat je mezijazykově. Práce také zkoumá možnosti přizpůsobení metody n-gramů se zřetelem k typologickým vlastnostem zkoumaných jazyků. Čeština v tomto ohledu klade na metodu vyšší nároky kvůli velké míře morfologické a slovosledné variability. Práci tvoří tři případové studie, každá věnovaná jinému registru. První studie využívá a následně porovnává různé délky n-gramů. Předmětem zkoumání je malý korpus úzce specializovaného registru parlamentních debat. Studie dochází k závěru, že komplexního popisu registru lze dosáhnout nejlépe kombinací n-gramů různých délek. To ovšem představuje metodologický problém:, protože mezi n-gramy různých délek jsou četné překryvy, které znemožňují přesnou kvantifikaci a způsobují, že některé n-gramy jsou zastoupeny vícekrát. Studie popisuje různé funkce frazeologických vzorců a všímá si jejich role v organizaci diskursu. Druhá studie je věnována novinovým textům a zaměřuje se na n-gramy obsahující některou z předem zvolených předložek; předložky jsou ke zkoumání frazeologických vzorců...
This dissertation examines phraseological patterns in three registers (parliamentary debates, newspaper reporting, children's fiction) in English and Czech. It identifies and analyses recurrent word sequences through n-gram extraction, aiming to characterise the phraseology of each register and compare them cross- linguistically, while observing how the n-gram method can be adapted to accommodate for the typological properties of each language. Czech is particularly challenging in this respect due to its morphological and positional variability. The dissertation comprises three case studies, each focussed on a different register. The first case study explores different n-gram lengths using a small corpus of a specialised register - parliamentary debates, suggesting that for a comprehensive register characterisation, different lengths should be combined. It notes the importance of discourse-structuring patterns and the problem of overlaps between n-grams. In the newspaper study, I extract n-grams containing prepositions - a convenient starting point given their frequency and involvement in text- structuring. N-grams are complemented with collocation analysis, revealing some evaluative prosodies and semantic preferences of patterns and suggesting that the newspaper register is not purely...