Zobrazit minimální záznam

dc.contributor.authorGiger, Markus
dc.contributor.authorKocková, Jana
dc.date.accessioned2025-07-02T08:24:14Z
dc.date.available2025-07-02T08:24:14Z
dc.date.issued2025
dc.identifier.issn2336-6591
dc.identifier.urihttp://hdl.handle.net/20.500.11956/199840
dc.language.isocs_CZcs
dc.publisherUniverzita Karlova, Filozofická fakultacs
dc.subjectkorpusycs
dc.subjectkomparativní lingvistikacs
dc.subjecttagovánícs
dc.subjectsrovnatelnost datcs
dc.subjectvyváženost korpusůcs
dc.titlePasti dat: srovnatelnost dat jazykových korpusůcs
dc.typeVědecký článekcs
dcterms.accessRightsopenAccess
dcterms.licensehttp://creativecommons.org/licenses/by-nc-nd/2.0/
uk.abstract.csDespite the apparent unambiguity of data provided by corpora, the data reflect different composition of the corpora, different conceptions of the synchronic period of a given language, different linguistic traditions, different orthography and other factors. We focus on the most common reasons affecting the comparability of data in parallel corpora, such as unequal lemmatization, tagging and tokenization, and illustrate them with examples from Czech, German and Russian. For example, when comparing Russian and Czech verb forms and lemmas, the data provided by the corpora are not comparable, because in Russian, unlike in Czech, the reflexive and non-reflexive forms are assigned to different lemmas and the verb lemma includes participles, whereas the corresponding Czech forms are tagged as adjectives, in accordance with Czech philological tradition. The differing approaches to tokenization are also reflected in the overall size of the corpus, indirectly affecting the comparability of relative frequencies.cs
dc.publisher.publicationPlacePrahacs
uk.internal-typeuk_publication
dc.identifier.doihttps://doi.org/10.14712/23366591.2025.1.1
dc.description.startPage7cs
dc.description.endPage18cs
dcterms.isPartOf.nameČasopis pro moderní filologiics
dcterms.isPartOf.journalYear2025
dcterms.isPartOf.journalVolume2025
dcterms.isPartOf.journalIssue1
dcterms.isPartOf.issn2336-6591
dc.relation.isPartOfUrlhttps://casopispromodernifilologii.ff.cuni.cz


Soubory tohoto záznamu

Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV