ТЕКСТОМЕТРИЈА У КОРПУСНОЈ ЛИНВИСТИЦИ: СРПСКИ ФУДБАЛСКИ КОРПУС

Наслеђе 59 (2024) [111-124]

АУТОР(И) / AUTHOR(S): Јелена В. Лазаревић

DOI: 10.46793/NasKg2459.111L

САЖЕТАК /ABSTRACT:

Корпус срФудКо је први фудбалски корпус на српском језику чији је жанр новински. Представља партицију корпуса ФудКо који се састоји из две целине: корпуса шпанског есФудКо и корпуса текстова на српском срФудКо, сачињених и обрађених једин- ственом методологијом текстометрије корпусне лингвистике. Циљ рада је приказивање формирања корпуса срФудКо, испити- вање специфичности језика фудбала који се користи у новинар- ским чланцима путем статистичких и текстометријских анализа кроз увид у коришћење алата за ове анализе. Корпус текстова о фудбалу на српском језику срФудКо прикупљен је са пет српских веб-портала: „Б92”, „Блиц”, „Мондо”, „Политика” и „Спортклуб”. Припремљен је као колекција XML датотека, организованих по годинама и по порталима са којих су чланци преузети, тако да је 11.117 чланака распоређено у 37 датотека. Доменски корпус је обрађен поступцима токенизације, тагирања врстом речи и лема- тизацијом. Корпус срФудКо садржи 10.100.553 токена, од чега су 8.618.426 речи а 1.482.127 интерпункцијски знаци. Просечна дужина чланака је 1068 речи. Дистрибуција фреквенција поје- диних врста речи срФудКо сведочи да у корпусу фудбала има знатно више властитих имена и бројева него у корпусу стан- дардног српског језика. Специфичности срФудКо су: емотикони и различите врсте симбола који припадају категорији дужине корпусне речи 1, речи дужине 5 као најфреквентније у корпусу, висок индекс специфичности употребе врста речи на различитим порталима, особеност конкорданци и колокација.

КЉУЧНЕ РЕЧИ / KEYWORDS:

корпусна лингвистика, текстометрија, језик фудбала, српски фудбалски корпус срФудКо

ЛИТЕРАТУРА/ REFERENCES:

Braun et al. 2021: N. Braun, Memofc: introducing the multilingual emotional football corpus, Language resources and evaluation, 55 (2), 389–430.
Cameron 2013: D. Cameron, The one, the many, and the Other: Representing multi-and mono- lingualism in post-9/11 verbal hygiene, Critical Multilingualism Studies, 1 (2), 59–77.
De Marneffe et al. 2021: M-C. De Marneffe, Universal Dependencies, Computational Linguistics, 47(2), 255–308.
Heiden 2010: S. Heiden, The TXM platform: Building open-source textual analysis software compatible with the TEI encoding scheme, in: 24th Pacific Asia conference on language, information and computation, Institute for Digital Enhancement of Cognitive Development, Waseda University 2, (3): 389–398. Hunston 2002: S. Hunston, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. http://dx.doi.- org/10.1017/CBO9781139524773, 2.
Jaćimović 2019: J. Jaćimović, Textometric methods and the TXM platform for corpus analysis and visual presentation, Infoteka, 19 (1), Beograd, 30–54.
Jurafsky, Martin 2008: D. Jurafsky, J. H. Martin, Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition, New Jersey: Pearson/Prentice Hall.
Krstev 2008: C. Krstev, Processing of Serbian: Automata, Texts and Electronic Dictionaries, Belgrade: Faculty of Philology of the University of Belgrade.
Marković, Radoman 2010: M. Marković, M. Radoman, Dvojezični englesko-srpski rečnik sportskih termina, Crnogorska sportska akademija, Sport Mont, (VIII) 23-24, 70–74.
Meier-Vieracker 2021: S. Meier-Vieracker, The evolution of football live text commen- taries: A corpus linguistic case study on genre change, AILA Review 34, (2): 274–299.
Mihajlović 2003: A. Mihajlović, Fudbalski rečnik/Footbal Dictionary/Dictionnaire du football/ Diccionario del fútbol: srpsko-englesko-francusko-španski, Beograd.
Milić 2016: M. Milić, Principi sastavljanja dvojezičnih terminoloških rečnika: Englesko-srpski rečnik sportskih termina, Leksikologija i leksikografija u svetlu savremenih pristupa, Beograd, DAIS/ISJ SANU, 273–286.
Pearson 1998: J. Pearson, Terms in Context, Amsterdam: John Benjamins BV.
Pejović 2021: A. Pejović, Logros lexicográficos del hispanismo serbio y el croata, Revista de Lexicografía, 26: 113–130.
Pejović, Andrijević 2011: A. Pejović, M. Andrijević, Španski roman u korpusnoj ling- vistici, Kragujevac: Nasleđe, 8, (18) Kragujevac, 385–403.
Rodrigues 2013: R. Rodrigues, Corpus – driven Methodology for Exploring Cultural References in the Areas of Cooking, Football and Hotel Industry, Procedia- Social and Behavioral Sciences, 95: 336–343.
Sandrelli 2012: A. Sandrelli, Interpreting football press conferences: The FOOTIE corpus, Trieste: Universita degli studi di Trieste.
Silaški 2009: N. Silaški, Sportski diskurs u svetlu kognitivne lingvistike – konceptu- alizacija pobede i poraza u naslovima, Kragujevac, Nasleđe, 6, (14–1): 107–21.
Sinclair 1991: J. Sinclair, Corpus, concordance, collocation, Oxford: Oxford University Press.
Sinclair 2005: J. Sinclair: Corpus and Text: Basic Principles, in: Developing Linguistic Corpora: A Guide to Good Practice, Wynne, M. (Ed.): 1–16.
Stanković et al. 2020: R. Stanković et al. Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian, in: N. Calzolari et al. ed Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, 3947–3955.
Stanković et al.2021: R. Stanković et al., SrpMD4Tagging – Serbian Morphological Dictionaries for Tagging. Version 1.0.0., C. Krstev [Dataset (Lexical Resource)]. https://doi.org/10.57771/qx05-e470.
Stanković, Škorić 2021: R. Stanković, M. Škorić, SrpKor4Tagging-TreeTagger. Version 1.0.0, https://doi.org/10.57771/bvkk-jv85.
Stojković, Maravić 2016: M. Stojković, D. Maravić, Englesko-srpski jezik fudbala,
Beograd: Fudbalski savez Beograd.
Taborek 2012: J. Taborek, The language of sport: Some remarks on the language of foot- ball, in: H. Lankiewicz & E. Wąsikiewicz-Firlej (Eds.), Informed teaching – premises of modern foreign language pedagogy, 237–253. Piła: Państwowa Wyższa Szkoła Zawodowa im. Stanisława Staszica.
Utvić (2013): M. Utvić, Izgradnja referentnog korpusa savremenog srpskog jezika, Beograd: Filološki fakultet Beograd.
Vitas et al. 2021: D. Vitas et al., SrpKor4Tagging. Version 1.0.0. (automatically assigned), D. Vitas [Dataset (Text corpus)]. https://doi.org/10.57771/ w16g-6n57.
Vitas, Krstev 2012:D. Vitas, C. Krstev, Processing of Corpora of Serbian Using Electronic Dictionaries. in: Prace Filologiczne, Warszawa, LXIII: 279–292.

Post Views: 119