ТЕКСТОМЕТРИЈА У КОРПУСНОЈ ЛИНВИСТИЦИ: СРПСКИ ФУДБАЛСКИ КОРПУС

Nasleđe 59 (2024) [111-124]

AUTOR(I) / AUTHOR(S): Jelena V. Lazarević

DOI: 10.46793/NasKg2459.111L

SAŽETAK /ABSTRACT:

Korpus srFudKo je prvi fudbalski korpus na srpskom jeziku čiji je žanr novinski. Predstavlja particiju korpusa FudKo koji se sastoji iz dve celine: korpusa španskog esFudKo i korpusa tekstova na srpskom srFudKo, sačinjenih i obrađenih jedin- stvenom metodologijom tekstometrije korpusne lingvistike. Cilj rada je prikazivanje formiranja korpusa srFudKo, ispiti- vanje specifičnosti jezika fudbala koji se koristi u novinar- skim člancima putem statističkih i tekstometrijskih analiza kroz uvid u korišćenje alata za ove analize. Korpus tekstova o fudbalu na srpskom jeziku srFudKo prikupljen je sa pet srpskih veb-portala: „B92”, „Blic”, „Mondo”, „Politika” i „Sportklub”. Pripremljen je kao kolekcija XML datoteka, organizovanih po godinama i po portalima sa kojih su članci preuzeti, tako da je 11.117 članaka raspoređeno u 37 datoteka. Domenski korpus je obrađen postupcima tokenizacije, tagiranja vrstom reči i lema- tizacijom. Korpus srFudKo sadrži 10.100.553 tokena, od čega su 8.618.426 reči a 1.482.127 interpunkcijski znaci. Prosečna dužina članaka je 1068 reči. Distribucija frekvencija poje- dinih vrsta reči srFudKo svedoči da u korpusu fudbala ima znatno više vlastitih imena i brojeva nego u korpusu stan- dardnog srpskog jezika. Specifičnosti srFudKo su: emotikoni i različite vrste simbola koji pripadaju kategoriji dužine korpusne reči 1, reči dužine 5 kao najfrekventnije u korpusu, visok indeks specifičnosti upotrebe vrsta reči na različitim portalima, osobenost konkordanci i kolokacija.

KLJUČNE REČI / KEYWORDS:

korpusna lingvistika, tekstometrija, jezik fudbala, srpski fudbalski korpus srFudKo

LITERATURA/ REFERENCES:

Braun et al. 2021: N. Braun, Memofc: introducing the multilingual emotional football corpus, Language resources and evaluation, 55 (2), 389–430.
Cameron 2013: D. Cameron, The one, the many, and the Other: Representing multi-and mono- lingualism in post-9/11 verbal hygiene, Critical Multilingualism Studies, 1 (2), 59–77.
De Marneffe et al. 2021: M-C. De Marneffe, Universal Dependencies, Computational Linguistics, 47(2), 255–308.
Heiden 2010: S. Heiden, The TXM platform: Building open-source textual analysis software compatible with the TEI encoding scheme, in: 24th Pacific Asia conference on language, information and computation, Institute for Digital Enhancement of Cognitive Development, Waseda University 2, (3): 389–398. Hunston 2002: S. Hunston, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. http://dx.doi.- org/10.1017/CBO9781139524773, 2.
Jaćimović 2019: J. Jaćimović, Textometric methods and the TXM platform for corpus analysis and visual presentation, Infoteka, 19 (1), Beograd, 30–54.
Jurafsky, Martin 2008: D. Jurafsky, J. H. Martin, Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition, New Jersey: Pearson/Prentice Hall.
Krstev 2008: C. Krstev, Processing of Serbian: Automata, Texts and Electronic Dictionaries, Belgrade: Faculty of Philology of the University of Belgrade.
Marković, Radoman 2010: M. Marković, M. Radoman, Dvojezični englesko-srpski rečnik sportskih termina, Crnogorska sportska akademija, Sport Mont, (VIII) 23-24, 70–74.
Meier-Vieracker 2021: S. Meier-Vieracker, The evolution of football live text commen- taries: A corpus linguistic case study on genre change, AILA Review 34, (2): 274–299.
Mihajlović 2003: A. Mihajlović, Fudbalski rečnik/Footbal Dictionary/Dictionnaire du football/ Diccionario del fútbol: srpsko-englesko-francusko-španski, Beograd.
Milić 2016: M. Milić, Principi sastavljanja dvojezičnih terminoloških rečnika: Englesko-srpski rečnik sportskih termina, Leksikologija i leksikografija u svetlu savremenih pristupa, Beograd, DAIS/ISJ SANU, 273–286.
Pearson 1998: J. Pearson, Terms in Context, Amsterdam: John Benjamins BV.
Pejović 2021: A. Pejović, Logros lexicográficos del hispanismo serbio y el croata, Revista de Lexicografía, 26: 113–130.
Pejović, Andrijević 2011: A. Pejović, M. Andrijević, Španski roman u korpusnoj ling- vistici, Kragujevac: Nasleđe, 8, (18) Kragujevac, 385–403.
Rodrigues 2013: R. Rodrigues, Corpus – driven Methodology for Exploring Cultural References in the Areas of Cooking, Football and Hotel Industry, Procedia- Social and Behavioral Sciences, 95: 336–343.
Sandrelli 2012: A. Sandrelli, Interpreting football press conferences: The FOOTIE corpus, Trieste: Universita degli studi di Trieste.
Silaški 2009: N. Silaški, Sportski diskurs u svetlu kognitivne lingvistike – konceptu- alizacija pobede i poraza u naslovima, Kragujevac, Nasleđe, 6, (14–1): 107–21.
Sinclair 1991: J. Sinclair, Corpus, concordance, collocation, Oxford: Oxford University Press.
Sinclair 2005: J. Sinclair: Corpus and Text: Basic Principles, in: Developing Linguistic Corpora: A Guide to Good Practice, Wynne, M. (Ed.): 1–16.
Stanković et al. 2020: R. Stanković et al. Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian, in: N. Calzolari et al. ed Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, 3947–3955.
Stanković et al.2021: R. Stanković et al., SrpMD4Tagging – Serbian Morphological Dictionaries for Tagging. Version 1.0.0., C. Krstev [Dataset (Lexical Resource)]. https://doi.org/10.57771/qx05-e470.
Stanković, Škorić 2021: R. Stanković, M. Škorić, SrpKor4Tagging-TreeTagger. Version 1.0.0, https://doi.org/10.57771/bvkk-jv85.
Stojković, Maravić 2016: M. Stojković, D. Maravić, Englesko-srpski jezik fudbala,
Beograd: Fudbalski savez Beograd.
Taborek 2012: J. Taborek, The language of sport: Some remarks on the language of foot- ball, in: H. Lankiewicz & E. Wąsikiewicz-Firlej (Eds.), Informed teaching – premises of modern foreign language pedagogy, 237–253. Piła: Państwowa Wyższa Szkoła Zawodowa im. Stanisława Staszica.
Utvić (2013): M. Utvić, Izgradnja referentnog korpusa savremenog srpskog jezika, Beograd: Filološki fakultet Beograd.
Vitas et al. 2021: D. Vitas et al., SrpKor4Tagging. Version 1.0.0. (automatically assigned), D. Vitas [Dataset (Text corpus)]. https://doi.org/10.57771/ w16g-6n57.
Vitas, Krstev 2012:D. Vitas, C. Krstev, Processing of Corpora of Serbian Using Electronic Dictionaries. in: Prace Filologiczne, Warszawa, LXIII: 279–292.

Post Views: 122