TEKSTOMETRIJA U KORPUSNOJ LINVISTICI: SRPSKI FUDBALSKI KORPUS

Nasleđe 59 (2024) [111-124]

AUTOR(I) / AUTHOR(S): Jelena V. Lazarević

Download FullPdf   

DOI: 10.46793/NasKg2459.111L

SAŽETAK /ABSTRACT:

Korpus srFudKo je prvi fudbalski korpus na srpskom jeziku čiji je žanr novinski. Predstavlja particiju korpusa FudKo koji se sastoji iz dve celine: korpusa španskog esFudKo i korpusa tekstova na srpskom srFudKo, sačinjenih i obrađenih jedin- stvenom metodologijom tekstometrije korpusne lingvistike. Cilj rada je prikazivanje formiranja korpusa srFudKo, ispiti- vanje specifičnosti jezika fudbala koji se koristi u novinar- skim člancima putem statističkih i tekstometrijskih analiza kroz uvid u korišćenje alata za ove analize. Korpus tekstova o fudbalu na srpskom jeziku srFudKo prikupljen je sa pet srpskih veb-portala: „B92”, „Blic”, „Mondo”, „Politika” i „Sportklub”. Pripremljen je kao kolekcija XML datoteka, organizovanih po godinama i po portalima sa kojih  su članci preuzeti, tako  da  je 11.117 članaka raspoređeno u 37 datoteka. Domenski korpus je obrađen postupcima tokenizacije, tagiranja vrstom reči i lema- tizacijom. Korpus srFudKo sadrži 10.100.553 tokena,  od  čega su 8.618.426 reči a 1.482.127 interpunkcijski znaci. Prosečna dužina članaka je 1068 reči. Distribucija frekvencija poje- dinih vrsta reči srFudKo svedoči da u korpusu fudbala ima znatno više vlastitih imena i brojeva nego u korpusu stan- dardnog srpskog jezika. Specifičnosti srFudKo  su: emotikoni i različite vrste simbola koji pripadaju kategoriji dužine korpusne reči 1, reči dužine 5 kao najfrekventnije u korpusu, visok indeks specifičnosti upotrebe vrsta reči na različitim portalima, osobenost konkordanci i kolokacija.

KLJUČNE REČI / KEYWORDS: 

korpusna lingvistika, tekstometrija, jezik fudbala, srpski fudbalski korpus srFudKo

LITERATURA/ REFERENCES:

  • Braun et al. 2021: N. Braun, Memofc: introducing the multilingual emotional football corpus, Language resources and evaluation, 55 (2), 389–430.
  • Cameron 2013: D. Cameron, The one, the many, and the Other: Representing multi-and mono- lingualism in post-9/11 verbal hygiene, Critical Multilingualism Studies, 1 (2), 59–77.
  • De Marneffe et al. 2021: M-C. De Marneffe, Universal Dependencies, Computational Linguistics, 47(2), 255–308.
  • Heiden 2010: S. Heiden, The TXM platform: Building open-source textual analysis software compatible with the TEI encoding scheme, in: 24th Pacific Asia conference on language, information and computation, Institute for Digital Enhancement of Cognitive Development, Waseda University 2, (3): 389–398. Hunston 2002: S. Hunston, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. http://dx.doi.- org/10.1017/CBO9781139524773, 2.
  • Jaćimović 2019: J. Jaćimović, Textometric methods and the TXM platform for corpus analysis and visual presentation, Infoteka, 19 (1), Beograd, 30–54.
  • Jurafsky, Martin 2008: D. Jurafsky, J. H. Martin, Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition, New Jersey: Pearson/Prentice Hall.
  • Krstev 2008: C. Krstev, Processing of Serbian: Automata, Texts and Electronic Dictionaries, Belgrade: Faculty of Philology of the University of Belgrade.
  • Marković, Radoman 2010: M. Marković, M. Radoman, Dvojezični englesko-srpski rečnik sportskih termina, Crnogorska sportska akademija, Sport Mont, (VIII) 23-24, 70–74.
  • Meier-Vieracker 2021: S. Meier-Vieracker, The evolution of football live text commen- taries: A corpus linguistic case study on genre change, AILA Review 34, (2): 274–299.
  • Mihajlović 2003: A. Mihajlović, Fudbalski rečnik/Footbal Dictionary/Dictionnaire du football/ Diccionario del fútbol: srpsko-englesko-francusko-španski, Beograd.
  • Milić 2016: M. Milić, Principi sastavljanja dvojezičnih terminoloških rečnika: Englesko-srpski rečnik sportskih termina, Leksikologija i leksikografija u svetlu savremenih pristupa, Beograd, DAIS/ISJ SANU, 273–286.
  • Pearson 1998: J. Pearson, Terms in Context, Amsterdam: John Benjamins BV.
  • Pejović 2021: A. Pejović, Logros lexicográficos del hispanismo serbio y el croata, Revista de Lexicografía, 26: 113–130.
  • Pejović, Andrijević 2011: A. Pejović, M. Andrijević, Španski roman u korpusnoj ling- vistici, Kragujevac: Nasleđe, 8, (18) Kragujevac, 385–403.
  • Rodrigues 2013: R. Rodrigues, Corpus – driven Methodology for Exploring Cultural References in the Areas of Cooking, Football and Hotel Industry, Procedia- Social and Behavioral Sciences, 95: 336–343.
  • Sandrelli 2012: A. Sandrelli, Interpreting football press conferences: The FOOTIE corpus, Trieste: Universita degli studi di Trieste.
  • Silaški 2009: N. Silaški, Sportski diskurs u svetlu kognitivne lingvistike – konceptu- alizacija pobede i poraza u naslovima, Kragujevac, Nasleđe, 6, (14–1): 107–21.
  • Sinclair 1991: J. Sinclair, Corpus, concordance, collocation, Oxford: Oxford University Press.
  • Sinclair 2005: J. Sinclair: Corpus and Text: Basic Principles, in: Developing Linguistic Corpora: A Guide to Good Practice, Wynne, M. (Ed.): 1–16.
  • Stanković et al. 2020: R. Stanković et al. Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian, in: N. Calzolari et al. ed Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, 3947–3955.
  • Stanković et al.2021: R. Stanković et al., SrpMD4Tagging – Serbian Morphological Dictionaries for Tagging. Version 1.0.0., C. Krstev [Dataset (Lexical Resource)]. https://doi.org/10.57771/qx05-e470.
  • Stanković, Škorić 2021: R. Stanković, M. Škorić, SrpKor4Tagging-TreeTagger. Version 1.0.0, https://doi.org/10.57771/bvkk-jv85.
  • Stojković, Maravić 2016: M. Stojković, D. Maravić, Englesko-srpski jezik fudbala,
  • Beograd: Fudbalski savez Beograd.
  • Taborek 2012: J. Taborek, The language of sport: Some remarks on the language of foot- ball, in: H. Lankiewicz & E. Wąsikiewicz-Firlej (Eds.), Informed teaching – premises of modern foreign language pedagogy, 237–253. Piła: Państwowa Wyższa Szkoła Zawodowa im. Stanisława Staszica.
  • Utvić (2013): M. Utvić, Izgradnja referentnog korpusa savremenog srpskog jezika, Beograd: Filološki fakultet Beograd.
  • Vitas et al. 2021: D. Vitas et al., SrpKor4Tagging. Version 1.0.0. (automatically assigned), D. Vitas [Dataset (Text corpus)]. https://doi.org/10.57771/ w16g-6n57.
  • Vitas, Krstev 2012:D. Vitas, C. Krstev, Processing of Corpora of Serbian Using Electronic Dictionaries. in: Prace Filologiczne, Warszawa, LXIII: 279–292.