ТЕКСТОМЕТРИЈА У КОРПУСНОЈ ЛИНВИСТИЦИ: СРПСКИ ФУДБАЛСКИ КОРПУС

Наслеђе 59 (2024) [111-124]

АУТОР(И) / AUTHOR(S): Јелена В. Лазаревић

Download Full Pdf   

DOI: 10.46793/NasKg2459.111L

САЖЕТАК /ABSTRACT:

Корпус срФудКо је први фудбалски корпус на српском језику чији је жанр новински. Представља партицију корпуса ФудКо који се састоји из две целине: корпуса шпанског есФудКо и корпуса текстова на српском срФудКо, сачињених и обрађених једин- ственом методологијом текстометрије корпусне лингвистике. Циљ рада је приказивање формирања корпуса срФудКо, испити- вање специфичности језика фудбала који се користи у новинар- ским чланцима путем статистичких и текстометријских анализа кроз увид у коришћење алата за ове анализе. Корпус текстова о фудбалу на српском језику срФудКо прикупљен је са пет српских веб-портала: „Б92”, „Блиц”, „Мондо”, „Политика” и „Спортклуб”. Припремљен је као колекција XML датотека, организованих по годинама и по порталима са којих  су чланци преузети, тако  да  је 11.117 чланака распоређено у 37 датотека. Доменски корпус је обрађен поступцима токенизације, тагирања врстом речи и лема- тизацијом. Корпус срФудКо садржи 10.100.553 токена,  од  чега су 8.618.426 речи а 1.482.127 интерпункцијски знаци. Просечна дужина чланака је 1068 речи. Дистрибуција фреквенција поје- диних врста речи срФудКо сведочи да у корпусу фудбала има знатно више властитих имена и бројева него у корпусу стан- дардног српског језика. Специфичности срФудКо  су: емотикони и различите врсте симбола који припадају категорији дужине корпусне речи 1, речи дужине 5 као најфреквентније у корпусу, висок индекс специфичности употребе врста речи на различитим порталима, особеност конкорданци и колокација.

КЉУЧНЕ РЕЧИ / KEYWORDS: 

корпусна лингвистика, текстометрија, језик фудбала, српски фудбалски корпус срФудКо

ЛИТЕРАТУРА/ REFERENCES:

  • Braun et al. 2021: N. Braun, Memofc: introducing the multilingual emotional football corpus, Language resources and evaluation, 55 (2), 389–430.
  • Cameron 2013: D. Cameron, The one, the many, and the Other: Representing multi-and mono- lingualism in post-9/11 verbal hygiene, Critical Multilingualism Studies, 1 (2), 59–77.
  • De Marneffe et al. 2021: M-C. De Marneffe, Universal Dependencies, Computational Linguistics, 47(2), 255–308.
  • Heiden 2010: S. Heiden, The TXM platform: Building open-source textual analysis software compatible with the TEI encoding scheme, in: 24th Pacific Asia conference on language, information and computation, Institute for Digital Enhancement of Cognitive Development, Waseda University 2, (3): 389–398. Hunston 2002: S. Hunston, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. http://dx.doi.- org/10.1017/CBO9781139524773, 2.
  • Jaćimović 2019: J. Jaćimović, Textometric methods and the TXM platform for corpus analysis and visual presentation, Infoteka, 19 (1), Beograd, 30–54.
  • Jurafsky, Martin 2008: D. Jurafsky, J. H. Martin, Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition, New Jersey: Pearson/Prentice Hall.
  • Krstev 2008: C. Krstev, Processing of Serbian: Automata, Texts and Electronic Dictionaries, Belgrade: Faculty of Philology of the University of Belgrade.
  • Marković, Radoman 2010: M. Marković, M. Radoman, Dvojezični englesko-srpski rečnik sportskih termina, Crnogorska sportska akademija, Sport Mont, (VIII) 23-24, 70–74.
  • Meier-Vieracker 2021: S. Meier-Vieracker, The evolution of football live text commen- taries: A corpus linguistic case study on genre change, AILA Review 34, (2): 274–299.
  • Mihajlović 2003: A. Mihajlović, Fudbalski rečnik/Footbal Dictionary/Dictionnaire du football/ Diccionario del fútbol: srpsko-englesko-francusko-španski, Beograd.
  • Milić 2016: M. Milić, Principi sastavljanja dvojezičnih terminoloških rečnika: Englesko-srpski rečnik sportskih termina, Leksikologija i leksikografija u svetlu savremenih pristupa, Beograd, DAIS/ISJ SANU, 273–286.
  • Pearson 1998: J. Pearson, Terms in Context, Amsterdam: John Benjamins BV.
  • Pejović 2021: A. Pejović, Logros lexicográficos del hispanismo serbio y el croata, Revista de Lexicografía, 26: 113–130.
  • Pejović, Andrijević 2011: A. Pejović, M. Andrijević, Španski roman u korpusnoj ling- vistici, Kragujevac: Nasleđe, 8, (18) Kragujevac, 385–403.
  • Rodrigues 2013: R. Rodrigues, Corpus – driven Methodology for Exploring Cultural References in the Areas of Cooking, Football and Hotel Industry, Procedia- Social and Behavioral Sciences, 95: 336–343.
  • Sandrelli 2012: A. Sandrelli, Interpreting football press conferences: The FOOTIE corpus, Trieste: Universita degli studi di Trieste.
  • Silaški 2009: N. Silaški, Sportski diskurs u svetlu kognitivne lingvistike – konceptu- alizacija pobede i poraza u naslovima, Kragujevac, Nasleđe, 6, (14–1): 107–21.
  • Sinclair 1991: J. Sinclair, Corpus, concordance, collocation, Oxford: Oxford University Press.
  • Sinclair 2005: J. Sinclair: Corpus and Text: Basic Principles, in: Developing Linguistic Corpora: A Guide to Good Practice, Wynne, M. (Ed.): 1–16.
  • Stanković et al. 2020: R. Stanković et al. Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian, in: N. Calzolari et al. ed Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, 3947–3955.
  • Stanković et al.2021: R. Stanković et al., SrpMD4Tagging – Serbian Morphological Dictionaries for Tagging. Version 1.0.0., C. Krstev [Dataset (Lexical Resource)]. https://doi.org/10.57771/qx05-e470.
  • Stanković, Škorić 2021: R. Stanković, M. Škorić, SrpKor4Tagging-TreeTagger. Version 1.0.0, https://doi.org/10.57771/bvkk-jv85.
  • Stojković, Maravić 2016: M. Stojković, D. Maravić, Englesko-srpski jezik fudbala,
  • Beograd: Fudbalski savez Beograd.
  • Taborek 2012: J. Taborek, The language of sport: Some remarks on the language of foot- ball, in: H. Lankiewicz & E. Wąsikiewicz-Firlej (Eds.), Informed teaching – premises of modern foreign language pedagogy, 237–253. Piła: Państwowa Wyższa Szkoła Zawodowa im. Stanisława Staszica.
  • Utvić (2013): M. Utvić, Izgradnja referentnog korpusa savremenog srpskog jezika, Beograd: Filološki fakultet Beograd.
  • Vitas et al. 2021: D. Vitas et al., SrpKor4Tagging. Version 1.0.0. (automatically assigned), D. Vitas [Dataset (Text corpus)]. https://doi.org/10.57771/ w16g-6n57.
  • Vitas, Krstev 2012:D. Vitas, C. Krstev, Processing of Corpora of Serbian Using Electronic Dictionaries. in: Prace Filologiczne, Warszawa, LXIII: 279–292.