Аннотация аналитических структур в языковых корпусах

Авторы

  • Г.Б. Мадиева Казахский национальный университет им. аль-Фараби, Алматы, 050040, Республика Казахстан https://orcid.org/0000-0002-6679-6174
  • Л.Т. Алимтаева Казахский национальный университет им. аль-Фараби, Алматы, 050040, Республика Казахстан https://orcid.org/0000-0003-3198-0024
  • Ж.Б. Саткенова Казахский национальный университет им. аль-Фараби, Алматы, 050040, Республика Казахстан https://orcid.org/0000-0001-7842-0978
  • K.К. Пирманова Казахский национальный университет им. аль-Фараби, Алматы, 050040, Республика Казахстан https://orcid.org/0000-0003-3783-3199

DOI:

https://doi.org/10.59102/kufil/2024/iss3pp291-304

Аннотация

Наряду с целью дифференциации морфологических и словообразовательных разметок аналитических структур в корпусах казахского языка, был выполнен обзор разметок аналитических структур в языковых корпусах других тюркских языков. Было проведено сравнение с корпусом русского языка, который находится  в ряду  сбалансированных, объемных корпусов. В качестве объекта исследования проанализированы материалы существующих корпусов современного казахского языка.

Установлено, что с точки зрения словообразования не существует особой проблемы с аннотированием сложных и парных слов, которые определяются машиной как одна сложная единица, т.е. могут быть объектом подобного поиска и представлять в соответствии с морфологической, словообразовательной, лексической разметками единую сложную единицу. Было обнаружено, что нет возможности искать составные единицы словосочетания, записываемые с пустыми интервалами, как одну лемму, наряду с этим их морфологические, словообразовательные, лексические разметки аннотируются индивидуально, а не как единое целое.  Известно, что эта проблема снижает функциональность корпусов.  Однако аннотирование фразеологизмов как одной целостной единицы признается преимуществом этого корпуса. Несомненно, что аннотирование имен (степеней), глагольных аналитических форм и формантов, вспомогательных слов также максимально улучшает функции корпуса. Современный словарный фонд национальных корпусов казахского языка и масштабные, фундаментальные, ориентированные на будущее исследования ученых, позволяют сделать вывод о том, что аннотирование аналитических структур с течением времени постепенно автоматизируется.

 

 

Ключевые слова:

корпус казахского языка, номинативно-глагольные конструкции, аналитическая форма, морфологическая разметка, словообразовательная разметка

Биография автора

Л.Т. Алимтаева, Казахский национальный университет им. аль-Фараби, Алматы, 050040, Республика Казахстан

Алимтаева Л.Т. – к.ф.н., старший преп., КазНУ имени аль-Фараби, Алматы, 050000, Рспублика Казахстан. Е-mail: lazalim_72@mail.ru, https://orcid.org/0000-0003-3198-0024.

Библиографические ссылки

Zhubanov, A.K. and Zhanabekova, A.A. (2016), Korpustyq lingvistika, [Corpus Linguistics], [in Kazakh].

Beauzée, N. (1765), Encyclopédie, ou Dictionnaire raisonné des sciences, des arts et des métiers par une Société des gens de lettres. T.9, Сhez Samuel Faulche et Compagnie, Libraires et Imprimeurs, Paris.

Rivarol, A. de. (1784), Discours de l'Universalité de la langue Française, Pierre Belfond, Paris.

Smith, A. The Theory of Moral Sentiments or an Essay Towards an Analysis of the Principles by Which Men Naturally Judge Concerning the Conduct and Character, First of Their Neighbours, and Afterwards of Themselves, to Which is Added, a Dissertation on the Origin of Languages, (1774), London.

Ventsov, A.V. and Grudeva E.V. Analytical forms in Corpus of Standard Written Russian, [Electronic resource], [in Russian], available at: https://events.spbu.ru/eventsContent/files/corpling (corpora 2006),

National corpus of the Kazakh language, [Electronic resource], [in Kazakh], available at: https://qazcorpus.kz/about/1/.

Subcorpora of National corpus of the Kazakh language, [Electronic resource], [in Kazakh], available at: https://qazcorpora.kz/search].

National Corpus Tatar Language "Tugan Tel", [Electronic resource], [in Tatar], available at: https://tugantel.tatar.

Almaty Corpus of the Kazakh Language, [Electronic resource], [in Kazakh], available at: http://web-corpora.net /].

Bashkir poetic corpus, [Electronic resource], [in Bashkir], available at: http://web- corpora.net/bashcorpus].

Corpus of Standard Written Russian, [Electronic resource], [in Russian], available at: https://narusco.ru/search.

Altayeva, A. (2006), Komekshі etіstіkterdіn' semantikasy, [Semantics of auxiliary verbs], Almaty, [in Kazakh].

Zhubanov K. (2010), Qazaq tіlі zho'nіndegі zertteuler, [Research on the Kazakh language], [in Kazakh].

Kulmanov S. Zhanabekova A., Ashіmbayeva N., Bisengali A., Shulenbayev N. and Kordabai B. Problems of morphological markup of words in corpus texts, and their inclusion in a computer program, Bulletin of the Gumilyov National University, Philology series, vol. 140, n. 3, P. 103-117, [in Kazakh].

Oralbai N. (2007), Qazіrgі qazaq tіlіnіn' morfologiyasy, [Morphology of the modern Kazakh language.], Almaty, 390 p. [in Kazakh].

Zhubanov A.K. (2015), “National corpus of the Kazakh language and the problem of metamarking”, Journal "Tiltanym" of A. Baitursynov Institute of Linguistics, vol. 57, n. 1, P 23-33[in Kazakh].

Momynova B., Imangazina M., and Anesova U. (2022), Lexical-semantic development of verbs in the national corpus of the Kazakh language: world experience, classification, marking in the corpus” The Kazakh Ablai Khan University of International Relations and World Languages, Philology series, vol. 66, n. 3, P.128-146.

Загрузки


Просмотров аннотации: 33 | Загрузок PDF: 38

Опубликован

27.09.2024

Как цитировать

Мадиева, Г., Алимтаева, Л., Саткенова, Ж., & Пирманова K. (2024). Аннотация аналитических структур в языковых корпусах. Bulletin of Shokan Ualikhanov Kokshetau University Philological Series, (3), 291–304. https://doi.org/10.59102/kufil/2024/iss3pp291-304