МНОГОФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ТЮРКСКОЙ МОРФЕМЫ

Сулейманов Джавдет Шевкетович*

Гатиатуллин Айрат Рафизович**

Альменова Акмарал Байжановна***

Баширов Артур Маратович****

Практически в течение последних 20-25 лет по нарастающей осуществляются разносторонние исследования области компьютерной обработки тюркских языков, а также разрабатываются системы и технологии с целью активного использования тюркских языков в киберпространстве как языков накопления, обработки и передачи информации (например, [Сулейманов 1993: 85-86; Сулейманов 1994: 77-106; Oflazer 1994; Сулейманов 1996: 388-395; Atalay 2003; Adongbieke 2004; Bilkiz 2004; Шарипбаев 2005; Orhun 2010; Sharipbayev 2011: 463; Ilgen 2013]). Наибольшее количество работ посвящено разработкам в области автоматизации морфологического анализа, морфологического аннотирования текстов (например, [Дыбо 2014; Сиразитдинов; Шарипбаев 2012: 397-400; Sharipbay 2014: 113-117; Orhun  2010; Желтов 2002]), что вполне ожидаемо и естественно для тюркских язы-ков и объясняется их структурными особенностями и важным значением морфологии практически во всех аспектах обработ-ки татарских текстов, будь то снятие многозначности, определе-ние тональности текста или машинный перевод и поиск инфор-мации в электронном пространстве. Наиболее активно в данной области работают турецкие, уйгурские, казахские, татарские ученые, что отражается также и в количестве публикаций и программных разработок (например, [Aisha 2009:69-83; Alten-bek 2006: 557-560; Çetin 2013; Akba 2014: 180-184; Kaya 2012: 174–180; Ehsani 2012; Durgar El-Kahlout 2008; Yıldırım 2013]).

Вместе с тем, следует обратить внимание на следующие две тенденции, которые необходимо преодолеть исследователям тюркских языков в области компьютерной лингвистики.

Первое, это отсутствие реальной интеграции исследований, согласованности в разработках. Это особенно важно в области терминотворчества и формирования новых понятий, связанных новыми компьютерными технологиями. Учитывая тот факт, что практически каждый тюркский язык просто заимствует с переводом или без перевода уже готовый термин с английского языка, специалистам предоставлен исторический шанс создать общетюркский словарь компьютерных терминов, что послужит сближению родственных языков, или хотя бы не будет способствовать их отдалению друг от друга.

Второе, это практически дублирование лингвистических моделей и программных модулей их обработки, в основе своей на 70-80 и более процентов являющихся общими для всех тюркских языков, как при разработке структуры и функционала электронных корпусов языков, грамматических анализаторов, так и машин поиска и машинных переводчиков. Очевидно, преодоление такого дублирования, объединение усилий на совместных разработках и даже обмен программными модулями позволят сэкономить финансы, направить усилия специалистов на нерешенные проблемы и достичь общего прорыва в области создания технологий для обработки тюркских языков, и даже создавать новые технологии обработки информации на основе лексико-грамматических особенностей тюркских языков [Suleymanov 2010: 210-213].
Сегодня де-факто определились основные точки теоретической и практической активности в пространстве тюркских языков и настало время для объединения усилий специалистов, а также формирования общих принципов и подходов в области компьютерной обработки тюркских языков.
перспективе это послужит повышению эффективности сравнительно-сопоставительных исследований, а также успешному продвижению по пути создания многоязычных систем обработки текстов и решения других фундаментальных и прикладных задач.

Известно, в настоящее время в мире проводится множество научных конференций, семинаров, секций, научных школ разного уровня, где представляются результаты исследований специалистов в области компьютерной обработки тюркских языков. Чаще всего их целью является публикация трудов, обмен опытом и результатами, научное общение, установление контактов.

Международная конференция по компьютерной обработке тюркских языков TurkLang, учрежденная и проведенная в Астане в 2013 году [Труды 2013: ] (далее в Стамбуле — в 2014 [Proceedings 2014: 135] и в Казани — в 2015 [Proceedings 2015: 488]), изначально ориентирована стать одним из действенных механизмов, способствующих интеграции усилий специалистов по выработке стандартов представления языковой информации и организации информационных и технологических ресурсов тюркских языков в единое пространство.

Следующим этапом интеграции усилий является создание портала TurkLang с единой информационно-ресурсной базой по компьютерной обработке тюркских языков. Портал, по мнению организаторов и участников конференции, должен включать единую многоязычную систему машинного перевода для тюркских языков, а также единую систему многоязычного информационного поиска в сети Интернет на тюркских языках. Для разработки этих программных продуктов необходим целый ряд лингвистических ресурсов, моделей и словарей. В качестве одного из таких важных ресурсов предлагается и описывается в данной статье многофункциональная модель тюркской морфемы.

Многофункциональная модель тюркской морфемы представляет собой информационно-программную оболочку, технологический инструментарий, для заполнения базы данных, а также использования ее в качестве ресурсной базы для ряда практических приложений. Одно из применений

– в качестве ресурсной базы для программных продуктов, осуществляющих компьютерную обработку тюркских языков. Следующее применение – в качестве информационно-справочной системы, содержащей практически полную информацию о тюркских языковых единицах – морфемах. Еще один аспект использования модели – это в качестве инструментария для исследований ученых-тюркологов, в частности, для сравнительного анализа тюркских языковых единиц. Концептуальным ядром многофункциональной прагматически-ориентированной лингвистической модели, служащим для сравнительного анализа, является реляционно-ситуационная модель, которая предназначена для описания контекстно-семантических характеристик морфем.

Использование в качестве подобной ресурсной базы именно модели морфем обусловлено исключительной значимостью морфологического языкового уровня при обработке естественно-языковых текстов. Особенно это актуально для языков агглютинативного типа с богатой морфологией, к которым относятся все языки тюркского семейства.

Авторами данной статьи разработана компьютерная структурно-функциональная модель татарских аффиксальных морфем, описанная в работе [Сулейманов 2003: 220]. Опыт соз-дания и использования структурно-функциональной модели для татарских аффиксальных морфем показал, что ценность и эффективность использования модели существенно возрастет при ее многоязычном использовании для нескольких тюркских языков, а также расширении модели для описания корневых морфем.
Описание модели
Многофункциональная модель тюркских морфем
представляет собой прагматически-ориентированное структурно-функциональное описание элементов морфологии [Сулейманов 2003: 220; Сулейманов 2013: 220-223] и позволяет осуществить полную «инвентаризацию» тюркских морфем с описанием характеристик и ситуаций их проявления на всех языковых уровнях (фонологическом, морфологическом, синтаксическом, семантическом). Важными свойствами при построении компьютерной многофункциональной модели являются концептуальные (полнота и точность описания характеристик), технологические (открытость, наличие средств для доступа и применения) и прагматические (многофункциональность, удобство обработки, дружественный интерфейс) аспекты разработки и эксплуатации.

Многофункциональная модель является открытой, что позволяет вносить в нее даже единичные, незначительные на первый взгляд, проявления характеристики морфем, при необходимости модифицируя и саму структуру модели без изменения кода.

Архитектура многофункциональной модели тюркской морфемы представляет собой иерархическую модель, состоящую из множества подмоделей. Модель морфемы каждого из тюркских языков является составной частью общей модели. .

Модель морфемы каждого из тюркских языков включает модели корневых морфем и аффиксальных морфем. Связь между моделями морфем для отдельных языков осуществляется с помощью реляционно-ситуационной модели [Сулейманов 2013: 329-332], которая используется для описания семантического аспекта моделей отдельных тюркских языков, включенных в единую модель.

Каждая из подмоделей, представленных на рис.1 состоит из следующих аспектов:
Идентификационный аспект.
Морфонологический аспект.
Морфологический аспект.
Синтаксический аспект.
Семантический аспект.

Рассмотрим содержание одного из аспектов идентификационного аспекта модели:
Идентификационный аспект
Обозначение морфемы
Цифровой идентификатор
Идентификатор для разметки корпуса
Название морфологической категории

Типологическое
Название на русском языке
Название на национальном языке

1.1. Обозначение морфемы Пример: -[н]ДАн.

данном обозначении аффиксальной морфемы (татарская падежная морфема: исходный падеж) символ дефис ‘-’ показывает связность данной морфемы слева, т.е. в словоформе с данным аффиксальной морфемой слева от данной морфемы обязательно должна следовать другая морфема.

квадратные скобки заключаются символы, встречающиеся не во всех алломорфах данной морфемы (т.е. контекстное проявление).

Прописными символами обозначаются символы, которые могут меняться в разных алломорфах (глубинные, лексические символы).

Строчными символами обозначаются символы, которые не меняются во всех алломорфах морфемы (поверхностные символы).

1.2. Цифровой идентификатор
Цифровой идентификатор имеет следующий вид: 01.1.01.

данном обозначении первые две цифры обозначают номер языка, третья цифра (между точками) показывает тип морфемы (корневая (1) или аффиксальная (2), а последующие цифры обозначают порядковый номер самой морфемы.

1.3. Идентификатор для разметки корпуса Идентификатор для разметки корпуса представляет собой сокращенное название морфологической категории, с помощью которого морфема представляется в электронном корпусе, т.е. это общепринятое обозначение (тэг), используемое при аннотировании текстов в электронном корпусе языка.
Например: DIR, ABL.

Если морфема используется для выражения нескольких морфологических категорий, то выбирается одна из этих категорий, наиболее частотная или более важная, по усмотрению эксперта.

1.4. Название морфологической категории – содержит названия морфологической категории, употребляемые на разных языках или в разных коллективах специалистов (позиция установления соответствия между категориями)
Например:
1. Типологическое: Directive
2. Русское: Направительный падеж

Национальное:

Название Язык

Юнәлеш килеш Татарский

Yönelme hali Турецкий

Барыс септiк Казахский

Барыш жөндөмө Киргизский

Жуналиш келишик Узбекский

Догърултув келиши Крымскотатарский

Программное обеспечение для работы с моделью Программное обеспечение для работы с многофункциональной моделью тюркской морфемы находится на стадии разработки и реализуется в виде веб-ресурса.

Программное обеспечение реализуется таким образом, чтобы оно было доступно в нескольких режимах:
режим просмотра (для рядовых пользователей);
режим редактирования содержания (для лингвистов-экспер-
тов); режим редактирования структуры модели.

Для работы в режимах редактирования пользователь проходит регистрацию, после чего предоставляется доступ для редактирования базы данных для одного из тюркских языков. На рис. 2 представлена страница пользовательского интерфейса для редактирования идентификационного аспекта.

Реализация программного обеспечения в виде Web-интерфейса позволяет производить заполнение базы данных модели специалистами, работающими с разными тюркскими языками.

Модель является открытой и ее можно перманентно дополнять модифицировать. Программа для работы с моделью реализуется как многоязычная, поэтому работать с моделью и задавать запросы к базе данных можно как по отдельно взятому языку, так и по свойствам морфем для всех тюркских языков.

Заключение
В статье дается концептуальное описание многофункциональной лингвистической модели тюркских морфем как информационно-программной оболочки, предназначенной для использования ее в качестве ресурсной базы для программных продуктов, осуществляющих компьютерную обработку тюркских языков, в качестве информационно-справочной системы, содержащей практически полную информацию о тюркских морфемах, а также в качестве инструментария для исследований ученых-тюркологов. Весьма конструктивным и продуктивным представляется использование данной многофункциональной и многоязычной модели тюркских морфем в качестве одного из центральных, ядерных, модулей в едином веб-портале для тюркских языков. Создание веб-портала ТуркЛанг провозглашен участниками Международной конференции TurkLang-2015 как общий проект, обеспечивающий формирование и использование единого пространства лингвистических ресурсов по тюркским языкам. Авторы статьи выражают также надежду, что данный проект послужит интеграции усилий ученых-тюркологов для расширения базы данных описаниями различных тюркских языков, что обеспечит эффективное использование многофункциональной модели в качестве технологического инструментария и межязыкового модуля в системах компьютерной обработки тюркских языков.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *