Галиева Альфия Макаримовна*
Аюпов Мадехур Масхутович**
Настоящее время для значительной части тюркских языков еще не создано современных лексикографических ресурсов, отвечающих нуждам, как традиционной лексикографии, так и компьютерной обработки текстов. Одна из важнейших задач представляемого в данной статье проекта – отображение лингвоспецифичности семантической системы татарских глаголов в лексикографическом ресурсе, отвечающем нуждам современной компьютерной лингвистики. Основной результат работы над проектом – разработка прототипа wordnet-тезауруса татарских глаголов (http://sintaxem.antat.ru).
Проект нацелен на классификацию лексем татарского язы-ка по ряду семантических и грамматических признаков с уче-том парадигматических и, отчасти, синтагматических отноше-ний в системе языка и создание иерархической семантической модели глагольной лексики татарского языка на основе технологии wordnet.
Wordnet – это электронный тезаурус, представляющий собой иерархическую семантическую сеть концептов в виде синсетов [Miller 1995: 8]. Основным отношением в wordnet яв-ляется отношение синонимии; наборы синонимов – синсеты – являются основными структурными элементами тезауруса.
Глаголы образуют ядро лексико-семантической и грамма-тической системы языка и характеризуются концептуальным богатством, сложностью семантической структуры и синтаг-матики. Семантика глагола не только номинативна, но и реля-ционна, что требует оптимальной интеграции разных иссле-довательских приемов при описании глагольной семантики с учетом как сигнификативных, так и синтагматических компо-нентов значения.
Методология
тезаурусах типа wordnet важным критерием синонимичности лексем является их взаимозаменяемость в пределах кон-текста [Vossen 2002: 10] Разработчики wordnet-тезауруса для русского языка RussNet критерий взаимозаменяемости рассма-тривают как дополнительный по отношению к критерию семан-тической близости. Последний выявляется при дефиниционном анализе, для которого требуется установление идентичности словарных определений или взаимная отсылка в синонимиче-ских определениях [Азарова 2003: 1]. Мы также критерий се-мантической близости синонимов рассматриваем как основной.
Для моделирования глагольной системы татарского языка был использован подход, основанный на базовых принципах разработки тезаурусов типа wordnet. Создание тезауруса типа wordnet требует точного описания лексико-семантических от-ношений между единицами в системе языка и представления классов лексических единиц и отношений между этими классами в формализованном языке, поиск таких способов формального описания слов, которые могут быть применены к описанию значительного количества татарских глаголов. Технология wordnet основывается на выделении типов синсетов (совокуп-ностей синонимов, выражающих концепты) и определении ха-рактера отношений между синсетами, которые для глагольных лексем имеют свою специфику (в отличие от существительных и прилагательных).
Первоначально по лексикографическим источникам (тол-ковые словари татарского языка и двуязычные татарско-русские словари) был произведен отбор глагольной лексики в качестве эмпирической базы для разрабатываемого ресурса (свыше 5000 синтетических и аналитических глаголов). Далее была проведе-на семантическая классификация этих глаголов для получения наполнения основных лексико-семантических групп татарских глаголов, каждому глаголу в рабочем порядке был приписан семантический тэг.
В ходе работы над проектом был произведен анализ принципов организации информационно-поисковых тезаурусов,также анализ современных российских и международных стандартов в области разработки и использования тезаурусов. Проанализированы основные подходы к созданию wordnet-те-заурусов, имеющиеся в современной научной литературе, в частности, «модель расширения» (Expand Model) и «модель объединения» (Merge Model). Сделан вывод о том, что в силу специфики лексико-семантической системы татарского языка «модель расширения» (перевод синсетов принстонского WordNet’а) является малоподходящей. Наиболее продуктивным является подход, когда отбор лексических единиц и установле-ние семантических отношений между словами производится на базе татарского языка, затем полученные синсеты должны быть выравнены по базовым концептам принстонского и дру-гих wordnet’ов. Такой подход позволяет отразить своеобразие глагольной лексики татарского языка с сохранением лингвос-пецифичных концептов разных уровней.
Особенности представления татарских глаголов Несмотря на то, что в татарской лексикографии традиционно глаголы представляются в форме имени действия (например, [Татар теленең аңлатмалы сүзлеге 2005: 3]) или инфинитива (например, [Татарско-русский словарь 2004: 5]), в разрабатываемом проекте в качестве основной формы представления глагольной единицы выбрана форма императива 2-го лица единственного числа, такой выбор мотивирован тем, что татарский императив представляет собой лексическую основу глагола, не осложненную никакими дополнительными аффиксами (в том числе аффиксом инфинитива и имени действия), например: бар «иди» – императив 2 лица единственного числа, бары-рга – инфинитив, бару – имя действия; кара «смотри» — императив 2 лица единственного числа, карарга – инфинитив, карау – имя действия.
Мы считаем, что такой способ представления основной формы глагола является наиболее экономичным и отражает структурные особенности татарской грамматики; он наиболее удобен с точки зрения перспектив использования ресурса в си-стемах обработки текста и машинного перевода, так как лем-матизация глагола в имеющихся лингвистических приложениях привязана к императиву.
Комплексный характер представления лингвистической информации в wordnet’ах потребовал привлечения различных источников.
Для уточнения значения и определения семного состава глаголов привлекался главным образом Толковый словарь та-тарского языка [Татар теленең аңлатмалы сүзлеге 2005: 3] и данные Татарского национального корпуса «Туган тел» (http:// corpus.antat.ru). Татарский корпус содержит массив данных о реальном функционировании слов в языке, но лексико-семан-тическая информация в корпусах представлена в имплицитной форме.
В ходе работы над проектом решался широкий круг задач с использованием корпусных данных:
– корректировка толкований лексем (в рабочем порядке) в случаях, когда дефиниции, данные в толковых словарях, явля-ются недостаточно полными для построения синсетов и уста-новления иерархии лексем;
– составление новых глагольных синсетов, обогащение синсетов, представленных в словаре синонимов татарского язы-ка;
– построение иерархической сети татарских глаголов, кон-струирование невербализованных концептов высших уровней;
– включение в синсеты аналитических форм и отображение каузативных пар.
В разрабатываемый тезаурус были включены только те единицы, которые представлены в Татарском национальном корпусе (по крайней мере, в нескольких различных контекстах).
При моделировании системы татарских глаголов и выстраивании сети синсетов лексикографический материал при необходимости нами дополняется и уточняется на корпусных данных. Словари включают ограниченный лексический мате-риал, их составители работают в рамках определенных тео-ретических установок, которые мы не всегда разделяем; соот-ветственно, при моделировании системы татарских глаголов и выстраивании сети синсетов лексикографический материал при необходимости нами проверяется и уточняется на корпусных данных.
В ходе реализации проекта разработана лингвистическая база, описывающая отношения между элементами лексической системы и определены таксономические категории татарского глагола:
– через общность значения;
– через сочетаемостные свойства глагола.
Впервые системно и на большом материале (3229 синтетических глаголов снабжены семантическими тэгами) рассмотрен характер взаимоотношений между глаголами татарского языка
выделением основных семантических классов глаголов (в настоящее время используются 62 тематических тэга), с формированием синсетов и отображением семантических отношений между полученными синсетами.
Полученные синсеты включают как синтетические, так и аналитические глаголы разных типов [Galieva 2015: 7]:
– аналитические глаголы, образованные от полнозначного знаменательного слова и вспомогательного глагола: ярдәм итү (помогать), ярдәм кылу (помогать);
– аналитические глаголы, образованные от звукоподража-тельного или образоподражательного слова: шыбыр-шабыр итү (шуршать, барабанить – о дожде или падающей сверху воде), җем-җем итү (мерцать, блестеть);
– аналитические глаголы, образованные от полнозначно-го знаменательного слова и полнозначного глагола в функции вспомогательного: ашыйсы килү (проголодаться).
Разные лексико-семантические варианты многозначного глагола входят в разные синсеты:
– {быкырдау, быгырдау, гөбердәү} – «бурлить, клокотать»
(о жидкости);
– {быкырдау, быгырдау, гөбердәү, чурлау} – «урчать» (о
желудке).
Текущая версия базы данных содержит свыше 5000 татарских синтетических и аналитических глаголов.
ходе работы над проектом было произведено исследование глаголов отдельных лексико-семантических групп (ЛСГ) с выделением базовых глаголов (исследованы виды парадигма-тических группировок, особенности внутренней организации ЛСГ, характер иерархичности сем внутри ЛСГ).
тезаурусе должны отображаться следующие семанти-ческие отношения между глаголами одной ЛСГ (показаны на примере семантических отношений между глаголами физиоло-гического действия и состояния).
1. Отношение следования:
йоклау (спать) – гырлау, гырылдау, хырлау (храпеть).
2. Отношение тропонимии: авырту (болеть, испытывать боль)
сызлау (испытывать сильную боль) – тропоним первого уровня
әрнү (испытывать сильную острую боль) – тропоним вто-рого уровня
3. Отношение каузативности:
{акаю, чекерәю, челәю, тарсаю} (выпучиваться, таращить-ся, выкатываться – о глазах) – {акайту, чекерәйтү, челәйтү, тарсайту} (выпучивать, таращить, выкатывать – о глазах). Каузативные корреляты имеют (или могут иметь) почти все
глаголы татарского языка. В настоящее время в тезаурус включены только те каузативы, которые были обнаружены в словарях. В дальнейшем количество каузативов будет увеличено.
4. Отношение антонимии: ябыгу (худеть) – {тазару, тазарыну} (поправляться, пол-неть).
исследованиях по разработке wordnet-ресурсов антонимия обычно не рассматривается в качестве типовых семантических отношений между глаголами (см., например, [Лукашевич 2011: 2]); но мы считаем, что глаголы многих лексических клас-сов, в частности, глаголы движения, качественного состояния, посессивные глаголы, имеют антонимические корреляты, и антонимические глагольные пары отличаются высокой часто-той употребления в речи. Поэтому мы считаем, что отражение антонимических отношений глаголов в тезаурусе типа wordnet целесообразно как с точки зрения построения ресурса, так и его использования в будущем в образовательных и исследовательских целях.
Характер иерархии и количество тропонимов у одного ги-перонима в разных ЛСГ существенно отличается. Так, в ЛСГ глаголов звучания практически все некаузативные глаголы (синсеты) являются тропонимами по отношению к одному и тому же невербализованному в татарском языке концепту со значением ‘звучать, издавать звук’. Аналогично основная масса глаголов становления качества являются гипонимами по отно-шению к невербализованному концепту со значением ‘начать обладать признаком х’. Соответственно, ЛСГ глаголов звучания глаголов становления качества в целом семантически однородны.
то же время ЛСГ глаголов интеллектуальной деятельно-сти, посессивных глаголов, глаголов физиологической деятель-ности представляют собой очень неоднородные группировки со сложной структурой.
Выявлено, что одной из характерных особенностей гла-гольной лексики татарского языка является наличие богатого инвентаря концептов нижних уровней. Например, для глаголов звучания характерно наличие большого количества слов, опи-сывающих отдельные особенности звуков, издаваемых нежи-выми предметами. Имеются глаголы, обозначающие специфику питания отдельных животных (утлау – «есть, щипать траву – о травоядных животных», күшәү «жевать жвачку – о жвачных животных» и т. п.). Сопоставление с русскими глаголами сви-детельствует о том, что многие глаголы нижних уровней с кон-кретной и богатой семантикой не имеют прямых эквивалентов в русском языке.
При этом значительное количество концептов верхних уровней, вербализованные в русском языке, в татарском явля-ются невербализованными и конструируются искусственно при создании иерархии синсетов (имеются лакуны для обозначения гиперонимов), так, отсутствуют татарские глаголы со значени-ем «иметь», «звучать», «воспринимать», «создавать» и некото-рые другие.
Моделирование лексико-семантической системы татарских глаголов реализовано в виде Web-приложения и размещена на сайте http://sintaxem.antat.ru/. Для реализации системы исполь-зовалась система управления БД Postgresql 9.1.
Заключение.
Проект по разработке wordnet-тезауруса татарских глаго-лов позволяет объединить опыт традиционной татарской лек-сикографии и современных информационных технологий. При-менение корпусных технологий дает возможность создавать ресурс, адекватно отражающий распределение слов татарского языка и их лексико-семантических вариантов в реальном кон-текстуальном окружении. Одна из важнейших задач проекта – отображение лингвоспецифичности семантической системы татарских глаголов в ресурсе, отвечающем нуждам современ-ной компьютерной лингвистики. Актуальность и новизна про-екта обусловлены необходимостью комплексного описания лексико-семантических структур татарского языка в целом и глагольной лексики в частности, определения количества и ка-чественных характеристик лексико-семантических категорий и параметров структурно выраженной системности.
Проект предполагает рассмотрение семантической орга-низации глагольной лексики татарского языка по разным осям структурной организации (парадигматики и синтагматики). Выделение у глаголов разных семантических классов сем, ре-левантных для семантической и синтаксической организации предложения, открывает перспективы расширения представлений о структуре лексического значения глагола. Научная значимость проекта определяется тем, что лексическая система татарского языка как сложная иерархическая сеть единиц разных уровней и типов не была объектом целостного описания, свидетельством чего, в частности, является отсутствие идеографи-ческих словарей татарского языка. В рамках проекта впервые осуществляется создание комплексной семантической класси-фикации татарских глаголов, изучение семантико-структурной организации глагольной лексики путем моделирования семантической системы глаголов с помощью технологии Wordnet как совокупности синсетов, выявление лингвостатистических зако-номерностей распределения глаголов внутри различных лексико-семантических группировок.
Проект по разработке wordnet-тезауруса татарских глаголов позволяет объединить опыт традиционной татарской лексикографии и современных информационных технологий. Одна из важнейших задач проекта – отображение лингвоспецифич-ности семантической системы татарских глаголов в ресурсе, отвечающем нуждам современной компьютерной лингвистики.
будущем данный тезаурус может быть использован для решения комплекса прикладных задач компьютерной линг-вистики, информационного поиска, машинного перевода. Wordnet-тезаурус татарских глаголов также может быть использован при снятии многозначности в Татарском национальном корпусе, что на сегодняшний день является актуальной задачей.
Полученные в ходе реализации проекта результаты и сама классификация представляет также значительный интерес с точки зрения интенсивно развивающейся в настоящее время лексической типологии, давая обширный материал для исследования устройства семантических полей, моделей полисемии.