Г.Б. МАДИЕВА1, С.Б. БЕКТЕМИРОВА2, М.Қ. МӘМБЕТОВА3, Г.Н. ИСКАКОВА4
филол.ғ.д., әл-Фараби атындағы ҚазҰУ профессоры1, филол.ғ.д., әл-Фараби атындағы ҚазҰУ доценті2, филол.ғ.д., әл-Фараби атындағы ҚазҰУ доценті3,
білім магистрі, әл-Фараби атындағы ҚазҰУ аға оқытушы4
АЛМАТИНСКИЙ КОРПУС КАЗАХСКОГО ЯЗЫКА: ПЕРСПЕКТИВЫ И РЕЗУЛЬТАТЫ
Формирование Корпуса – актуальная задача многих современных мировых сообществ, поскольку госу- дарственному статусу языка могут соответствовать не только кодифицированные языки, но и все его реализации во всех стилях и жанрах. Создание корпуса – длительный, трудоемкий процесс, который созда- ется усилиями многих центров и институтов при поддержке государственных программ и информационных ресурсов. В статье рассматриваются основные особенности и проблемы создания Корпуса казахского языка и опыт создателей НККЯ.
Ключевые слова: Национальный корпус, казахский язык, информационные технологии, проект.
С приданием казахскому языку статуса государственного языка его роль значительно усилилась, что проявляется в расширении всех его функций и использовании во всех сферах общения. Ста- тусному положению казахского языка, законодательным мерам проводимой языковой политики должно быть соответственное лингвистическое наполнение, одним из приоритетов которого явля- ется проблема корпусного планирования – попытки стандартизировать и систематизировать язык на основе информационных технологий. В рамках Государственной программы функционирования и развития языков (2011-2020) появилась острая необходимость создания Национального корпуса казахского языка.
Формирование Корпуса – актуальная задача многих современных мировых сообществ, посколь- ку государственному статусу языка могут соответствовать не только кодифицированные языки, но и все его реализации во всех стилях и жанрах. Как отмечает один из создателей Национального корпуса русского языка В. Плунгян, корпус языка – это эффективный и полезный инструмент, осо- бенно в том случае, когда корпус является большим по объему и полным по охвату материала, т.е. представляет собой Национальный корпус языка ˂…˃. Корпус языка – это, в первом приближении, собрание текстов на данном языке, представленное в электронной форме и снабженное научным аппаратом. Аппарат, «встроенный» в корпус, называется «разметкой», или«аннотацией»; корпус тем лучше, чем полнее и совершеннее его аннотация» [1]. Как показывает международный опыт, создание корпуса – длительный, трудоемкий процесс, который требует усилий многих центров и институтов при поддержке государственных программ и информационных ресурсов.
Большинство крупных языков мира имеет свои национальные корпуса, различающиеся по пол- ноте и уровню научной обработки текстов. Общепризнанным образцом является Британский наци- ональный корпус (BNC), на который ориентированы многие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус [2]. Первый большой компьютер- ный корпус – Брауновский корпус (США, 500 фрагментов текстов, 1 млн. слов). По модели Брау- новского корпуса создан частотный словарь русского языка Л.Н. Засориной (1970), построенный на основе корпуса текстов в 1 млн. слов, а также русский корпус, созданный в Университете Уппсалы (Швеция).
Развитие информационных технологий и компьютерных мощностей, способных работать с большими объемами текстов, позволили в 80-е годы ХХ в. предпринять попытки создать корпуса большего размера: Банк Английского, Британский Национальный Корпус, Машинный фонд рус- ского языка и др. [3]. Формирование фонда текстов в электронном формате значительно облегчило задачу создания представительных корпусов объемом в десятки и сотни миллионов слов. Однако проблемы по созданию корпусов остаются актуальными, т.к. необходимо решить такие задачи, как: инвентаризация большого количества текстов, снятие проблем с авторскими правами, приведение текстов в единый формат, классификация корпуса по темам, стилям, жанрам, снятие омонимии. Представительные корпуса существуют (или разрабатываются) для многих языков мира: финского, польского, лезгинского, турецкого, словенского, немецкого, армянского, японского, болгарского и др. [2]. Например, Национальный корпус русского языка содержит более 300 млн. словоупотребле- ний.
В Казахстане существуют попытки создания Национального корпуса [4], однако его наполне- ние до сих пор не достигло ожидаемого, даже минимального, результата. На настоящий момент в рамках научно-исследовательского проекта учеными Казахского национального университета им. аль-Фараби разработана пилотная версия корпуса казахского языка в 1,5 млн. словоупотреблений, который был назван как Алматинский корпус казахского языка (АККЯ). Эта версия Корпуса созда- ется совместными усилиями с учеными Научно-исследовательского университета Высшая школа экономики. Для корпуса была адаптирована поисковая система Восточноармянского националь- ного корпуса. Однако размер в полтора млн. словоупотреблений достаточен только для лексико- графического описания самых частотных слов [3]. В связи с этим необходимо совершенствование Корпуса, увеличение объема текстов различного жанра и стилей, улучшение его поисковой систе- мы, качественной разработки разметок, метаразметок, снятие омонимии, расширение контекста и мн.др. Корпус должен быть сбалансированным и представительным по объему (сотни миллионов словоупотреблений), оснащенным всеми возможными видами полной и удобной разметки.
Создание корпуса позволит решить многие проблемы с использованием информационных тех- нологий: изучать историю казахского языка, обучать и обучаться казахскому языку на базе вир- туального Корпуса, осуществлять статистический мониторинг функционирования лексических, грамматических и стилистических языковых средств, работать по лексикографической поддержке современного казахского языка, его стандартизации, кодификации, создавать словари, учебники, справочные пособия, проводить статистический анализ различных языковых единиц. АККЯ (Ал- матинский корпус казахского языка) способен служить современным источником кодификации и стандартизации казахского языка, поскольку в корпусе оказывается зафиксированным письменный язык в его максимально репрезентативном виде. В перспективе намечается фиксировать и звуча- щую речь.
Казахский язык, его особенность и уникальность, история и современность, будущее, вероят- ность кардинальных изменений – все это является важным и актуальным не только для языковедов, но и для специалистов многих отраслей: культуры, экономики, истории, политики и т.д., в том числе языковой. Подобные масштабные вопросы с недавнего времени обсуждаются и решаются с помо- щью такого механизма как корпус языка.
Создание национальных корпусов государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. Понятие корпус многими отождествляется с понятием «набора текстов или языковых единиц», что не дает необхо- димой теоретико-методологической базы для того, чтобы рассматривать корпус не только как фено- мен, обладающий определенным набором характерологических свойств и признаков, свойственных разным типам, стилям любого языка, но и как феномен идиоэтнического порядка, определяемый особенностями национальной ментальности. Эта проблема с помощью Корпуса была решена для многих хорошо изученных языков мира (английского языка, американского варианта английского языка, немецкого, русского, французского, польского и др.). Формирование Национального корпуса казахского языка – одна из важнейших задач суверенного Казахстана. В обозримом будущем это задача будет решена в полном объеме в ходе выполнения настоящего проекта.
В Республике Казахстан впервые планируется создание НККЯ (Национальный корпус казахско- го языка) столь масштабного по объему текстов и тематике подкорпусов, который будет востребо- ван не только отечественными потребителями, но и зарубежными с целью исследования казахского языка, его изучению и обучению.
Национальный корпус языка – неоценимый инновационный инструмент, сокращающий затра- ты времени на техническую работу по изучению языковых явлений и за считанные минуты даю- щий возможность найти справочную информацию. НККЯ – это не просто техническая поддержка лингвистических исследований. Это справочно-информационная база по современному казахскому языку, позволяющая получать ответы на многие вопросы, которые возникают перед любым по- требителем, изучающим казахский язык, а также ставить новые проблемы, которые не входили в круг проблем лингвистики прошлых лет, революционизировать работу с языковым материалом. Так, создатели корпуса русского языка отмечают, что с его помощью появилась возможность «по- иска по грамматическим критериям автоматически получить примеры, из которых уже вручную можно выбрать наиболее подходящие для наших целей… Корпус дает возможность отсортировать источник примеров». Еще одно преимущество Корпуса – скорость подбора примеров и источников [5]. Кроме того, «действительно, пока основная масса пользователей Корпуса – ученые-исследо-
ватели; огромный резерв здесь составляют преподаватели и учащиеся самых разных уровней – от школ до университетов, подготовительных курсов, курсов усовершенствования или второго высше- го образования…, где Корпус фактически служит активным инструментом обучения грамматике, стилистике, культуре речи и всему комплексу дисциплин, связанных с русским языком ˂… ˃» [6].
В рамках казахского языкознания и прикладной лингвистики исследование и разработка НККЯ представляет особый интерес, что определяется недостаточной разработанностью проблематики в данной области. Так, считая исследование корпуса казахского языка логическим продолжением традиции его изучения, тем не менее, можно апеллировать только к констатации Корпуса казахско- го языка, к достаточно ограниченному числу работ, посвященных описанию данного феномена, но не его наличию в полном объеме. Несмотря на достижения в этой области (попытка составления корпуса с необходимыми разметками, наличие множества научных исследований в виде моногра- фий, диссертаций, учебников казахского языка), границы исследований не выходят за рамки тради- ционного языкознания, что ограничивает усилия по разработке корпуса или сводит их к механисти- ческому выявлению отличий казахского языка. Нужен современный исследовательский механизм и практический инструмент, которым будет Корпус казахского языка. Помимо этого, обучение языку при помощи компьютерных технологий отходит от традиционных способов подачи материала и фокусируют внимание на тех видах деятельности, которые стимулируют новые подходы, например, аутентичные тексты, к которым можно получить доступ в языковом корпусе. Эти факты свидетель- ствуют об объективной реальности и актуальности проблемы создания Национального корпуса ка- захского языка. В Республике Казахстан к настоящему времени корпусная лингвистика как научное и как прикладное направления не получила до сих пор своего должного развития. Соответственно остроактуальным вопросом остается создание НККЯ.
Обозначенные выше научные лакуны, связанные с разработкой Национального корпуса казах- ского языка, определяют актуальность предпринятого научного и прикладного исследования и мо- гут быть решены участниками рабочей группы предполагаемого Проекта с привлечением специ- алистов, работающих над Национальным корпусом русского языка.
В результате реализации проекта в казахстанской лингвистике впервые будет проведено плано- мерное исследование зарубежного опыта по корпусной лингвистике, сформируется отечественное направление по корпусной лингвистике, будет создана мощная текстовая база для наполнения кон- тента Корпуса казахского языка, употребляемого в различных видах дискурса с использованием ме- тодов и основных принципов корпусной лингвистики. В рамках проекта предполагается обобщить практический и теоретический опыт использования различных Корпусов мира в преподавании язы- ков в Казахстане; изучить казахский язык функционально: в науке, технике, экономике, культуре и т.п. в синхронном срезе на широком фоне социальной, культурной, политической жизни.
Настоящий проект актуален в рамках поиска путей совершенствования форм и методов образо- вания студентов, школьников и других слоев населения на основе компьютерной компетентности и проблемно-ориентированного обучения, реализует принципы национальной политики в сфере развития государственного языка и сохранения его богатства; ориентирован на обновление содер- жания образовательного процесса на основе инновационно-информационных технологий, созда- ние креативных платформ, в которые может быть инсталлирована и на которых могут быть про- демонстрированы достоинства НККЯ как объемного открытого информационно-образовательного портала.
Реализация проекта активизирует новые формы использования компьютерных технологий, фор- мирование у пользователей (специалистов, студентов, магистрантов, докторантов, школьников, учи- телей, т.п.) новых форм диалога «пользователь-компьютер» для различных видов работ с казахским языком; главное условие эффективности – скорость поиска, устранение механистической работы с различными текстами, поиском форм слов, подбора необходимого слова в различных реализациях и контекстах, что позволит решить ряд вопросов и достичь существенного эффекта экономии в ис- следовании, изучении казахского языка, а также коллекционировать его разнообразие и богатство.
Для того чтобы разработать платформу Корпуса и составить репрезентативную текстовую базу для его наполнения в ходе выполнения проекта будет использоваться совокупность лингвистиче- ских методов, апробированная специалистами разработки Национального корпуса русского языка [www.ruscorpora.ru/]:
• выборка и систематизация текстов, инвентаризация текстов по хронологическим, жанровым и стилевым критериям;
• графематический анализ, позволяющий выделить синтаксические и структурные единицы входного текста (абзацы, предложения, словосочетания, отдельные слова, знаки препинания);
• морфологический анализ, предполагающий определить структуру слова, основное слово и его словоформу, отнесение к той или иной части речи для дальнейшей процедуры снятия омонимии;
• синтаксический анализ, позволяющий определить функцию слова в составе предложения, его сочетаемость с другими словами, порядок слов в предложении;
• семантический анализ, необходимый для анализа текста по смыслу, уточнения связи слов, ис- ключающий бессмысленный набор слов.
В современных условиях в данной отрасли значительную помощь оказывает привлечение мето- дов разработки современных корпусов:
• морфологическая разметка: полная морфологическая характеристика каждой словоформы с возможностью определения спорных случаев, имеющих неоднозначное понимание;
• синтаксическая разметка: выделение различных типов синтаксических единиц (предложение, словосочетание);
• семантическая разметка: информация о семантических категориях казахского языка;
• метаразметка (метаинформация о типе текста и его выходных данных).
Кроме того, будут использованы методы обработки естественного языка (natural language processing (NLP): лексикографическая обработка, токенизация, лемматизация, морфологический анализ) и другие с целью разработки автоматизированного извлечения информации; текстовые по- иски в крупномасштабных корпусах (конкордансы).
Корпусные методы широко зарекомендовали себя в мировой практике составления корпуса язы- ка, лингвистических исследованиях и преподавании иностранных языков как эффективные иннова- ционные дополнения к традиционным образовательным технологиям [www.ruscorpora.ru/].
Предлагаемый проект по созданию НККЯ, базируемый на пилотной версии корпуса казахского языка, должен найти широкое применение как у специалистов – преподавателей казахского как род- ного и иностранного, так и у всех заинтересованных граждан Республики Казахстан и за рубежом.
Благодаря созданию Национального корпуса казахского языка как информационно-справочной базы появятся следующие уникальные возможности:
1) обеспечение создания учебников и учебных пособий по казахскому языку текстовым матери- алом; обеспечение в электронном виде разносторонним языковым материалом процесс обучения казахскому языку;
2) многократное упрощение и ускорение процедур лингвистической обработки массивов текстов на основе современных компьютерных технологий;
3) развитие современных знаний о казахском языке: возможность статистической обработки тек- стов с целью научного описания строя казахского языка на основе инновационных технологий; формирование базы знаний использования национального корпуса казахского языка;
4) становление теоретико-методологического подхода к организации переводческого процесса в стране на основе НККЯ;
5) применимость полученных научных результатов: Корпус предоставит широкие возможности для создания различного типа и жанра авторитетных академических и переводных словарей на основе НККЯ, он-лайновых отраслевых, одно-, и двуязычных толковых, терминологических, фра- зеологических и иных словарей; быстро и эффективно проверять особенности употребления незна- комого слова или грамматической формы у авторитетных авторов и для использования корпусных данных при многих более специальных научных исследованиях.
Предлагаемый проект по созданию Национального корпуса казахского языка, базируемый на пилотной версии корпуса казахского языка, уже дает свои первые результаты.
Работа над проектом Корпуса началась при поддержке ректора КазНУ им. аль-Фараби Г. М. Му- танова. Корпус создаётся силами кафедры общего языкознания и европейских языков факультета филологии и мировых языков Казахского национального университета им. аль-Фараби под руко- водством заведующей кафедрой Г. Б. Мадиевой при участии сотрудников факультета филологии НИУ ВШЭ (Москва).
Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC) http://web-corpora.net/KazakhCorpus/search/?interface_language=ru. На этом сайте размеще- на пилотная версия Алматинского корпуса казахского языка, находящегося на начальном этапе раз- работки. В настоящий момент размер корпуса составляет около 1,5 миллиона словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, 80%
словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т. е. каждой словоформе приписаны все возможные варианты разбора без учёта контекста.
Это первая версия корпуса Национального корпуса казахского языка – НККЯ как справочно- информационной системы на основе обширного фонда размеченных текстов литературного казах- ского языка, государственного языка Республики Казахстан. Безусловно, корпус будет дополняться, обновляться как количественно, так и качественно, кроме того будет существенно улучшаться по- исковая функциональность корпуса.
В перспективе основные характеристики НККЯ следующие:
• лингвистически репрезентативный корпус;
• мощный поисковый аппарат для осуществления сложных лексико-морфологических запросов;
• удобный инструмент для самостоятельного изучения казахского языка, дающий для большин- ства словоформ лексико-морфологические разборы и русские/английские переводные эквиваленты;
• диахронически ориентированный корпус, покрывающий различные периоды истории совре- менного казахского языка;
• диверсифицированный корпус, включающий разножанровые письменные и устные тексты раз- ных типов;
• аннотированный корпус, снабженный грамматической и библиографической разметой;
• корпус, находящийся в открытом доступе.
• электронная библиотека, включающая более 100 классических произведений казахской лите- ратуры.
REFERENCES
1 Plungiyan V.A. Zachem mi delaem Nasionalniy korpus russkogo iyazika? // Otechestvennie zapysky. 2005. № 2, 296–308.// http://www.strana-oz.ru/2005/2/
2 Nasionalniy korpus russkogo iyazika http://www.ruscorpora.ru/corpora-intro.html 3 https://ru.wikipedia.org/wiki
4 http://til.gov.kz/wps/portal
5 Dobrushina N.R. Kak yspolzobat Nasionalniy korpus russkogo iyazika v obrazobanyy? // Nasionalniy korpus russkogo iyazika: 2003–2005. М.: Yndryk, 2005, 308–329.
6 Rahylyna Е.B. КKorpus kak tvorcheskyy proekt// Nasionalniy korpus russkogo iyazika: 2006–2008. Novie rezultati y perspektyvi. SPb.: Nestor-Ystorya, 2009, 7–26.
Корпусты жасау көптеген қазіргі әлемдік қоғамдардың өзекті мәселесі болып отыр, өйткені тілдің мемлекеттік мәртебесіне тек кодификацияланған тілдер ғана емес, сонымен қатар оның барлық стилі мен жанрындағы қолданыстары да лайықты. Корпусты жасау ұзақ та көп еңбекті қажет ететін үдеріс, оған көптеген орталықтар мен институттар мемлекеттік бағдарамалар мен ақпараттық қорлардың қолдауымен қол жеткізеді. Мақалада қазақ тілінің Корпусын жасаудың негізгі ерекшеліктері мен мәселелері қарастырылады және ҚТҰК жасаушылардың тәжірибесі сөз болады.
Түйін сөздер: Ұлттық корпус, қазақ тілі, ақпараттық технологиялар, жоба.
Corpus Forming is a topical task of many communities in the modern world as the state language status may correspond not only to codified languages, but all of its implementation in all styles and genres. Creating a corpus is a long, laborious process that created with the efforts of many centers and institutes with the support of state programs and information resources. In the article the main peculiarities and problems met in the process of creating the Corpus of the Kazakh language are highlighted and the experience of KNC formers is shared.
Keywords: National corpus, the Kazakh language, information technologies, project.