Бесплатно

Информационные технологии и лингвистика XXI века

Текст
iOSAndroidWindows Phone
Куда отправить ссылку на приложение?
Не закрывайте это окно, пока не введёте код в мобильном устройстве
ПовторитьСсылка отправлена
Отметить прочитанной
Шрифт:Меньше АаБольше Аа

В начале 90-х годов IBM выпустила систему статистического машинного перевода (SMT-statistical machine translation). Данная система обнаруживала ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Базовыми характеристиками данной системы являлись большой объем памяти и высокая производительность компьютеров, большой объем качественных пар слов для перевода (обучающие данные).

Основным вопросом, вставшим перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов, оказалась проблема получения достаточно большого набора реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику. Во многих случаях у исследователей недостает данных для анализа лингвистических феноменов в результате разбросанного характера данных. Например, когда они пытаются определить вероятность для каждой из пар последовательно идущих терминов, они не могут найти лингвистических данных с какими-то из анализируемых пар, хотя сочетания подобного рода являются правильными с точки зрения языка. Один из подходов состоит в улучшении точности приближения путем статистической обработки небольших рабочих образцов.

В реальности, исследователям приходится работать с низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той же предметной области. Как минимум для решения проблемы требуются словари для базовых лексиконов и быстрые компьютеры с большим объемом памяти. При этом парадигмы машинного обучения выглядят на сегодняшний день мало подходящими для целей автоматической обработки текстов.

На сегодняшний день максимальную долю российского рынка систем машинного перевода составляют продукты компаний PROMT и ABBYY (Lingvo). В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATN – Augmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100 %-ное качество перевода при работе с повторяющимися текстами.

Программы, разработанные на основе технологии машинного перевода осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией машинного перевода можно быстро получить черновой вариант перевода, отражающий общий смысл текста.

Во второй лекции нашей работы, посвященной описанию разнообразных программ компьютерного перевода, технология Translation Memory была подробно описана. Повторимся, что память переводов (ТМ) использует базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Память переводов работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.

Современная компьютерная лингвистика является междисциплинарной наукой. Человека окружает очень большое количество цифровой информации; существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и т. д. И очень важно уметь обращаться с этой информацией эффективно – главное не только быстрота обработки информации, но и легкость, с которой пользователь способен извлекать необходимые ему данные и создавать из них цельную картину.

Компьютерная лингвистика как особая прикладная дисциплина выделяется, прежде всего, по инструменту – т. е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.

Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».

Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.

Одна из ключевых задач современной компьютерной лингвистики – это совершенствование структуры семантических сетей, когда поиск происходит не просто по совпадению слов, а по смыслу. Ведь все сайты, так или иначе, размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго[19].

С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Например, существуют механизмы генерации текстов на темы, на которые человеку писать довольно-таки скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказ подобных текстов стоит немалых денежных затрат, но написаны компьютерные тексты на данные темы связным человеческим языком.

В современной России одним из наиболее успешных проектов, реализованных в области компьютерной лингвистике, является Национальный корпус русского языка (http://ruscorpora.ru/). Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. В современном англоязычном мире большим достижением компьютерной лингвистики является концептуальная сеть Ргатепе![20], где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» – кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса.

 

В качестве послесловия необходимо отметить, что пока не известно, какие возможности даст человечеству надвигающаяся новая компьютерная революция. Однако можно надеяться, что компьютерная лингвистика перейдет на совершенно новую технологическую базу, основа которой закладывается в наше время, в эпоху научных разработок в области искусственного интеллекта.

Вопросы для самоконтроля

1. Каковы основные задачи, решаемые современной компьютерной лингвистикой?

2. Что такое искусственный интеллект?

3. Перечислить основные этапы становления и развития компьютерной лингвистики.

4. Каково приоритетное направление развития современной компьютерной лингвистике?

5. Что такое Национальный корпус русского языка и Framenet?

Задания для самостоятельного исследования

Подготовить доклад по одной из ниже перечисленных тем.

1. Компьютерная лингвистика как междисциплинарное научное направление.

2. Когнитивный инструментарий компьютерной лингвистики. «Фреймы», «сценарии» и «планы».

3. Компьютерное обеспечение представления знаний.

4. Естественные и искусственные языки. Виды искусственных языков.

5. Автоматизированный анализ: распознавание и синтез устной и письменной речи.

6. Морфологический анализ, проблемы семантического анализа, синтаксический анализ.

7. Лингвистические базы данных: модели и типы данных. Создания общих искусственных языков для представления информации.

8. Компьютерная лексикография как одно из направлений прикладной лингвистики. Словарные процессоры.

9. Основные понятия структуры словаря: словник, словарная статья, грамматические, стилистические пометы; иллюстративный материал.

10. Типология электронных словарей.

11. Тезаурусы и терминологические словари.

12. Компьютерные технологии составления и эксплуатации словарей.

13. Электронные учебники, словари, учебно-методические материалы.

14. Мультимедиа в помощь филологу.

15. Использование инновационных технологий при организации научных исследований.

Рекомендованная литература

1. Кравченко, А.В. От языкового мифа к биологической реальности: переосмысляя познавательные установки языкознания/ А.В. Кравченко. – Москва: Языки славянских культур (ЯСК): Рукописные памятники Древней Руси, 2013. – 387 с.

2. Болховитянов, А.В. Алгоритмы морфологического анализа компьютерной лингвистики: учеб, пособие для студентов вузов, обучающихся по направлению 035000.62 – Издательское дело / А.В. Болховитянов, А.М. Чеповский; М-во образования и науки Российской Федерации, Федеральное гос. бюджетное образовательное учреждение высш. проф. образования Московский гос. ун-т печати им. Ивана Федорова. – Москва: МГУП, 2013.– 198 с.

3. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учебное пособие для студентов высших учебных заведений, обучающихся по направлению 231300 – »Прикладная математика»/ [Большакова Е. И. и др.]; М-во образования и науки Российской Федерации, Московский гос. ин-т электроники и математики Москва: Московский гос. ин-т электроники и математики, 2011. – 272 с.

4. Зубов А.Б. Информационные технологии в лингвистике/ А.Б. Зубов, И.И. Зубова. М.: «Академия», – 2004. – 208 с.

5. Кузнецов АЛ. Образовательные электронные издания и ресурсы: методическое пособие / С.Г. Григорье, В.В. Гриншкун. – М.: Дрофа, 2009. – 156 с.

6. Потапова Р.К. Речь: коммуникация, информация, кибернетика: Учеб, пособие для студентов вузов, обучающихся по специальностям «Авто-матизир. системы обраб. информ. и упр.», «Лингвистика» / Р.К. Потапова. – 3. изд., стер. – М.: УРСС, 2003. – 564 с.

7. Соснина Е.П. Введение в прикладную лингвистику/Е.П. Соснина. – Ульяновск, 2010. [Электронный ресурс]. – URL:http://www.twirpx.com/file/736011/ – электронный учебник.

19Речь идет о существовании тысячи текстов, которые необходимо сгруппировать, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации.
  См. ссылку – https://framenet.icsi.berkeley.edu/fndmpal/home.
Купите 3 книги одновременно и выберите четвёртую в подарок!

Чтобы воспользоваться акцией, добавьте нужные книги в корзину. Сделать это можно на странице каждой книги, либо в общем списке:

  1. Нажмите на многоточие
    рядом с книгой
  2. Выберите пункт
    «Добавить в корзину»