ГЛАВНАЯ ОБЩЕСТВО ЭКОНОМИКА ПОЛИТИКА СПОРТ ПРОИСШЕСТВИЯ БАШКОРТОСТАН СТЕРЛИТАМАК ГОРОСКОП ТУРИЗМ
Стерлеград.ру » Новости Башкортостана » В БашГУ создана программа, умеющая определять форму башкирского слова

В БашГУ создана программа, умеющая определять форму башкирского слова

25 сентября 2012  
В лаборатории компьютерной филологии БашГУ создана программа, умеющая определять форму башкирского слова. Bashmorph написан на языке Perl и может определять, что за слово перед ним и в форме какого лица, числа, падежа, наклонения и т.д. оно стоит. Об этом сообщает пресс-служба БашГУ.

Такие программы (на профессиональном языке они называются «парсерами») – основа компьютерного понимания текста на данном языке. Они открывают много научных и коммерческих перспектив для работы с большими массивами башкирских текстов.

«Дело в том, что в живых текстах на данном языке одни и те же слова выглядят по-разному, – говорит создатель программы сотрудник лаборатории компьютерной филологии, кандидат филологических наук Борис Орехов. – Например, слово «йондоҙ» («звезда») может встретиться и в этой форме, и в форме множественного числа: «йондоҙҙар». Для человека это не проблема, он увидит, что в обоих случаях это одно и то же слово, но компьютеру это объяснить довольно трудно. Чтобы машина «знала», что такое форма множественного числа и умела понимать, как могут выглядеть одни и те же слова в разных формах, и нужна наша программа».

Теперь, когда у башкирского языка есть своя «машинная морфология», можно создавать частотные словари, заниматься исследованием лексической и грамматической структуры башкирских текстов как художественных, так и нехудожественных, ставить промышленные задачи информационного поиска. «Для поиска такие разработки очень важны. Например, вы хотели бы найти в каком-то большом тексте или множестве текстов слово «окно». С помощью компьютера это сделать просто, но чтобы результат поиска был лучше и полнее, необходимо, чтобы нашлись и формы «окнами», «окном», «окнах». Без парсера такая задача неосуществима», – говорит Борис Орехов. Создание машинной морфологии башкирского языка также открывает дорогу созданию автоматического переводчика с башкирского на русский и английский языки и в обратном направлении.

Историческим башкирским текстом, который был первым проанализирован созданной программой, стало стихотворение Мустая Карима «Тулҡындар».

На работу парсера в реальном времени можно посмотреть на специальной странице на сайте лаборатории. Введя в строку башкирскую форму (например, «урамдар» («улицы»), «йондоҙҙарым» («мои звёзды»)), пользователь может получить её полный разбор, а в некоторых случаях даже перевод (встроенный в парсер словарь находится в стадии наполнения). Программа находится в режиме бета-тестирования. Это значит, что широкий круг интересующихся сможет оценить её функциональность и сообщить об ошибках и недочётах разработчикам.

Смотрите также
Информация
Комментировать статьи на сайте возможно только в течении 10 дней со дня публикации.

Наверх