Методы автоматизации построения специализированных тезаурусов с использованием анализа контекста

Коллектив факультета постоянно развивает свой исследовательский потенциал регулярно выполняя фундаментальные и прикладные научно-исследовательские проекты, поддержанные Минобрнауки и российскими научными фондами. Кроме штатных сотрудников к выполнению проектов привлекаются аспиранты и студенты.


грант Президента РФ для молодых кандидатов наук
Project Leader: Ilya Paramonov
The period of the project: 02.03.2016 - 02.03.2017
Целью проекта является создание гибридных методов автоматизации построения специализированного тезауруса, развитие критериев и методов оценки качества автоматически генерируемых тезаурусов, требующих минимального участия экспертов.

Целью первого этапа работ, выполненного в 2016 году, являются выработка критериев оценки качества автоматически генерируемых тезаурусов, не использующих эталонный тезаурус, создание гибридных методов и методики автоматизированного построения тезауруса на основе выбора наилучшего тезауруса с точки зрения разработанных критериев оценки, построение программного прототипа для автоматизированного построения тезаурусов.
На данном этапе исследований предложена комплексная оценка качества узкоспециализированного тезауруса. Оценка включает в себя набор статистических характеристик и параметров связности тезауруса. Следует отметить, что качество тезауруса сильно зависит от набора его связей: чем больше семантических отношений в тезаурусе и чем выше его связность, тем лучше результаты дает информационный поиск с его участием. Соответствующие параметры оцениваются независимо от эталонного тезауруса и в комплексе со статистическими характеристиками позволяют оценить тезаурус как единое целое, что, дает возможность более эффективно разрабатывать методы построения самого тезауруса.

Исследованы методы выделения множества терминов тезауруса. Показано, что методы использующие обучение без учителя оптимально подходят для задачи максимально автоматизировать построение тезауруса, поскольку показывают результаты лишь немного хуже, чем алгоритмы использующие обучение с учителем. Также исследованы методы выделения связей между терминами тезауруса. Показано, что для выделения гиперонимов достаточно хороши два метода, основанные на морфо-синтаксических правилах и тезаурусе WordNet. Кроме того качество выделения гипонимо-гиперонимических связей для всех методов оказалось довольно невысоким. Для определения ассоциативных связей хорошие результаты показал метод LSA (Latent Semantic Analysis). Следует отметить, что существующие методы относительно эффективны в извлечении определенных типов отношений, но недостаточно хороши для построения тезауруса в целом.

На данном этапе проекта предложена идея гибридных методов, представляющих собой различные комбинации существующих алгоритмов выделения синонимических и иерархических отношений между терминами. Эксперименты показали, что преимущество гибридных методов при выделении обоих типов связей заключается в увеличении полноты, при этом точность выделения терминов и связей не ухудшается, кроме того повышается связность итогового тезауруса.

На основе предложенных методов и комплексной оценки тезауруса разработан программный стенд, полностью автоматически генерирующий и оценивающий тезаурус. Стенд позволяет исследовать методы выделения терминов тезауруса и выделения связей между ними.




  • 44
    года факультету
  • 2659
    выпускников
Подавать сертификаты ЕГЭ вместе с другими документами не нужно, ваши баллы будут проверяться в федеральной базе.