Участник:Easik/Устойчивость к шуму

Материал из DISCOPAL
Перейти к: навигация, поиск

Устойчивость к шуму в задаче извлечения аспектов (Валентин Малых, ISPRASOPEN-2018)

Отзыв/рецензия на доклад

Презентация на тему "Устойчивость к шуму в задаче извлечения аспектов".

В работе шум определяется опечатками и ошибками в тексте. Цель - построение универсальной (которая не заточена под специфичный контекст) модели, устойчивой к шуму.

Также моделируется шум случайным удалением слов, случайным добавлением символов, заменой и переменой букв.

Обучается модель нейросети с механизмом внимания (attention based nn model). Она обучается минимизацией разницы вектора представления текста и вектора представления выбранного аспекта. Аспектами автор называет самые близкие слова по векторному представлению. Использование сэмплирования негативных примеров обосновано, так как мы хотим разграничить важные и не важные слова в поданном на вход контексте. Для обучения/валидации использовалась выборка Citysearch с классифицированными отзывами о ресторанах. Признаки извлекались с помощью энкодеров: word2vec, fastText, RoVe.

Модель выделяла аспекты, классифицировала в соответствии с ближайшим векторным представлением и исходя из классов обучающей выборки. Затем она проверялась на тестовой выборке с размеченными категориями аспектов.

Показано, что использованние энкодера RoVe извлечения признаков (векторов из текста) сильно лидирует (хорошо сохраняет качество метрик) при увеличении шума в текстах по сравнению с другими энкодерами (word2vec, fastText). Тем не менее полученная модель не является полностью устойчивой к шуму.

Работа понравилась, она очень актуальна, все шаги в разработке вполне разумны и обоснованы. Автор слегка непонятно описал составление словаря выборки. Почему-то он говорил про признак векторного представления слова суммой 3х векторов первых 3х букв. Возможно, признаками выступали всевозможные последовательные суммы векторов букв слова, т.е. вектор первой буквы, сумма векторов первой и второй буквы и т.д. Но из видео это было не очень понятно.