Участник:Boeing/Рецензия:Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке
Краткая рецензия: PioNER — Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке (Цолак Гукасян, ISPRASOPEN-2018)
Доклад рассказывает о создании датасета для задачи извлечения именованных сущностей (NER) для армянского языка и построение бейзлайна для этой задачи. Перед исследователями стояла интересная задача: для армянского языка датасет для NER отсутствовал. Авторы применили метод автоматической генерации датасета (Nothman) на основе статей армянской википедии. Алгоритм переходит по ссылкам между статьями и по типу статей, на которые делаются ссылки, определяет, является ли подсвеченное слово именованной сущностью или нет. Также авторы вручную разметили порядка 250 новостных статей различных тематик, получив датасет, сравнимый по своим характеристикам с CoNNL-03 и другими датасетами. Здесь интересно, не требуется ли для составления такого датасета участие специалистов в области лингвистики. Видимо, не требуется - в статье про CoNNL-03 [1] ничего не говорится о том, кто именно размечал датасет. Наверное, тут важнее всего внимательность эксперта. Еще авторы обучили модель векторизации текстов GloVe для построения бейзлайна на корпусе 80 млн токенов из википедии, советской энциклопедии, текстов новостей и записей блогов, были получены наборы эмбеддингов разных размеров, размер словаря 400к слов. На основе этих векторов были построены несколько бейзлайнов. Здесь можно придраться что не были использованы глубокие трансформерные языковые модели, но авторы и не стремились получить state-of-the-art, - задача стояла в построении бейзлайна. С другой стороны, этот бейзлайн по определению и являлся sota на этой задаче :) Авторы заложили фундамент для улучшения результатов решения задачи. Был проведен анализ ошибок трех бейзлайнов (лучше всего справилась biLSTM+CRF с дополнительными признаками из biLSTM уровня символов - нетривиальный выбор для бейзлайна, надо сказать), результат - несовершенство построенного на основе Википедии датасета, а именно, отсутствующие/лишние именованные сущности. Точность для организаций оказалась невысока. Авторы упомянули о другой возможности для автоматической генерации датасета - алгоритме WINER, в разделе future work.
Мне показалось немного странным, что для трех задач ~генерации датасетов использовались три разных набора данных - например, для эмбеддингов использовались (в том числе) записи блогов, но такого рода неформальные тексты не использовались в вручную размеченном датасете. Почему так? Подумал об этом потому, что по моему опыту, качество работы NER сильно зависит от форматирования текста (например, сущность местоположения сильно опирается на заглавную букву), которое в реальном применении не всегда соответствует ожидаемому. Кажется, что в постах блогов больше вероятность что какие-то сущности будут в ловеркейсе, что при использовании таких текстов в золотом датасете позволило бы обучить лучшие модели. Напротив, в золотом датасете были использованы формальные тексты, где форматирование скорее всего тривиальное.