Участник:Boeing/Рецензия:Сравнение инструментов определения именованных сущностей на новостных статьях

Материал из DISCOPAL
< Участник:Boeing
Версия от 21:02, 12 ноября 2021; Boeing (обсуждение | вклад) (Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019))

Перейти к: навигация, поиск

[1]

Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019)

Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке. Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов - бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой - не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов - но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.

В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы - от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.

На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано - с глубокими языковыми моделями шутки плохи. Был произведен анализ ошибок - возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки - здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок - DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov. Понятно, что присутствует trade-off качества и скорости работы - кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.

Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.