Участник:Boeing/Рецензия:Сравнение инструментов определения именованных сущностей на новостных статьях
Краткий отзыв на доклад «Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019)»
Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке.
Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов — бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой — не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов — но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.
В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы — от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.
На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано — с глубокими языковыми моделями шутки плохи.
Был произведен анализ ошибок — возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки — здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок — DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov.
Понятно, что присутствует trade-off качества и скорости работы — кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.
Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.