Участник:Boeing/Рецензия:Сравнение инструментов определения именованных сущностей на новостных статьях — различия между версиями
Boeing (обсуждение | вклад) (Новая страница: «[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80…») |
StasFomin (обсуждение | вклад) |
||
(не показана 1 промежуточная версия 1 участника) | |||
Строка 1: | Строка 1: | ||
[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%BD%D0%B0_%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D1%85_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D1%85_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D1%8B%D1%87%D0%B5%D0%B3%D0%B6%D0%B0%D0%BD%D0%B8%D0%BD,_ISPRASOPEN-2019)] | [https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%BD%D0%B0_%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D1%85_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D1%85_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D1%8B%D1%87%D0%B5%D0%B3%D0%B6%D0%B0%D0%BD%D0%B8%D0%BD,_ISPRASOPEN-2019)] | ||
− | == Краткий отзыв на доклад | + | == Краткий отзыв на доклад «Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019)» == |
+ | |||
+ | Доклад представляет собой обзор существующих фреймворков для решения задачи ''Named Entity Recognition'' и сравнение результатов их работы на корпусах на русском и английском языке. | ||
+ | |||
+ | Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов — бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой — не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов — но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму. | ||
+ | |||
+ | В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы — от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT. | ||
+ | |||
+ | На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано — с глубокими языковыми моделями шутки плохи. | ||
+ | |||
+ | Был произведен анализ ошибок — возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки — здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок — DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov. | ||
+ | |||
+ | Понятно, что присутствует trade-off качества и скорости работы — кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали. | ||
− | |||
− | |||
− | |||
Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению. | Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению. |
Текущая версия на 16:06, 8 декабря 2021
Краткий отзыв на доклад «Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019)»
Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке.
Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов — бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой — не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов — но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.
В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы — от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.
На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано — с глубокими языковыми моделями шутки плохи.
Был произведен анализ ошибок — возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки — здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок — DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov.
Понятно, что присутствует trade-off качества и скорости работы — кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.
Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.