Участник:Boeing/Рецензия:Сравнение инструментов определения именованных сущностей на новостных статьях — различия между версиями

Материал из DISCOPAL
Перейти к: навигация, поиск
(Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019))
 
Строка 1: Строка 1:
 
[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%BD%D0%B0_%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D1%85_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D1%85_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D1%8B%D1%87%D0%B5%D0%B3%D0%B6%D0%B0%D0%BD%D0%B8%D0%BD,_ISPRASOPEN-2019)]
 
[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%BD%D0%B0_%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D1%85_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D1%85_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D1%8B%D1%87%D0%B5%D0%B3%D0%B6%D0%B0%D0%BD%D0%B8%D0%BD,_ISPRASOPEN-2019)]
  
== Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019) ==
+
== Краткий отзыв на доклад «Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019)» ==
  
Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке. Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов - бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой - не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов - но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.  
+
Доклад представляет собой обзор существующих фреймворков для решения задачи ''Named Entity Recognition'' и сравнение результатов их работы на корпусах на русском и английском языке.  
  
В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы - от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.  
+
Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов — бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой — не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов — но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.
  
На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано - с глубокими языковыми моделями шутки плохи. Был произведен анализ ошибок - возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки - здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок - DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov. Понятно, что присутствует trade-off качества и скорости работы - кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.  
+
В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы — от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.
 +
 
 +
На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано — с глубокими языковыми моделями шутки плохи.  
 +
 
 +
Был произведен анализ ошибок — возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки — здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок — DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov.  
 +
 
 +
Понятно, что присутствует trade-off качества и скорости работы — кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.
  
 
Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.
 
Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.

Текущая версия на 16:06, 8 декабря 2021

[1]

Краткий отзыв на доклад «Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019)»

Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке.

Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов — бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой — не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов — но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.

В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы — от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.

На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано — с глубокими языковыми моделями шутки плохи.

Был произведен анализ ошибок — возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки — здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок — DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov.

Понятно, что присутствует trade-off качества и скорости работы — кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.

Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.