Участник:Boeing/Рецензия:Распознавание именованных сущностей в зашумленных доменах - История изменений

StasFomin в 16:03, 8 декабря 2021

2021-12-08T16:03:41Z

Boeing: Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_…»

2021-10-25T21:03:11Z

Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_…»

Новая страница

[https://0x1.tv/%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%B2_%D0%B7%D0%B0%D1%88%D1%83%D0%BC%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%BE%D0%BC%D0%B5%D0%BD%D0%B0%D1%85_(%D0%92%D0%BB%D0%B0%D0%B4_%D0%9B%D1%8F%D0%BB%D0%B8%D0%BD,_ISPRASOPEN-2018)]

== Краткий отзыв на доклад «Распознавание именованных сущностей в зашумленных доменах» (Влад Лялин, ISPRASOPEN-2018) ==

Доклад сделан на тему распознавания именованных сущностей в датасетах, зашумленных опечатками. Продемонстрирована актуальность проблемы на примерах задач анализа социальных сетей и диалоговых систем.

Рассмотрены модели нейросетей biLSTM и CharCNN (сверточная сеть, работающая на уровне отдельных символов слов), докладчик утверждает, что рассмотренные модели представляли собой state-of-the-art на стандартных датасетах задачи NER. Мне кажется, на момент конференции это утверждение уже несколько устарело, поскольку, например, модели NER на основе глубокой языковой модели BERT появились в том же 2018 году и точно представляли sota на тот момент (точно на CoNLL-2003, и скорее всего, и на других использованных здесь датасетах). Впрочем, желание любое NLP засунуть в глубокий трансформер приводит к известному сужению взгляда на вещи, поэтому, пожалуй, полезно иногда посмотреть в другую сторону - в ретроспективе, так сказать:)

Был предложен интересный метод повышения устойчивости к опечаткам путём замены символов на случайные другие символы с небольшой вероятностью. Мне нравится идея, но кажется, можно было достичь более правдоподобных результатов, если бы символы подменялись не случайно, а в большем соответствии с тем, как люди обычно совершают опечатки, а именно:
* перестановка двух соседних символов в слове;
* замена символа на символ, использованный "не более трех символов назад" (такое случайное повторение);
* пропуск символа;
* замена символа на физически близкий к нему на QWERTY клавиатуре.
Мне кажется, что такая модель зашумления лучше сможет предсказывать опечатки пользователей системы. Кроме того, в примере на презентации видно, что символы заменяются не только на символы из алфавита, но и на небуквенные символы - такие опечатки кажутся мне ну совсем маловероятными. В докладе приведены графики качества моделей в зависимости от уровня зашумления обучающего датасета на зашумленном тестовом датасете и на оригинальном тестовом датасете; на обеих диаграммах качество почти линейно убывает при увеличении вероятности зашумления, из чего докладчик делает вывод о хорошей аппроксимации естественного шума их моделью, однако скорость убывания линейных графиков разная: они убывают быстрее на искуственно зашумленном тесте. Я бы сказал, что использованная модель шума все-таки слишком груба и приводит к большим потерям по сравнению с естественным зашумлением.

Интересным показался момент с получением sota на французском датасете благодаря предобработке spell-checker-ом - видимо, иногда какая-то специфическая предобработка действительно меняет всё дело.
Доклад хорошо структурирован, нагляден.

И все-таки интересно, как все это в реалиях 2021 года транслируется на современные сверхглубокие языковые модели - имеет ли всё еще смысл какая-то предобработка, или в этих комбаинах текст в любом случае перемалывается в удобоваримую массу признаков?

@@ Строка 6: / Строка 6: @@
 Доклад сделан на тему распознавания именованных сущностей в датасетах, зашумленных опечатками. Продемонстрирована актуальность проблемы на примерах задач анализа социальных сетей и диалоговых систем.
-Рассмотрены модели нейросетей biLSTM и CharCNN (сверточная сеть, работающая на уровне отдельных символов слов), докладчик утверждает, что рассмотренные модели представляли собой state-of-the-art на стандартных датасетах задачи NER. Мне кажется, на момент конференции это утверждение уже несколько устарело, поскольку, например, модели NER на основе глубокой языковой модели BERT появились в том же 2018 году и точно представляли sota на тот момент (точно на CoNLL-2003, и скорее всего, и на других использованных здесь датасетах). Впрочем, желание любое NLP засунуть в глубокий трансформер приводит к известному сужению взгляда на вещи, поэтому, пожалуй, полезно иногда посмотреть в другую сторону - в ретроспективе, так сказать:)
+Рассмотрены модели нейросетей biLSTM и CharCNN (сверточная сеть, работающая на уровне отдельных символов слов), докладчик утверждает, что рассмотренные модели представляли собой state-of-the-art на стандартных датасетах задачи NER. Мне кажется, на момент конференции это утверждение уже несколько устарело, поскольку, например, модели NER на основе глубокой языковой модели BERT появились в том же 2018 году и точно представляли sota на тот момент (точно на CoNLL-2003, и скорее всего, и на других использованных здесь датасетах). Впрочем, желание любое NLP засунуть в глубокий трансформер приводит к известному сужению взгляда на вещи, поэтому, пожалуй, полезно иногда посмотреть в другую сторону — в ретроспективе, так сказать:)
 Был предложен интересный метод повышения устойчивости к опечаткам путём замены символов на случайные другие символы с небольшой вероятностью. Мне нравится идея, но кажется, можно было достичь более правдоподобных результатов, если бы символы подменялись не случайно, а в большем соответствии с тем, как люди обычно совершают опечатки, а именно:
 * перестановка двух соседних символов в слове;
-* замена символа на символ, использованный "не более трех символов назад" (такое случайное повторение);
+* замена символа на символ, использованный «не более трех символов назад» (такое случайное повторение);
 * пропуск символа;
 * замена символа на физически близкий к нему на QWERTY клавиатуре.
-Интересным показался момент с получением sota на французском датасете благодаря предобработке spell-checker-ом - видимо, иногда какая-то специфическая предобработка действительно меняет всё дело.
+Мне кажется, что такая модель зашумления лучше сможет предсказывать опечатки пользователей системы.
-Доклад хорошо структурирован, нагляден.
-И все-таки интересно, как все это в реалиях 2021 года транслируется на современные сверхглубокие языковые модели - имеет ли всё еще смысл какая-то предобработка, или в этих комбаинах текст в любом случае перемалывается в удобоваримую массу признаков?
+Кроме того, в примере на презентации видно, что символы заменяются не только на символы из алфавита, но и на небуквенные символы — такие опечатки кажутся мне ну совсем маловероятными. В докладе приведены графики качества моделей в зависимости от уровня зашумления обучающего датасета на зашумленном тестовом датасете и на оригинальном тестовом датасете; на обеих диаграммах качество почти линейно убывает при увеличении вероятности зашумления, из чего докладчик делает вывод о хорошей аппроксимации естественного шума их моделью, однако скорость убывания линейных графиков разная: они убывают быстрее на искуственно зашумленном тесте. Я бы сказал, что использованная модель шума все-таки слишком груба и приводит к большим потерям по сравнению с естественным зашумлением.