Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов — различия между версиями

Материал из DISCOPAL
Перейти к: навигация, поиск
(Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%…»)
 
 
(не показана 1 промежуточная версия 1 участника)
Строка 5: Строка 5:
 
Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.
 
Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.
  
Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.
+
Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А. А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов — это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем.  
 +
 
 +
Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, — докладчица ответила, что не делают — например, они используются на этапе векторизации текста.  
 +
 
 +
Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) — хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.

Текущая версия на 16:00, 8 декабря 2021

[1]

Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в промышленных системах (Екатерина Полицына, SECR-2018)

Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.

Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А. А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов — это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем.

Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, — докладчица ответила, что не делают — например, они используются на этапе векторизации текста.

Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) — хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.