Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов — различия между версиями

Версия 22:01, 4 ноября 2021

Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в промышленных системах (Екатерина Полицына, SECR-2018)

Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.

Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.

Версия 21:58, 4 ноября 2021 (просмотреть исходный код) Boeing (обсуждение \| вклад) (Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%…»)		Версия 22:01, 4 ноября 2021 (просмотреть исходный код) Boeing (обсуждение \| вклад) (/* Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в про…) Следующая правка →
Строка 5:		Строка 5:
	Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.		Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.

−	Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.	+	Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.

Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов — различия между версиями

Версия 22:01, 4 ноября 2021

Навигация

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты