Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов — различия между версиями
Boeing (обсуждение | вклад) (Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%…») |
Boeing (обсуждение | вклад) (/* Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в про…) |
||
Строка 5: | Строка 5: | ||
Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа. | Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа. | ||
− | Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад. | + | Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад. |
Версия 22:01, 4 ноября 2021
Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в промышленных системах (Екатерина Полицына, SECR-2018)
Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.
Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.