<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>https://discopal.ispras.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%3ABoeing%2F%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F%3A%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2</id>
		<title>Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов - История изменений</title>
		<link rel="self" type="application/atom+xml" href="https://discopal.ispras.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%3ABoeing%2F%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F%3A%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2"/>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;action=history"/>
		<updated>2026-05-07T05:23:06Z</updated>
		<subtitle>История изменений этой страницы в вики</subtitle>
		<generator>MediaWiki 1.26.4</generator>

	<entry>
		<id>https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;diff=19690&amp;oldid=prev</id>
		<title>StasFomin в 16:00, 8 декабря 2021</title>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;diff=19690&amp;oldid=prev"/>
				<updated>2021-12-08T16:00:58Z</updated>
		
		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class='diff diff-contentalign-left'&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;tr style='vertical-align: top;' lang='ru'&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;← Предыдущая&lt;/td&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;Версия 16:00, 8 декабря 2021&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l5&quot; &gt;Строка 5:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 5:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;А&lt;/del&gt;. &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Зализняк &lt;/del&gt;и его вклад в виде морфологического словаря на 100 тысяч &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;слов - &lt;/del&gt;это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;- &lt;/del&gt;докладчица ответила, что не &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;делают - &lt;/del&gt;например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;- &lt;/del&gt;хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; А&lt;/ins&gt;.&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; Зализняк &lt;/ins&gt;и его вклад в виде морфологического словаря на 100 тысяч &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;слов — &lt;/ins&gt;это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы,&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; — &lt;/ins&gt;докладчица ответила, что не &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;делают — &lt;/ins&gt;например, они используются на этапе векторизации текста. &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат)&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; — &lt;/ins&gt;хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>StasFomin</name></author>	</entry>

	<entry>
		<id>https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;diff=18696&amp;oldid=prev</id>
		<title>Boeing: /* Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в про…</title>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;diff=18696&amp;oldid=prev"/>
				<updated>2021-11-04T22:01:10Z</updated>
		
		<summary type="html">&lt;p&gt;/* Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в про…&lt;/p&gt;
&lt;table class='diff diff-contentalign-left'&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;tr style='vertical-align: top;' lang='ru'&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;← Предыдущая&lt;/td&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;Версия 22:01, 4 ноября 2021&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l5&quot; &gt;Строка 5:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 5:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;. Также мне было интересно узнать, что на самом деле морфологических характеристик 97&lt;/ins&gt;. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key discopal:diff:version:1.11a:oldid:18695:newid:18696 --&gt;
&lt;/table&gt;</summary>
		<author><name>Boeing</name></author>	</entry>

	<entry>
		<id>https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;diff=18695&amp;oldid=prev</id>
		<title>Boeing: Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%…»</title>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2&amp;diff=18695&amp;oldid=prev"/>
				<updated>2021-11-04T21:58:35Z</updated>
		
		<summary type="html">&lt;p&gt;Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%…»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BD%D0%B0_%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%BE%D0%BC_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B5_%D0%B4%D0%BB%D1%8F_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%BF%D1%80%D0%BE%D0%BC%D1%8B%D1%88%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%85_(%D0%95%D0%BA%D0%B0%D1%82%D0%B5%D1%80%D0%B8%D0%BD%D0%B0_%D0%9F%D0%BE%D0%BB%D0%B8%D1%86%D1%8B%D0%BD%D0%B0,_SECR-2018)]&lt;br /&gt;
&lt;br /&gt;
== Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в промышленных системах (Екатерина Полицына, SECR-2018) ==&lt;br /&gt;
&lt;br /&gt;
Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.&lt;br /&gt;
&lt;br /&gt;
Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.&lt;/div&gt;</summary>
		<author><name>Boeing</name></author>	</entry>

	</feed>