<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>https://discopal.ispras.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%3ABoeing%2F%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F%3A%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5</id>
		<title>Участник:Boeing/Рецензия:Тематическая сегментация в информационном поиске - История изменений</title>
		<link rel="self" type="application/atom+xml" href="https://discopal.ispras.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%3ABoeing%2F%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F%3A%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5"/>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5&amp;action=history"/>
		<updated>2026-05-07T05:21:57Z</updated>
		<subtitle>История изменений этой страницы в вики</subtitle>
		<generator>MediaWiki 1.26.4</generator>

	<entry>
		<id>https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5&amp;diff=19693&amp;oldid=prev</id>
		<title>StasFomin в 16:07, 8 декабря 2021</title>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5&amp;diff=19693&amp;oldid=prev"/>
				<updated>2021-12-08T16:07:50Z</updated>
		
		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class='diff diff-contentalign-left'&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;tr style='vertical-align: top;' lang='ru'&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;← Предыдущая&lt;/td&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;Версия 16:07, 8 декабря 2021&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot; &gt;Строка 1:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 1:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5_(%D0%9F%D0%BE%D0%BB%D0%B8%D0%BD%D0%B0_%D0%9A%D0%B0%D0%B7%D0%B0%D0%BA%D0%BE%D0%B2%D0%B0,_SECR-2018)]&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5_(%D0%9F%D0%BE%D0%BB%D0%B8%D0%BD%D0%B0_%D0%9A%D0%B0%D0%B7%D0%B0%D0%BA%D0%BE%D0%B2%D0%B0,_SECR-2018)]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== Краткий отзыв на доклад «Тематическая сегментация в информационном поиске (Полина Казакова, SECR-2018) ==&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== Краткий отзыв на доклад «Тематическая сегментация в информационном поиске (Полина Казакова, SECR-2018)&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;» &lt;/ins&gt;==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;В докладе рассказывается о применении тематической сегментации текстов в задаче информационного поиска&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;. В начале говорится, что задача ставится несколько иначе, чем обычно - запрос тоже предполагается документом. Таким образом, задача состоит в подборе релевантных документов для данного документа. Предлагается разбивать документы на семантически-гомогенные блоки, чтобы использовать для поиска не весь текст документа, а лишь его часть&lt;/del&gt;. &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;В докладе рассказывается о применении тематической сегментации текстов в задаче информационного поиска. &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Используется метод ARTM-регуляризаторов для задачи моделирования топиков, но сама эта модель не описана. Сегменты гомогенных тем строятся методом сливания меньших сегментов, начиная с предложений. Здесь не вполне понятно, как понять&lt;/del&gt;, что &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;предложения имеют друг с другом одинаковые темы&lt;/del&gt;, &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;поскольку предложение - это очень ограниченный набор слов&lt;/del&gt;. &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Несколько контр-интуитивный подход. Далее используется алгоритм Topic Tiling&lt;/del&gt;, &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;снова считающий расстояние между векторами соседних предложений, и большие расстояния считаются границами сегментов&lt;/del&gt;. &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;То есть, снова спускаемся &lt;/del&gt;на &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;уровень предложений, такое получается нетривиальное движение вверх&lt;/del&gt;-&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;вниз. Наверое&lt;/del&gt;, &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;хотелось бы &lt;/del&gt;чтобы &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;больше внимания было уделено мотивации такого пайплайна. Достаточно сложный пайплайн &lt;/del&gt;для поиска &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;тоже объяснен &lt;/del&gt;не &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;слишком детально - например, как происходит сегментирование &lt;/del&gt;документа &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;на параграфы поисковым движком. Использованы различные алгоритмы векторизации текста&lt;/del&gt;, &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;причем все конкурентные методы не предобучались на документах датасета (триплеты из статей на arxiv)&lt;/del&gt;. &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;В начале говорится&lt;/ins&gt;, что &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;задача ставится несколько иначе&lt;/ins&gt;, &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;чем обычно — запрос тоже предполагается документом&lt;/ins&gt;. &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Таким образом&lt;/ins&gt;, &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;задача состоит в подборе релевантных документов для данного документа&lt;/ins&gt;. &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Предлагается разбивать документы &lt;/ins&gt;на &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;семантически&lt;/ins&gt;-&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;гомогенные блоки&lt;/ins&gt;, чтобы &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;использовать &lt;/ins&gt;для поиска не &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;весь текст &lt;/ins&gt;документа, &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;а лишь его часть&lt;/ins&gt;.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;В сводной таблице результатов показано, что для некоторых (но не для всех) методов наличие в пайплайне сегментации действительно дает прирост в качестве. Однако, глобально наилучший результат получен на ARTM без сегментации, а второй &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;наилучший - &lt;/del&gt;обычный doc2vec, который даже не видел обучающей выборки, и опять же, без сегментации. Впрочем, как отмечает докладчик, сравнение между собой предобученных моделей не особенно осмысленно, это по сути сравнение качества предобучения. Также докладчик отметил, что использование научных статей для проверки качества тематической сегментации в известном смысле упрощает эту &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;задачу - &lt;/del&gt;там тематики довольно строго определены.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Используется метод ARTM-регуляризаторов для задачи моделирования топиков, но сама эта модель не описана. Сегменты гомогенных тем строятся методом сливания меньших сегментов, начиная с предложений. Здесь не вполне понятно, как понять, что предложения имеют друг с другом одинаковые темы, поскольку предложение — это очень ограниченный набор слов. Несколько контр-интуитивный подход. &lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Далее используется алгоритм Topic Tiling, снова считающий расстояние между векторами соседних предложений, и большие расстояния считаются границами сегментов. То есть, снова спускаемся на уровень предложений, такое получается нетривиальное движение вверх-вниз. Наверое, хотелось бы чтобы больше внимания было уделено мотивации такого пайплайна. Достаточно сложный пайплайн для поиска тоже объяснен не слишком детально — например, как происходит сегментирование документа на параграфы поисковым движком. Использованы различные алгоритмы векторизации текста, причем все конкурентные методы не предобучались на документах датасета (триплеты из статей на arxiv).&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;В сводной таблице результатов показано, что для некоторых (но не для всех) методов наличие в пайплайне сегментации действительно дает прирост в качестве. Однако, глобально наилучший результат получен на ARTM без сегментации, а второй &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;наилучший — &lt;/ins&gt;обычный doc2vec, который даже не видел обучающей выборки, и опять же, без сегментации. Впрочем, как отмечает докладчик, сравнение между собой предобученных моделей не особенно осмысленно, это по сути сравнение качества предобучения. Также докладчик отметил, что использование научных статей для проверки качества тематической сегментации в известном смысле упрощает эту &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;задачу — &lt;/ins&gt;там тематики довольно строго определены.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Приведены ссылки на статьи, где предложены используемые методы.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Приведены ссылки на статьи, где предложены используемые методы.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key discopal:diff:version:1.11a:oldid:16631:newid:19693 --&gt;
&lt;/table&gt;</summary>
		<author><name>StasFomin</name></author>	</entry>

	<entry>
		<id>https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5&amp;diff=16631&amp;oldid=prev</id>
		<title>Boeing: Новая страница: «[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2…»</title>
		<link rel="alternate" type="text/html" href="https://discopal.ispras.ru/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Boeing/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F:%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5&amp;diff=16631&amp;oldid=prev"/>
				<updated>2021-10-27T21:13:46Z</updated>
		
		<summary type="html">&lt;p&gt;Новая страница: «[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2…»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5_(%D0%9F%D0%BE%D0%BB%D0%B8%D0%BD%D0%B0_%D0%9A%D0%B0%D0%B7%D0%B0%D0%BA%D0%BE%D0%B2%D0%B0,_SECR-2018)]&lt;br /&gt;
&lt;br /&gt;
== Краткий отзыв на доклад «Тематическая сегментация в информационном поиске (Полина Казакова, SECR-2018) ==&lt;br /&gt;
&lt;br /&gt;
В докладе рассказывается о применении тематической сегментации текстов в задаче информационного поиска. В начале говорится, что задача ставится несколько иначе, чем обычно - запрос тоже предполагается документом. Таким образом, задача состоит в подборе релевантных документов для данного документа. Предлагается разбивать документы на семантически-гомогенные блоки, чтобы использовать для поиска не весь текст документа, а лишь его часть. &lt;br /&gt;
&lt;br /&gt;
Используется метод ARTM-регуляризаторов для задачи моделирования топиков, но сама эта модель не описана. Сегменты гомогенных тем строятся методом сливания меньших сегментов, начиная с предложений. Здесь не вполне понятно, как понять, что предложения имеют друг с другом одинаковые темы, поскольку предложение - это очень ограниченный набор слов. Несколько контр-интуитивный подход. Далее используется алгоритм Topic Tiling, снова считающий расстояние между векторами соседних предложений, и большие расстояния считаются границами сегментов. То есть, снова спускаемся на уровень предложений, такое получается нетривиальное движение вверх-вниз. Наверое, хотелось бы чтобы больше внимания было уделено мотивации такого пайплайна. Достаточно сложный пайплайн для поиска тоже объяснен не слишком детально - например, как происходит сегментирование документа на параграфы поисковым движком. Использованы различные алгоритмы векторизации текста, причем все конкурентные методы не предобучались на документах датасета (триплеты из статей на arxiv). &lt;br /&gt;
&lt;br /&gt;
В сводной таблице результатов показано, что для некоторых (но не для всех) методов наличие в пайплайне сегментации действительно дает прирост в качестве. Однако, глобально наилучший результат получен на ARTM без сегментации, а второй наилучший - обычный doc2vec, который даже не видел обучающей выборки, и опять же, без сегментации. Впрочем, как отмечает докладчик, сравнение между собой предобученных моделей не особенно осмысленно, это по сути сравнение качества предобучения. Также докладчик отметил, что использование научных статей для проверки качества тематической сегментации в известном смысле упрощает эту задачу - там тематики довольно строго определены.&lt;br /&gt;
&lt;br /&gt;
Приведены ссылки на статьи, где предложены используемые методы.&lt;/div&gt;</summary>
		<author><name>Boeing</name></author>	</entry>

	</feed>