Участник:Boeing/Рецензия:Тематическая сегментация в информационном поиске
Краткий отзыв на доклад «Тематическая сегментация в информационном поиске (Полина Казакова, SECR-2018)»
В докладе рассказывается о применении тематической сегментации текстов в задаче информационного поиска.
В начале говорится, что задача ставится несколько иначе, чем обычно — запрос тоже предполагается документом. Таким образом, задача состоит в подборе релевантных документов для данного документа. Предлагается разбивать документы на семантически-гомогенные блоки, чтобы использовать для поиска не весь текст документа, а лишь его часть.
Используется метод ARTM-регуляризаторов для задачи моделирования топиков, но сама эта модель не описана. Сегменты гомогенных тем строятся методом сливания меньших сегментов, начиная с предложений. Здесь не вполне понятно, как понять, что предложения имеют друг с другом одинаковые темы, поскольку предложение — это очень ограниченный набор слов. Несколько контр-интуитивный подход.
Далее используется алгоритм Topic Tiling, снова считающий расстояние между векторами соседних предложений, и большие расстояния считаются границами сегментов. То есть, снова спускаемся на уровень предложений, такое получается нетривиальное движение вверх-вниз. Наверое, хотелось бы чтобы больше внимания было уделено мотивации такого пайплайна. Достаточно сложный пайплайн для поиска тоже объяснен не слишком детально — например, как происходит сегментирование документа на параграфы поисковым движком. Использованы различные алгоритмы векторизации текста, причем все конкурентные методы не предобучались на документах датасета (триплеты из статей на arxiv).
В сводной таблице результатов показано, что для некоторых (но не для всех) методов наличие в пайплайне сегментации действительно дает прирост в качестве. Однако, глобально наилучший результат получен на ARTM без сегментации, а второй наилучший — обычный doc2vec, который даже не видел обучающей выборки, и опять же, без сегментации. Впрочем, как отмечает докладчик, сравнение между собой предобученных моделей не особенно осмысленно, это по сути сравнение качества предобучения. Также докладчик отметил, что использование научных статей для проверки качества тематической сегментации в известном смысле упрощает эту задачу — там тематики довольно строго определены.
Приведены ссылки на статьи, где предложены используемые методы.