Участник:Boeing/Рецензия:Методы кросс-языкового поиска документов
Краткая рецензия: Методы кросс-языкового поиска документов (Денис Зубарев, ISPRASOPEN-2019)
В статье рассматривается задача кросс-языкового поиска в контексте задачи поиска плагиата (например, заимствования текста из англоязычных статей). Исследуется возможность применения кросс-языковых эмбеддингов в сравнении со стандартными методами решения задачи без использования эмбеддингов.
Для обучения эмбеддингов использовались параллельные предложения на английском и русском. Тексты препроцессировались следующим образом: токенизация/лемматизация, потом выбрасывались наиболее частотные токены, не несущие особого семантического смысла. Мне показался наиболее интересным следующий шаг: по результатам семантического анализа группы токенов до 4 объединялись в одну сущность, если представляли собой именные группы с модификаторами-существительными и прилагательными (чтобы не переводить по отдельности токены из, например, "Организации Объединенных Наций"). Мне интересно, каким образом эти группы были получены - видимо, составлялись грамматики на семантических аттрибутах слов? Но ведь русский язык очень сложный? Имеют ли именные группы отношение к именованным сущностям? Далее именная группа трактовалась как отдельное "слово" - ей присваивался свой эмбеддинг. Также из именной группы удалялись токены по одному, и оставшемуся набору токенов тоже присваивался свой эмбеддинг. Размер датасета для обучения составил более чем солидные 10 миллионов предложений, размер словаря был выбран равным 680 токенам/фразам. Сами эмбеддинги обучались двумя способами: word2vec на предложениях, где английские и русские слова были перемешаны и шли по очереди (интересный подход - а что, если порядок слов не совпадает?), а также был использован метод, переводящий обычные моноязычные эмбеддинги в общее пространство линейной трансформацией с использованием учителя, а именно словаря. Не уточняется, какие именно моноязычные эмбеддинги, но из контекста кажется, что тоже word2veс, обученный на этих текстах.
Далее для решения задачи были использованы стандартные методы для поиска документов на основе эмбеддингов. Видимо, имеется в виду, что эти методы применяются обычно в моноязычном пространстве эмбеддингов для поиска на том же языке, но здесь мы применяем их уже для двух разных языков. Это понятно, но все же хотелось бы, чтобы докладчик больше акцентировал на этом внимание. В числе методов обратный индекс, и аппроксимированный kNN. В качестве конкурента использовался метод без использования эмбеддингов - здесь вычислялась косинусная близость документов с 800 параллельными статьями на Википедии (тут хотелось бы уточнить, как представлялись документы для вычисления близости - tf-idf или же моноязыковые эмбеддинги?). В качестве датасета также использовались параллельные статьи в википедии на русском и английском.
Лучше других показал себя метод обратного индекса на эмбеддингах наибольшей из полученных размерностей, побив все другие методы на всех метриках. Подход беэ эмбеддингов сработал намного хуже, но показал сравнимую полноту. Эмбеддинги, построенные в двуязычном подходе, сработали лучше эмбеддингов, полученных линейной трансформацией. Также авторы исследовали зависимость качества работы алгоритма от того, являются ли пары запрос/ответ сопоставимыми по размеру. Отмечается, что использование именных групп дало лишь малый прирост в качестве. При использовании несравнимых по размеру примеров качество уменьшалось, авторы приводят возможную причину - алгоритм обратного индекса не масштабирует документ запроса относительно ответа.
В целом, как всегда, мне хотелось бы видеть описанные методы в паре с глубокими языковыми моделями. Идея с word2vec на перемешанных токенах из разных языков показалась мне интересной, также заинтересовали именные группы с шага препроцессинга, хотя я и не понял деталей. Буду разбираться. Доклад хорошо структурирован и интересно представлен.