Участник:Boeing/Рецензия:Бенчмаркинг коллекций научных журналов
Краткий отзыв на доклад Бенчмаркинг коллекций научных журналов (Федор Краснов, SECR-2019)
Доклад описывает опыт создания сервиса анализа текстов для решения конкретной бизнес проблемы. Доклад больше фокусируется именно на процессе разработки, чем на научной составляющей, что, на мой взгляд, ценно, поскольку докладов и статей именно на прикладном уровне сильно меньше, чем собственно научных статей. Авторы поставили перед собой задачу разработки системы тематического анализа коллекций статей для качественного и количественного сравнения между собой двух коллекций научных статей: одну - целевую - коллекцию статей индексируемого журнала, и вторую - коллекцию статей неиндексируемого журнала-заказчика с целью объяснить второму, что он делает не так. Видимо, все журналы публикуются на английском языке, то есть, мы находимся в одном языковом домене.
В качестве основы использовался подход Comparative Text Mining, при котором на сумме коллекций текста выполняется мягкая кластеризация - суть выделение тематик, а далее - еще одна кластеризация тематик между двумя коллекциями. Для мягкой кластеризации была подобрана специфическая тематическая модель, которая хорошо показала себя на абстрактах статей (длина текста здесь существенна для результатов тематического моделирования). В результирующих токенах-тематиках была проведена фильтрация по частям речи - оставлены только существительные.
Автор отмечает, что в сервисе использовались исключительно готовые фреймворки, и необходимым навыком программистов здесь являлось умение подобрать нужный фреймворк (например, было перепробовано порядка 50 тематических моделей), а не изобретать велосипед. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям. Была сделана ремарка касательно непригодности студентов для работы над подобными проектами - в этой части самолюбие несколько задето, но согласен - нужно действительно уметь делать конкретные вещи. В команде присутствовали специалисты различных областей (например, врач), что было необходимо для правильной интерпретации результатов системы. Сбор данных с помощью автоматических краулеров описан как несложная задача, в отличие от подбора гиперпараметров - здесь авторы нашли какое-то элегантное решение на основе минимизации энтропии (оставлен за рамками доклада, описан в статье). Отмечается что добавление даже одного нового гиперпараметра в систему приводит к необходимости подвергнуть переоценке уже найденные оптимальные значения всех прочих гиперпараметров. Наверное, полезно заранее продумать структуру пространства гиперпараметров, чтобы по возможности не решать эту проблему по много раз (неградиентная оптимизация гиперпараметров требует много вычислительного времени).
В целом доклад хорошо структурирован, содержит полезные советы и соображения касательно приложения научных результатов к реальному миру для решения бизнес-задач и заставил меня задуматься о том, что хорошо бы и мне научиться делать что-то реальное. Но наверное, это уже после диплома :)