DISCOPAL - Вклад участника [ru]

Участник:Boeing/Рецензия:Чего ждёт, и чего не ждёт бизнес от ИТ-образования

2021-11-16T21:00:03Z

Boeing: /* Краткий отзыв на доклад "Чего ждёт, и чего не ждёт бизнес от ИТ-образования" (Иван Панченко, OSEDUCONF-2021) */

[https://0x1.tv/%D0%A7%D0%B5%D0%B3%D0%BE_%D0%B6%D0%B4%D1%91%D1%82,_%D0%B8_%D1%87%D0%B5%D0%B3%D0%BE_%D0%BD%D0%B5_%D0%B6%D0%B4%D1%91%D1%82_%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81_%D0%BE%D1%82_%D0%98%D0%A2-%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_(%D0%98%D0%B2%D0%B0%D0%BD_%D0%9F%D0%B0%D0%BD%D1%87%D0%B5%D0%BD%D0%BA%D0%BE,_OSEDUCONF-2021)]

== Краткий отзыв на доклад "Чего ждёт, и чего не ждёт бизнес от ИТ-образования" (Иван Панченко, OSEDUCONF-2021) ==

Доклад посвящен взаимоотношениям между бизнесом как институтом, производящим ПО, и IT-образованием как институтом, подготавливающим кадры для бизнеса, в идеале - взаимовыгодным. Докладчик кратко суммаризует функции образования и IT-образования в частности (разделяя фундаментальное и прикладное образование). Сходим образом задачи разработки ПО докладчик подразделяет на фундаментальное (=системное) программирование и прикладное. Далее докладчик описывает, чего бизнес ждет от кадров (студентов, стажеров) и соответственно от образования: акцент делается на фундаментальном образовании и ориентированности на системное программирование. Не требуется поверхностной заточенности на прикладное программирование, производящее кустарных быдлокодеров (эх). Нужно изучать Open Source решения для более глубокого понимания механизмов работы. Приводится проблема преподавателей в вузах и их оттока в бизнес и за границу.

Здесь мне вспомнились мои школьные годы, когда выяснилось, что все поступающие на физтех школьники из каждого отдельно взятого города (кроме самых крупных) являются учениками отдельно взятых учителей-энтузиастов, подготавливающих их непосредственно к поступлению на физтех. Родителям нужно было заранее узнать об этих энтузиастах и сделать так, чтобы школьники попали в их группы. Я и сам являлся учеником подобной группы и участвовал в обучении следующих поколений. Ситуация и приятная, и печальная: с одной стороны, эти энтузиасты есть, но с другой - их буквально единицы. Поступить на физтех, занимаясь самостоятельно и учась в обыкновенном классе без каких-либо дополнительных внешкольных занятий, практически невозможно (на мой взгляд). Чтобы облегчить поступление по ЕГЭ (и по возможности вовсе избежать этой странной и неудобной системы экзаменов без шанса на ошибку), нужно было участвовать в олимпиадах физтеха (и не только). Эти олимпиады проводились и на выезде: но чтобы их провели, нужно было участие, опять же, этих энтузиастов-учителей. Когда некоторые олимпиады в моем городе по тем или иным причинам не проводили, нам с отцом приходилось выезжать в другой город, чтобы их написать. Конечно, в идеале, все эти события нужно проводить на базе школ - но школам не интересны результаты олимпиад, для них важны как раз показатели ЕГЭ, на которые они натаскивают учеников. Такая у них отчетность. Администрация школы не захотела участвовать в этой инициативе. Даже после того, как я получил право поступления без экзаменов, моя учительница математики продолжала давить на меня, чтобы я продолжал потеть и сдал ее экзамен как можно лучше. Я сдал его плохо, кстати. Будущее место учебы не должно определяться одной попыткой. Кстати, на данный момент кружок, в котором я занимался, закрыт - на него не осталось спроса.

Интересной и важной секцией доклада является секция "Что образование ждет от бизнеса". Докладчик отмечает, что необходима помощь от бизнеса в виде образовательных курсов, финансирование преподавания. Для бизнеса в целом это выгодно: но цена ляжет на те компании, которые возьмут инициативу первыми. В последнее время в этой области, на мой взгляд, наблюдается заметный прогресс: на физтехе, например, появилось большое количество кафедр IT-компаний, таких как Яндекс и Сбербанк с Тиньковым (там тоже уклон в IT) и многие другие, так что тут движение в нужном направлении, кажется, есть. Впрочем, не могу ничего сказать о качестве преподавания на этих кафедрах.

В секции вопросов из зала опять же отмечается излишняя заточка на ЕГЭ. Другой замечательный вопрос из зала отмечает разницу мотивации разработчиков Open Source (качество открытого кода, ассоциируемое с именем программиста) и разработчиков проприетарных программ (по мнению слушателя, корявый код и легкие деньги). Действительно, мотивации студентов (да и вообще, мотивации всех участников процесса в целом) нужно уделять большое внимание - а это непростая задача. Как проприетарный разработчик, я задумался.

Мне очень понравился доклад - он затрагивает важные темы связи между бизнесом и образованием как двумя общественными институтами, участвующими в общем процессе. На мой взгляд, проблему с нехваткой квалифицированных учителей нужно решать в первую очередь в школах - зарплаты и социальный престиж там минимальны, а детские умы - самые пластичные и нуждающиеся в грамотных преподавателях. Это фундамент для всего остального.

Участник:Boeing/Рецензия:Чего ждёт, и чего не ждёт бизнес от ИТ-образования

2021-11-16T20:55:56Z

Boeing: /* Краткий отзыв на доклад "Чего ждёт, и чего не ждёт бизнес от ИТ-образования" (Иван Панченко, OSEDUCONF-2021) */

[https://0x1.tv/%D0%A7%D0%B5%D0%B3%D0%BE_%D0%B6%D0%B4%D1%91%D1%82,_%D0%B8_%D1%87%D0%B5%D0%B3%D0%BE_%D0%BD%D0%B5_%D0%B6%D0%B4%D1%91%D1%82_%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81_%D0%BE%D1%82_%D0%98%D0%A2-%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_(%D0%98%D0%B2%D0%B0%D0%BD_%D0%9F%D0%B0%D0%BD%D1%87%D0%B5%D0%BD%D0%BA%D0%BE,_OSEDUCONF-2021)]

== Краткий отзыв на доклад "Чего ждёт, и чего не ждёт бизнес от ИТ-образования" (Иван Панченко, OSEDUCONF-2021) ==

Доклад посвящен взаимоотношениям между бизнесом как институтом, производящим ПО, и IT-образованием как институтом, подготавливающим кадры для бизнеса, в идеале - взаимовыгодным. Докладчик кратко суммаризует функции образования и IT-образования в частности (разделяя фундаментальное и прикладное образование). Сходим образом задачи разработки ПО докладчик подразделяет на фундаментальное (=системное) программирование и прикладное. Далее докладчик описывает, чего бизнес ждет от кадров (студентов, стажеров) и соответственно от образования: акцент делается на фундаментальном образовании и ориентированности на системное программирование. Не требуется поверхностной заточенности на прикладное программирование, производящее кустарных быдлокодеров (эх). Нужно изучать Open Source решения для более глубокого понимания механизмов работы. Приводится проблема преподавателей в вузах и их оттока в бизнес и за границу.

Здесь мне вспомнились мои школьные годы, когда выяснилось, что все поступающие на физтех школьники из каждого отдельно взятого города (кроме самых крупных) являются учениками отдельно взятых учителей-энтузиастов, подготавливающих их непосредственно к поступлению на физтех. Родителям нужно было заранее узнать об этих энтузиастах и сделать так, чтобы школьники попали в их группы. Я и сам являлся учеником подобной группы и участвовал в обучении следующих поколений. Ситуация и приятная, и печальная: с одной стороны, эти энтузиасты есть, но с другой - их буквально единицы. Поступить на физтех, занимаясь самостоятельно и учась в обыкновенном классе без каких-либо дополнительных внешкольных занятий, практически невозможно (на мой взгляд). Чтобы облегчить поступление по ЕГЭ (и по возможности вовсе избежать этой странной и неудобной системы экзаменов без шанса на ошибку), нужно было участвовать в олимпиадах физтеха (и не только). Эти олимпиады проводились и на выезде: но чтобы их провели, нужно было участие, опять же, этих энтузиастов-учителей. Когда некоторые олимпиады в моем городе по тем или иным причинам не проводили, нам с отцом приходилось выезжать в другой город, чтобы их написать. Конечно, в идеале, все эти события нужно проводить на базе школ - но школам не интересны результаты олимпиад, для них важны как раз показатели ЕГЭ, на которые они натаскивают учеников. Такая у них отчетность. Администрация школы не захотела участвовать в этой инициативе. Даже после того, как я получил право поступления без экзаменов, моя учительница математики продолжала давить на меня, чтобы я продолжал потеть и сдал ее экзамен как можно лучше. Я сдал его плохо, кстати. Будущее место учебы не должно определяться одной попыткой. Кстати, на данный момент кружок, в котором я занимался, закрыт - на него не осталось спроса.

Интересной и важной секцией доклада является секция "Что образование ждет от бизнеса". Докладчик отмечает, что необходима помощь от бизнеса в виде образовательных курсов, финансирование преподавания. Для бизнеса в целом это выгодно: но цена ляжет на те компании, которые возьмут инициативу первыми. В последнее время в этой области, на мой взгляд, наблюдается заметный прогресс: на физтехе, например, появилось большое количество кафедр IT-компаний, таких как Яндекс и Сбербанк с Тиньковым (там тоже уклон в IT) и многие другие, так что тут движение в нужном направлении, кажется, есть. Впрочем, не могу ничего сказать о качестве преподавания на этих кафедрах.

В секции вопросов из зала опять же отмечается излишняя заточка на ЕГЭ. Другой замечательный вопрос из зала отмечает разницу мотивации разработчиков Open Source (качество открытого кода, ассоциируемое с именем программиста) и разработчиков проприетарных программ (по мнению слушателя, корявый код и легкие деньги). Действительно, мотивации студентов (да и вообще, мотивации всех участников процесса в целом) нужно уделять большое внимание - а это непростая задача.

Мне очень понравился доклад - он затрагивает важные темы связи между бизнесом и образованием как двумя общественными институтами, участвующими в общем процессе. На мой взгляд, проблему с нехваткой квалифицированных учителей нужно решать в первую очередь в школах - зарплаты и социальный престиж там минимальны, а детские умы - самые пластичные и нуждающиеся в грамотных преподавателях. Это фундамент для всего остального.

Участник:Boeing/Рецензия:Чего ждёт, и чего не ждёт бизнес от ИТ-образования

2021-11-16T20:54:28Z

Boeing: Новая страница: «[https://0x1.tv/%D0%A7%D0%B5%D0%B3%D0%BE_%D0%B6%D0%B4%D1%91%D1%82,_%D0%B8_%D1%87%D0%B5%D0%B3%D0%BE_%D0%BD%D0%B5_%D0%B6%D0%B4%D1%91%D1%82_%D0%B1%D0%B8%D0%B7%D0%BD%…»

[https://0x1.tv/%D0%A7%D0%B5%D0%B3%D0%BE_%D0%B6%D0%B4%D1%91%D1%82,_%D0%B8_%D1%87%D0%B5%D0%B3%D0%BE_%D0%BD%D0%B5_%D0%B6%D0%B4%D1%91%D1%82_%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81_%D0%BE%D1%82_%D0%98%D0%A2-%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_(%D0%98%D0%B2%D0%B0%D0%BD_%D0%9F%D0%B0%D0%BD%D1%87%D0%B5%D0%BD%D0%BA%D0%BE,_OSEDUCONF-2021)]

== Краткий отзыв на доклад "Чего ждёт, и чего не ждёт бизнес от ИТ-образования" (Иван Панченко, OSEDUCONF-2021) ==

Доклад посвящен взаимоотношениям между бизнесом как институтом, производящим ПО, и IT-образованием как институтом, подготавливающим кадры для бизнеса, в идеале - взаимовыгодным. Докладчик кратко суммаризует функции образования и IT-образования в частности (разделяя фундаментальное и прикладное образование). Сходим образом задачи разработки ПО докладчик подразделяет на фундаментальное (=системное) программирование и прикладное. Далее докладчик описывает, чего бизнес ждет от кадров (студентов, стажеров) и соответственно от образования: акцент делается на фундаментальном образовании и ориентированности на системное программирование. Не требуется поверхностной заточенности на прикладное программирование, производящее кустарных быдлокодеров (эх). Нужно изучать Open Source решения для более глубокого понимания механизмов работы. Приводится проблема преподавателей в вузах и их оттока в бизнес и за границу.

Здесь мне вспомнились мои школьные годы, когда выяснилось, что все поступающие на физтех школьники из каждого отдельно взятого города (кроме самых крупных) являются учениками отдельно взятых учителей-энтузиастов, подготавливающих их непосредственно к поступлению на физтех. Родителям нужно было заранее узнать об этих энтузиастах и сделать так, чтобы школьники попали в их группы. Я и сам являлся учеником подобной группы и участвовал в обучении следующих поколений. Ситуация и приятная, и печальная: с одной стороны, эти энтузиасты есть, но с другой - их буквально единицы. Поступить на физтех, занимаясь самостоятельно и учась в обыкновенном классе без каких-либо дополнительных внешкольных занятий, практически невозможно (на мой взгляд). Чтобы облегчить поступление по ЕГЭ (и по возможности вовсе избежать этой странной и неудобной системы экзаменов без шанса на ошибку), нужно было участвовать в олимпиадах физтеха (и не только). Эти олимпиады проводились и на выезде: но чтобы их провели, нужно было участие, опять же, этих энтузиастов-учителей. Когда некоторые олимпиады в моем городе по тем или иным причинам не проводили, нам с отцом приходилось выезжать в другой город, чтобы их написать. Конечно, в идеале, все эти события нужно проводить на базе школ - но школам не интересны результаты олимпиад, для них важны как раз показатели ЕГЭ, на которые они натаскивают учеников. Такая у них отчетность. Администрация школы не захотела участвовать в этой инициативе. Даже после того, как я получил право поступления без экзаменов, моя учительница математики продолжала давить на меня, чтобы я продолжал потеть и сдал ее экзамен как можно лучше. Я сдал его плохо, кстати. Будущее место учебы не должно определяться одной попыткой. Кстати, на данный момент кружок, в котором я занимался, закрыт - на него не осталось спроса.

Интересной и важной секцией доклада является секция "Что образование ждет от бизнеса". Докладчик отмечает, что необходима помощь от бизнеса в виде образовательных курсов, финансирование преподавания. Для бизнеса в целом это выгодно: но цена ляжет на те компании, которые возьмут инициативу первыми. В последнее время в этой области, на мой взгляд, наблюдается заметный прогресс: на физтехе, например, появилось большое количество кафедр IT-компаний, таких как Яндекс и Сбербанк с Тиньковым (там тоже уклон в IT) и многие другие, так что тут движение в нужном направлении, кажется, есть. Впрочем, не могу ничего сказать о качестве преподавания на этих кафедрах.

В секции вопросов из зала опять же отмечается излишняя заточка на ЕГЭ. Другой замечательный вопрос из зала отмечает разницу мотивации разработчиков Open Source (качество открытого кода, ассоциируемое с именем программиста) и разработчиков проприетарных программ (по мнению слушателя, корявый код и легкие деньги). Действительно, мотивации студентов (да и вообще, мотивации всех участников процесса в целом) нужно уделять большое внимание.

Мне очень понравился доклад - он затрагивает важные темы связи между бизнесом и образованием как двумя общественными институтами, участвующими в общем процессе. На мой взгляд, проблему с нехваткой квалифицированных учителей нужно решать в первую очередь в школах - зарплаты и социальный престиж там минимальны, а детские умы - самые пластичные и нуждающиеся в грамотных преподавателях. Это фундамент для всего остального.

Участник:Boeing/Рецензия:Использование Open Source-подходов при построении Государственных ИС

2021-11-16T16:51:43Z

Boeing:

[https://0x1.tv/%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_Open_Source-%D0%BF%D0%BE%D0%B4%D1%85%D0%BE%D0%B4%D0%BE%D0%B2_%D0%BF%D1%80%D0%B8_%D0%BF%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B8_%D0%93%D0%BE%D1%81%D1%83%D0%B4%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%98%D0%A1_(%D0%93%D1%80%D0%B8%D0%B3%D0%BE%D1%80%D0%B8%D0%B9_%D0%A8%D0%B0%D1%82%D1%80%D0%BE%D0%B2,_OSSDEVCONF-2021)]

== Краткий отзыва на доклад Использование Open Source-подходов при построении Государственных ИС (Григорий Шатров, OSSDEVCONF-2021) ==

Доклад посвящен созданию новой государственной открытой лицензии для упрощения разработки IT-систем по госзаказам. Приведены требования к лицензии и предполагаемые преимущества от ее введения (например: в текущих условиях отсутствия открытой государственной лицензии код новых продуктов приходится фактически разрабатывать с нуля. Часто заказчик получает систему в виде скомпилированного бинарника без возможности доработать ее каким-либо образом).

Сам доклад сделан максимально кратким, чтобы оставить время для обсуждения темы - и это было очень разумное решение, поскольку вопросы из зала действительно пролили свет на многочисленные нюансы этой темы. Например, внимание было обращено на двоякую проблему признания лицензии мировым сообществом: с одной стороны, использование государственной лицензии, не принятую официально в остальном мире, чревато сложностями для разработчиков в плане совместимости с другими лицензиями (необходимо двойное лицензирование - заказчики из госструктур на это идти не будут), однако новая лицензия не будет принята к рассмотрению до тех пор, пока не будет принята в стране. Получается определенная проблема курицы и яйца - вероятно, правильный подход здесь - попытаться продумать все подводные камни заранее, ввести лицензию и начать ее использовать в надежде на то, что ошибки не допущено и она будет принята. Также здесь был указан нюанс с тем, что всякие изменения в лицензии будут действовать только на будущие продукты и не повлияет на уже созданные под прошлую версию лицензии продукты (проблема обратной силы изменений в лицензии Apache) - с одной стороны, это снимает некоторую опасность изменения условий пост-фактум, а с другой - получается, что при изменении условий, например, для принятия в Open Source Initiative, уже готовые к тому моменту продукты выпадут из-под новой версии и не будут приняты в международных организациях. Многие тезисы требований к лицензии вызвали критику зала - есть опасность, что лицензия будет разработана за закрытыми дверями без достаточного диалога с компетентными специалистами в данной области и принесет больше вреда, чем пользы.

Таким образом, в обсуждении отмечается чрезвычайная важность грамотного составления условий лицензии - цена ошибки очень высока. Данный механизм необходимо сделать максимально прозрачным, и вопрос о его устройстве предлагают вынести в формат открытого консорциума специалистов. Таким образом, доклад проливает свет на инициативы cоздания открытой лицензии на государственном уровне, которая может иметь далекоидущие последствия (как положительные, так и отрицательные). Надеюсь, специалисты в этой области не пропустят это событие и эта проблема будет грамотно решена. Доклад краток и по существу, за ним следует интересное и плодотворное обсуждение.

Участник:Boeing/Рецензия:Использование Open Source-подходов при построении Государственных ИС

2021-11-16T16:48:45Z

Boeing: /* Краткий отзыва на доклад Использование Open Source-подходов при построении Государственных ИС (Григорий Шатров, OSSDEVCONF-2021) */

[https://0x1.tv/%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_Open_Source-%D0%BF%D0%BE%D0%B4%D1%85%D0%BE%D0%B4%D0%BE%D0%B2_%D0%BF%D1%80%D0%B8_%D0%BF%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B8_%D0%93%D0%BE%D1%81%D1%83%D0%B4%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%98%D0%A1_(%D0%93%D1%80%D0%B8%D0%B3%D0%BE%D1%80%D0%B8%D0%B9_%D0%A8%D0%B0%D1%82%D1%80%D0%BE%D0%B2,_OSSDEVCONF-2021)]

== Краткий отзыва на доклад Использование Open Source-подходов при построении Государственных ИС (Григорий Шатров, OSSDEVCONF-2021) ==

Доклад посвящен созданию новой государственной открытой лицензии для упрощения разработки IT-систем по госзаказам. Приведены требования к лицензии и предполагаемые преимущества от ее введения (например: в текущих условиях отсутствия открытой государственной лицензии код новых продуктов приходится фактически разрабатывать с нуля. Часто заказчик получает систему в виде скомпилированного бинарника без возможности доработать ее каким-либо образом).

Сам доклад сделан максимально кратким, чтобы оставить время для обсуждения темы - и это было очень разумное решение, поскольку вопросы из зала действительно пролили свет на многочисленные нюансы этой темы. Например, внимание было обращено на двоякую проблему признания лицензии мировым сообществом: с одной стороны, использование государственной лицензии, не принятую официально в остальном мире, чревато сложностями для разработчиков в плане совместимости с другими лицензиями (необходимо двойное лицензирование - заказчики из госструктур на это идти не будут), однако новая лицензия не будет принята к рассмотрению до тех пор, пока не будет принята в стране. Получается определенная проблема курицы и яйца - вероятно, правильный подход здесь - попытаться продумать все подводные камни заранее, ввести лицензию и начать ее использовать в надежде на то, что ошибки не допущено и она будет принята. Также здесь был указан нюанс с тем, что всякие изменения в лицензии будут действовать только на будущие продукты и не повлияет на уже созданные под прошлую версию лицензии продукты (проблема обратной силы изменений в лицензии Apache) - с одной стороны, это снимает некоторую опасность изменения условий пост-фактум, а с другой - получается, что при изменении условий, например, для принятия в Open Source Initiative, уже готовые к тому моменту продукты выпадут из-под новой версии и не будут приняты в международных организациях.

Таким образом, в обсуждении отмечается чрезвычайная важность грамотного составления условий лицензии - цена ошибки очень высока. Данный механизм необходимо сделать максимально прозрачным, и вопрос о его устройстве предлагают вынести в формат открытого консорциума специалистов. Таким образом, доклад проливает свет на инициативы cоздания открытой лицензии на государственном уровне, которая может иметь далекоидущие последствия (как положительные, так и отрицательные). Надеюсь, специалисты в этой области не пропустят это событие и эта проблема будет грамотно решена. Доклад краток и по существу, за ним следует интересное и плодотворное обсуждение.

Участник:Boeing/Рецензия:Использование Open Source-подходов при построении Государственных ИС

2021-11-16T16:47:24Z

Boeing: Новая страница: «[https://0x1.tv/%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_Open_Source-%D0%BF%D0%BE%D0%B4%D1%85%D0%BE%D0%B4%D0%BE%D0%B2_%D0%BF…»

[https://0x1.tv/%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_Open_Source-%D0%BF%D0%BE%D0%B4%D1%85%D0%BE%D0%B4%D0%BE%D0%B2_%D0%BF%D1%80%D0%B8_%D0%BF%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B8_%D0%93%D0%BE%D1%81%D1%83%D0%B4%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%98%D0%A1_(%D0%93%D1%80%D0%B8%D0%B3%D0%BE%D1%80%D0%B8%D0%B9_%D0%A8%D0%B0%D1%82%D1%80%D0%BE%D0%B2,_OSSDEVCONF-2021)]

== Краткий отзыва на доклад Использование Open Source-подходов при построении Государственных ИС (Григорий Шатров, OSSDEVCONF-2021) ==

Доклад посвящен созданию новой государственной открытой лицензии для упрощения разработки IT-систем по госзаказам. Приведены требования к лицензии и предполагаемые преимущества от ее введения (например: в текущих условиях отсутствия открытой государственной лицензии код новых продуктов приходится фактически разрабатывать с нуля. Часто заказчик получает систему в виде скомпилированного бинарника без возможности доработать ее каким-либо образом). Сам доклад сделан максимально кратким, чтобы оставить время для обсуждения темы - и это было очень разумное решение, поскольку вопросы из зала действительно пролили свет на многочисленные нюансы этой темы. Например, внимание было обращено на двоякую проблему признания лицензии мировым сообществом: с одной стороны, использование государственной лицензии, не принятую официально в остальном мире, чревато сложностями для разработчиков в плане совместимости с другими лицензиями (необходимо двойное лицензирование - заказчики из госструктур на это идти не будут), однако новая лицензия не будет принята к рассмотрению до тех пор, пока не будет принята в стране. Получается определенная проблема курицы и яйца - вероятно, правильный подход здесь - попытаться продумать все подводные камни заранее, ввести лицензию и начать ее использовать в надежде на то, что ошибки не допущено и она будет принята. Также здесь был указан нюанс с тем, что всякие изменения в лицензии будут действовать только на будущие продукты и не повлияет на уже созданные под прошлую версию лицензии продукты (проблема обратной силы изменений в лицензии Apache) - с одной стороны, это снимает некоторую опасность изменения условий пост-фактум, а с другой - получается, что при изменении условий, например, для принятия в Open Source Initiative, уже готовые к тому моменту продукты выпадут из-под новой версии и не будут приняты в международных организациях. В обсуждении отмечается чрезвычайная важность грамотного составления условий лицензии - цена ошибки очень высока. Данный механизм необходимо сделать максимально прозрачным, и вопрос о его устройстве предлагают вынести в формат открытого консорциума специалистов. Таким образом, доклад проливает свет на инициативы cоздания открытой лицензии на государственном уровне, которая может иметь далекоидущие последствия (как положительные, так и отрицательные). Надеюсь, специалисты в этой области не пропустят это событие и эта проблема будет грамотно решена. Доклад краток и по существу, за ним следует интересное и плодотворное обсуждение.

Участник:Boeing/Рецензия:open smartphones

2021-11-15T21:52:34Z

Boeing: /* Краткий отзыв на доклад Открытые смартфоны — прошлое, настоящее, будущее (Сергей Козьяков, OSSDEVCONF-2021) */

[https://0x1.tv/%D0%9E%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5_%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D1%8B_%E2%80%94_%D0%BF%D1%80%D0%BE%D1%88%D0%BB%D0%BE%D0%B5,_%D0%BD%D0%B0%D1%81%D1%82%D0%BE%D1%8F%D1%89%D0%B5%D0%B5,_%D0%B1%D1%83%D0%B4%D1%83%D1%89%D0%B5%D0%B5_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%9A%D0%BE%D0%B7%D1%8C%D1%8F%D0%BA%D0%BE%D0%B2,_OSSDEVCONF-2021)]

== Краткий отзыв на доклад Открытые смартфоны — прошлое, настоящее, будущее (Сергей Козьяков, OSSDEVCONF-2021) ==

Доклад посвящен обзору истории попыток создания открытого смартфона, приводятся основные требования к аппаратному и программному обеспечению. Приводится история и спеки немногочисленных устройств. Кажется, мой уровень понимания особенностей разработки ПО не позволяет мне в полной мере оценить преимущества открытых устройств, и данный доклад рассчитан на более высокий уровень подготовки слушателя. Я хотел бы услышать примеры того, как именно открытый код компонент позволяет использовать их наиболее эффективно. Мне показалось интересным, почему функционал автофокуса камеры и в открытых смартфонах требует проприетарного блоба - видимо, это связано с необходимостью разработки открытого модуля камеры. В части безопасности все напротив, интуитивно понятно. С одной стороны, текущие темпы развития закрытых смартфонов не оставляет проектам открытых смартфонов, находящимся в зачаточном состоянии, мало конкурентных шансов. С другой - именно сейчас закрытые смартфоны обладают наиболее вопиющими недостатками, благодаря которым юзеры могут захотеть перейти на открытое решение. Например, последние новшества у Apple и Samsung в части все меньших возможностей для ремонта в несертифицированных мастерских: например, замена дисплея отключает часть функционала смартфона. Впрочем, кажется, средний непростветленный юзер пока не готов пренебречь технологическими преимуществами ради открытого ПО и АО. Доклад хорошо структурирован, за ним было интересно следить. Конечно, надеюсь на рост этой части индустрии - корпорациям пора бы уже перестать борзеть.

Участник:Boeing/Рецензия:open smartphones

2021-11-15T21:48:07Z

Boeing: Новая страница: «[https://0x1.tv/%D0%9E%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5_%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D1%8B_%E2%80%94_%D0%BF%D1%80%D0%BE%D1%88%D0%BB%D…»

[https://0x1.tv/%D0%9E%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5_%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D1%8B_%E2%80%94_%D0%BF%D1%80%D0%BE%D1%88%D0%BB%D0%BE%D0%B5,_%D0%BD%D0%B0%D1%81%D1%82%D0%BE%D1%8F%D1%89%D0%B5%D0%B5,_%D0%B1%D1%83%D0%B4%D1%83%D1%89%D0%B5%D0%B5_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%9A%D0%BE%D0%B7%D1%8C%D1%8F%D0%BA%D0%BE%D0%B2,_OSSDEVCONF-2021)]

== Краткий отзыв на доклад Открытые смартфоны — прошлое, настоящее, будущее (Сергей Козьяков, OSSDEVCONF-2021) ==

Доклад посвящен обзору истории попыток создания открытого смартфона, приводятся основные требования к аппаратному и программному обеспечению. Приводится история и спеки немногочисленных устройств. Кажется, мой уровень понимания особенностей разработки ПО не позволяет мне в полной мере оценить преимущества открытых устройств, и данный доклад рассчитан на более высокий уровень подготовки слушателя. Я хотел бы услышать примеры того, как именно открытый код компонент позволяет использовать их наиболее эффективно. Мне показалось интересным, почему функционал автофокуса камеры и в открытых смартфонах требует проприетарного блоба - видимо, это связано с необходимостью разработки открытого модуля камеры. В части безопасности все напротив, интуитивно понятно. С одной стороны, текущие темпы развития закрытых смартфонов не оставляет проектам открытых смартфонов, находящимся в зачаточном состоянии, мало конкурентных шансов. С другой - именно сейчас закрытые смартфоны обладают наиболее вопиющими недостатками, благодаря которым юзеры могут захотеть перейти на открытое решение. Например, последние новшества у Apple и Samsung в части все меньших возможностей для ремонта в несертифицированных мастерских: например, замена дисплея отключает часть функционала смартфона. Впрочем, кажется, средний непростветленный юзер пока не готов пренебречь технологическими преимуществами ради открытого ПО и АО. Конечно, надеюсь на рост этой части индустрии - корпорациям пора бы уже перестать борзеть.

Участник:Boeing/Рецензия:Сравнение инструментов определения именованных сущностей на новостных статьях

2021-11-12T21:02:23Z

Boeing: /* Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019) */

[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%BD%D0%B0_%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D1%85_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D1%85_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D1%8B%D1%87%D0%B5%D0%B3%D0%B6%D0%B0%D0%BD%D0%B8%D0%BD,_ISPRASOPEN-2019)]

== Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019) ==

Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке. Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов - бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой - не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов - но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.

В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы - от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.

На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано - с глубокими языковыми моделями шутки плохи. Был произведен анализ ошибок - возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки - здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок - DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov. Понятно, что присутствует trade-off качества и скорости работы - кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.

Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.

Участник:Boeing/Рецензия:Сравнение инструментов определения именованных сущностей на новостных статьях

2021-11-12T21:01:49Z

Boeing: Новая страница: «[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80…»

[https://0x1.tv/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%BD%D0%B0_%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D1%85_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D1%85_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%92%D1%8B%D1%87%D0%B5%D0%B3%D0%B6%D0%B0%D0%BD%D0%B8%D0%BD,_ISPRASOPEN-2019)]

== Краткий отзыв на доклад Сравнение инструментов определения именованных сущностей на новостных статьях (Сергей Вычегжанин, ISPRASOPEN-2019) ==

Доклад представляет собой обзор существующих фреймворков для решения задачи Named Entity Recognition и сравнение результатов их работы на корпусах на русском и английском языке. Я бы хотел отметить удачный, на мой взгляд, выбор корпусов для сравнения: выбрано по два датасета для русского и английского языка, сильно различающиеся по размеру, количеству и распределению тэгов и по средней длине примера. При этом для английского языка один из датасетов - бенчмарковый CoNLL-2003, по которому репортят результаты каждой модели и предобучают модели, основанные на нейросетях; а другой - не столь широко известный, для контрпримера. Все датасеты при этом относятся к одному и тому же домену новостных статей. Таким образом, можно пронаблюдать поведение моделей в зависимости от различных признаков датасетов - но при этом в пределах одного домена, то есть, влияние домена сводится к минимуму.
В качестве моделей отобраны фреймворки со свободной лицензией, работающие с английским или русским языками, среди них как зарекомендовавшие себя старые решения, так и новоделы вроде физтешного DeepPavlov. Модели используют различные механизмы работы - от Conditional Random Field и принципа максимизации энтропии до различных нейронных сетей вплоть до глубокой языковой модели BERT.
На английских датасетах продемонстрировано, что если модель предобучалась на датасете (CoNLL), то она показывает в среднем на 25% лучшее качество на тестовой выборке того же датасета. При этом на незнакомых для нейро-моделей данных разница не столь велика. Здесь лучше всего показали себя DeepPavlov и Flair. На русском языке DeepPavlov просто пинал лежачих с огромным отрывом. Здесь интересно задаться вопросом, почему такой большой отрыв именно на русском? Не все модели умеют работать и с русским, и с английским языком, поэтому наборы оппонентов у DeepPavlov были разные, но в очередной раз продемонстировано - с глубокими языковыми моделями шутки плохи. Был произведен анализ ошибок - возникают несоответствия с границами экспертов; тэг обозначающий момент времени распознается хуже других. Также были приведены сравнения по времени обработки - здесь быстрее всех показала себя основанная на словарях GATE (она же получила худшее качество), на порядок медленнее отработали NLTK и Spacy, и еще на порядок - DeepPavlov. С другой стороны, близкий оппонент Flair отработал еще на порядок медленнее DeepPavlov. Понятно, что присутствует trade-off качества и скорости работы - кажется, в большинстве прикладных случаев сейчас оптимальны Spacy и NLTK. К сожаделию, Spacy умеет работать с русским языком только начиная с 3.6 питона, но это уже наши печали.
Доклад хорошо структурирован, произведен анализ ошибок, уделено внимание полезным мелочам, таким как статистики датасетов. Хоть доклад и прост по сути, он грамотно выполнен и полезен к ознакомлению.

Участник:Boeing/Рецензия:Бенчмаркинг коллекций научных журналов

2021-11-10T20:35:35Z

Boeing: /* Краткий отзыв на доклад Бенчмаркинг коллекций научных журналов (Федор Краснов, SECR-2019) */

[https://0x1.tv/%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%D0%BD%D0%B3_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9_%D0%BD%D0%B0%D1%83%D1%87%D0%BD%D1%8B%D1%85_%D0%B6%D1%83%D1%80%D0%BD%D0%B0%D0%BB%D0%BE%D0%B2_(%D0%A4%D0%B5%D0%B4%D0%BE%D1%80_%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B2,_SECR-2019)]

== Краткий отзыв на доклад Бенчмаркинг коллекций научных журналов (Федор Краснов, SECR-2019) ==

Доклад описывает опыт создания сервиса анализа текстов для решения конкретной бизнес проблемы. Доклад больше фокусируется именно на процессе разработки, чем на научной составляющей, что, на мой взгляд, ценно, поскольку докладов и статей именно на прикладном уровне сильно меньше, чем собственно научных статей. Авторы поставили перед собой задачу разработки системы тематического анализа коллекций статей для качественного и количественного сравнения между собой двух коллекций научных статей: одну - целевую - коллекцию статей индексируемого журнала, и вторую - коллекцию статей неиндексируемого журнала-заказчика с целью объяснить второму, что он делает не так. Видимо, все журналы публикуются на английском языке, то есть, мы находимся в одном языковом домене.

В качестве основы использовался подход Comparative Text Mining, при котором на сумме коллекций текста выполняется мягкая кластеризация - суть выделение тематик, а далее - еще одна кластеризация тематик между двумя коллекциями. Для мягкой кластеризации была подобрана специфическая тематическая модель, которая хорошо показала себя на абстрактах статей (длина текста здесь существенна для результатов тематического моделирования). В результирующих токенах-тематиках была проведена фильтрация по частям речи - оставлены только существительные.

Автор отмечает, что в сервисе использовались исключительно готовые фреймворки, и необходимым навыком программистов здесь являлось умение подобрать нужный фреймворк (например, было перепробовано порядка 50 тематических моделей), а не изобретать велосипед. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям. Была сделана ремарка касательно непригодности студентов для работы над подобными проектами - в этой части самолюбие несколько задето, но согласен - нужно действительно уметь делать конкретные вещи. В команде присутствовали специалисты различных областей (например, врач), что было необходимо для правильной интерпретации результатов системы. Сбор данных с помощью автоматических краулеров описан как несложная задача, в отличие от подбора гиперпараметров - здесь авторы нашли какое-то элегантное решение на основе минимизации энтропии (оставлен за рамками доклада, описан в статье). Отмечается что добавление даже одного нового гиперпараметра в систему приводит к необходимости подвергнуть переоценке уже найденные оптимальные значения всех прочих гиперпараметров. Наверное, полезно заранее продумать структуру пространства гиперпараметров, чтобы по возможности не решать эту проблему по много раз (неградиентная оптимизация гиперпараметров требует много вычислительного времени).

В целом доклад хорошо структурирован, содержит полезные советы и соображения касательно приложения научных результатов к реальному миру для решения бизнес-задач и заставил меня задуматься о том, что хорошо бы и мне научиться делать что-то реальное. Но наверное, это уже после диплома :)

Участник:Boeing/Рецензия:Бенчмаркинг коллекций научных журналов

2021-11-10T20:34:56Z

Boeing: /* Краткий отзыв на доклад Бенчмаркинг коллекций научных журналов (Федор Краснов, SECR-2019) */

[https://0x1.tv/%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%D0%BD%D0%B3_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9_%D0%BD%D0%B0%D1%83%D1%87%D0%BD%D1%8B%D1%85_%D0%B6%D1%83%D1%80%D0%BD%D0%B0%D0%BB%D0%BE%D0%B2_(%D0%A4%D0%B5%D0%B4%D0%BE%D1%80_%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B2,_SECR-2019)]

== Краткий отзыв на доклад Бенчмаркинг коллекций научных журналов (Федор Краснов, SECR-2019) ==

Доклад описывает опыт создания сервиса анализа текстов для решения конкретной бизнес проблемы. Доклад больше фокусируется именно на процессе разработки, чем на научной составляющей, что, на мой взгляд, ценно, поскольку докладов и статей именно на прикладном уровне сильно меньше, чем собственно научных статей. Авторы поставили перед собой задачу разработки системы тематического анализа коллекций статей для качественного и количественного сравнения между собой двух коллекций научных статей: одну - целевую - коллекцию статей индексируемого журнала, и вторую - коллекцию статей неиндексируемого журнала-заказчика с целью объяснить второму, что он делает не так. Видимо, все журналы публикуются на английском языке, то есть, мы находимся в одном языковом домене.

В качестве основы использовался подход Comparative Text Mining, при котором на сумме коллекций текста выполняется мягкая кластеризация - суть выделение тематик, а далее - еще одна кластеризация тематик между двумя коллекциями. Для мягкой кластеризации была подобрана специфическая тематическая модель, которая хорошо показала себя на абстрактах статей (длина текста здесь существенна для результатов тематического моделирования). В результирующих токенах-тематиках была проведена фильтрация по частям речи - оставлены только существительные.

Автор отмечает, что в сервисе использовались исключительно готовые фреймворки, и необходимым навыком программистов здесь являлось умение подобрать нужный фреймворк (например, было перепробовано порядка 50 тематических моделей), а не изобретать велосипед. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям. Была сделана ремарка касательно непригодности студентов для работы над подобными проектами - в этой части самолюбие несколько задето, но согласен - нужно действительно уметь делать конкретные вещи. В команде присутствовали специалисты различных областей (например, врач), что было необходимо для правильной интерпретации результатов системы. Сбор данных с помощью автоматических краулеров описан как несложная задача, в отличие от подбора гиперпараметров - здесь авторы нашли какое-то элегантное решение на основе минимизации энтропии. Отмечается что добавление даже одного нового гиперпараметра в систему приводит к необходимости подвергнуть переоценке уже найденные оптимальные значения всех прочих гиперпараметров. Наверное, полезно заранее продумать структуру пространства гиперпараметров, чтобы по возможности не решать эту проблему по много раз (неградиентная оптимизация гиперпараметров требует много вычислительного времени).

В целом доклад хорошо структурирован, содержит полезные советы и соображения касательно приложения научных результатов к реальному миру для решения бизнес-задач и заставил меня задуматься о том, что хорошо бы и мне научиться делать что-то реальное. Но наверное, это уже после диплома :)

Участник:Boeing/Рецензия:Бенчмаркинг коллекций научных журналов

2021-11-10T20:32:42Z

Boeing: Новая страница: «[https://0x1.tv/%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%D0%BD%D0%B3_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9_%D0%BD%D0%B0%D1%83%D1%87…»

[https://0x1.tv/%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%D0%BD%D0%B3_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9_%D0%BD%D0%B0%D1%83%D1%87%D0%BD%D1%8B%D1%85_%D0%B6%D1%83%D1%80%D0%BD%D0%B0%D0%BB%D0%BE%D0%B2_(%D0%A4%D0%B5%D0%B4%D0%BE%D1%80_%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B2,_SECR-2019)]

== Краткий отзыв на доклад Бенчмаркинг коллекций научных журналов (Федор Краснов, SECR-2019) ==

Доклад описывает опыт создания сервиса анализа текстов для решения конкретной бизнес проблемы. Доклад больше фокусируется именно на процессе разработки, чем на научной составляющей, что, на мой взгляд, ценно, поскольку докладов и статей именно на прикладном уровне сильно меньше, чем собственно научных статей. Авторы поставили перед собой задачу разработки системы тематического анализа коллекций статей для качественного и количественного сравнения между собой двух коллекций научных статей: одну - целевую - коллекцию статей индексируемого журнала, и вторую - коллекцию статей неиндексируемого журнала-заказчика с целью объяснить второму, что он делает не так. Видимо, все журналы публикуются на английском языке, то есть, мы находимся в одном языковом домене.

В качестве основы использовался подход Comparative Text Mining, при котором на сумме коллекций текста выполняется мягкая кластеризация - суть выделение тематик, а далее - еще одна кластеризация тематик между двумя коллекциями. Для мягкой кластеризации была подобрана специфическая тематическая модель, которая хорошо показала себя на абстрактах статей (длина текста здесь существенна для результатов тематического моделирования). В результирующих токенах-тематиках была проведена фильтрация по частям речи - оставлены только существительные.

Автор отмечает, что в сервисе использовались исключительно готовые фреймворки, и необходимым навыком программистов здесь являлось умение подобрать нужный фреймворк (например, было перепробовано порядка 50 тематических моделей), а не изобретать велосипед. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям. Была сделана ремарка касательно непригодности студентов для работы над подобными проектами - в этой части самолюбие несколько задето, но согласен - нужно действительно уметь делать конкретные вещи. В команде присутствовали специалисты различных областей (например, врач), что было чрезвычайно полезно для интерпретации результатов системы. Сбор данных с помощью автоматических краулеров описан как несложная задача, в отличие от подбора гиперпараметров - здесь авторы нашли какое-то элегантное решение на основе минимизации энтропии. Отмечается что добавление даже одного нового гиперпараметра в систему приводит к необходимости подвергнуть переоценке уже найденные оптимальные значения всех прочих гиперпараметров. Наверное, полезно заранее продумать структуру пространства гиперпараметров, чтобы по возможности не решать эту проблему по много раз (неградиентная оптимизация гиперпараметров требует много вычислительного времени).

В целом доклад хорошо структурирован, содержит полезные советы и соображения касательно приложения научных результатов к реальному миру для решения бизнес-задач и заставил меня задуматься о том, что хорошо бы и мне научиться делать что-то реальное. Но наверное, это уже после диплома :)

Участник:Boeing/Рецензия:Data Science. The art of «foul play»

2021-11-07T17:46:24Z

Boeing: Новая страница: «[https://0x1.tv/Data_Science._The_art_of_%C2%ABfoul_play%C2%BB_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%A8%D0%B5%D0%BB%D0%BF%D1%83%D0%BA,_OSDN-UA-2013)] == От…»

[https://0x1.tv/Data_Science._The_art_of_%C2%ABfoul_play%C2%BB_(%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%A8%D0%B5%D0%BB%D0%BF%D1%83%D0%BA,_OSDN-UA-2013)]

== Отзыв: Data Science. The art of «foul play» (Сергей Шелпук, OSDN-UA-2013) ==

Доклад представляет собой популярное общее введение в data science для людей, не имеющим о нем представления. Структура и стиль презентации напоминает TED talk - доклад содержит занимательные примеры и интересные следствия применения data science в различных сферах жизни (в спорте, в походе в супермаркет, в браузинге в инернете). На момент 2013 года, когда доклад имел место, эта дисциплина действительно только начинала становиться общеизвестной, и поэтому из 2021 года приятно посмотреть в ретроспективе на то, как всё начиналось. В докладе приводятся оптимистичные заголовки изданий газет и журналов, прочащие большое будущее специалистам в сфере data science (нельзя сказать, что они не оправдались), демонстируется гибкость методов data science в применении к самым разным бизнес задачам в различных доменах. Приводятся требования к знаниям специалистов в трех группах: на уровне бизнеса, на уровне логики и на технологическим уровне. Я бы сказал, что на данный момент эти базовые требования не претерпели значительных изменений - только в частности и на уровне технологий. Произносятся самые общие и понятные слова о глубоких нейронных сетях. Приводятся ссылки на образовательные платформы с онлайн курсами (тоже всё еще совершенно актуальны). В целом, доклад хорошо структурирован, понятен для самой широкой аудитории, интересен для просмотра и представляет собой приятное раннее свидетельство взрыва дисциплины data science в предстоящее десятилетие.

Участник:Boeing/Рецензия:Применение i-векторов для автоматизированного определения уровня близости языков

2021-11-07T16:46:20Z

Boeing: /* Отзыв: Применение i-векторов для автоматизированного определения уровня близости языков (Анс-Атаол Берзинь, ISPRASOPEN-2019) */

[https://0x1.tv/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_i-%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D1%8F_%D0%B1%D0%BB%D0%B8%D0%B7%D0%BE%D1%81%D1%82%D0%B8_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2_(%D0%90%D0%BD%D1%81-%D0%90%D1%82%D0%B0%D0%BE%D0%BB_%D0%91%D0%B5%D1%80%D0%B7%D0%B8%D0%BD%D1%8C,_ISPRASOPEN-2019)]

== Отзыв: Применение i-векторов для автоматизированного определения уровня близости языков (Анс-Атаол Берзинь, ISPRASOPEN-2019) ==

Доклад рассматривает применение i-векторов для определения близости языков для данных в виде аудиозаписей речи носителей языка. Автор собрал датасет записей пяти диалектов Латвии с целью проверить, насколько близость между i-векторами для этих диалектов отразит их "интуитивную" близость. Здесь встаёт вопрос о том, в каком именно смысле понимается здесь близость между языками/диалектами, и автор при ответе на этот вопрос после доклада сообщает, что имеет бэкграунд в диалектологии и для него похожесть или непохожесть диалектов является тривиальным свойством. Также была проведена экспертная оценка диалектов датасета и построено бинарное дерево близости, затем автор сравнил расстояние на этом дереве со своими результатами, полученными автоматически - но эта информация не вошла в доклад и была сообщена лишь как ответ на вопрос, тогда как именно это сравнение, на мой взгляд, и является ключевым результатом исследования. Также при анализе результатов работы использовалось предположение о тем большем различии диалектов, чем дальше друг от друга географически живут их носители - интуитивно понятно, но не слишком строго с точки зрения среднего слушателя-не диалектолога. Сами по себе i-векторы, получаемые из аудиозаписей с естественной речью, были очень кратко объяснены как концепт и им, на мой взгляд, было уделено недостаточное внимание в контексте доклада (для слушателей, ранее не знакомых с этим понятием). Автор строит i-векторы для 5 диалектов с помощью двух автоматических техник построения i-векторов, принципу работы которых также было уделено мало времени. Далее автор производит сравнение таблиц попарных расстояний между диалектами в различных метриках и оценивает осмысленность результатов по сравнению со своими представлении о правильных результатах, что, как указано выше, недостаточно строго. В целом, доклад недостаточно хорошо структурирован (мало внимания ключевым методам), а его результаты не обоснованы (результаты сравнения выхода автоматических методов с экспертными оценками не были приведены).

Участник:Boeing/Рецензия:Применение i-векторов для автоматизированного определения уровня близости языков

2021-11-07T16:42:49Z

[https://0x1.tv/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_i-%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D1%8F_%D0%B1%D0%BB%D0%B8%D0%B7%D0%BE%D1%81%D1%82%D0%B8_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2_(%D0%90%D0%BD%D1%81-%D0%90%D1%82%D0%B0%D0%BE%D0%BB_%D0%91%D0%B5%D1%80%D0%B7%D0%B8%D0%BD%D1%8C,_ISPRASOPEN-2019)]

== Отзыв: Применение i-векторов для автоматизированного определения уровня близости языков (Анс-Атаол Берзинь, ISPRASOPEN-2019) ==

Доклад рассматривает применение i-векторов для определения близости языков для данных в виде аудиозаписей речи носителей языка. Автор собрал датасет записей пяти диалектов Латвии с целью проверить, насколько близость между i-векторами для этих диалектов отразит их "интуитивную" близость. Здесь встаёт вопрос о том, в каком именно смысле понимается здесь близость между языками/диалектами, и автор при ответе на этот вопрос после доклада сообщает, что имеет бэкграунд в диалектологии и для него похожесть или непохожесть диалектов является тривиальным свойством. Также была проведена экспертная оценка диалектов датасета и построено бинарное дерево близости, затем автор сравнил расстояние на этом дереве со своими результатами, полученными автоматически - но эта информация не вошла в доклад и была сообщена лишь как ответ на вопрос, тогда как именно это сравнение, на мой взгляд, и является ключевым результатом исследования. Также при анализе результатов работы использовалось предположение о тем большем различии диалектов, чем дальше друг от друга географически живут их носители - интуитивно понятно, но не слишком строго с точки зрения среднего слушателя-не диалектолога. Сами по себе i-векторы, получаемые из аудиозаписей с естественной речью, были очень кратко объяснены как концепт и им, на мой взгляд, было уделено недостаточное внимание в контексте доклада (для слушателей, ранее не знакомых с этим понятием). Автор строит i-векторы для 5 диалектов с помощью двух автоматических техник построения i-векторов, принципу работы которых также было уделено мало времени. Далее автор производит сравнение таблиц попарных расстояний между диалектами в различных метриках и оценивает осмысленность результатов по сравнению со своими представлении о правильных результатах, что, как указано выше, недостаточно строго. В целом, доклад недостаточно хорошо структурирован (мало внимания ключевым методам), а его результаты не обоснованы (сравнение с экспертными оценками не были приведены).

Участник:Boeing/Рецензия:Применение i-векторов для автоматизированного определения уровня близости языков

2021-11-07T16:42:06Z

[https://0x1.tv/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_i-%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D1%8F_%D0%B1%D0%BB%D0%B8%D0%B7%D0%BE%D1%81%D1%82%D0%B8_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2_(%D0%90%D0%BD%D1%81-%D0%90%D1%82%D0%B0%D0%BE%D0%BB_%D0%91%D0%B5%D1%80%D0%B7%D0%B8%D0%BD%D1%8C,_ISPRASOPEN-2019)]

== Отзыв: Применение i-векторов для автоматизированного определения уровня близости языков (Анс-Атаол Берзинь, ISPRASOPEN-2019) ==

Доклад рассматривает применение i-векторов для определения близости языков для данных в виде аудиозаписей речи носителей языка. Автор собрал датасет записей пяти диалектов Латвии с целью проверить, насколько близость между i-векторами для этих диалектов отразит их "интуитивную" близость. Здесь встаёт вопрос о том, в каком именно смысле понимается здесь близость между языками/диалектами, и автор при ответе на этот вопрос после доклада сообщает, что имеет бэкграунд в диалектологии и для него похожесть или непохожесть диалектов является тривиальным свойством. Также была проведена экспертная оценка диалектов датасета и построено бинарное дерево близости, затем автор сравнил расстояние на этом дереве со своими результатами, полученными автоматически - но эта информация не вошла в доклад и была сообщена лишь как ответ на вопрос, тогда как именно это сравнение, на мой взгляд, и является ключевым результатом исследования. Также при анализе результатов работы использовалось предположение о тем большем различии диалектов, чем дальше друг от друга географически живут их носители - интуитивно понятно, но не слишком строго с точки зрения среднего слушателя-не диалектолога. Сами по себе i-векторы, получаемые из аудиозаписей с естественной речью, были очень кратко объяснены как концепт и им, на мой взгляд, было уделено недостаточное внимание в контексте доклада (для слушателей, ранее не знакомых с этим понятием). Автор строит i-векторы для 5 диалектов с помощью двух автоматических техник построения i-векторов, принципу работы которых также было уделено мало времени. Далее автор производит сравнение таблиц попарных расстояний между диалектами в различных метриках и оценивает осмысленность результатов по сравнению со своими представлении о правильных результатах, что, как указано выше, недостаточно строго. В целом, доклад недостаточно хорошо структурирован (мало внимания ключевым методам), а его результаты не обоснованы (сравнение и экспертными оценками не были приведены).

Участник:Boeing/Рецензия:Применение i-векторов для автоматизированного определения уровня близости языков

2021-11-07T16:41:12Z

Boeing: Новая страница: «[https://0x1.tv/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_i-%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D0%B0%D0%B2%D1…»

[https://0x1.tv/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_i-%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D1%8F_%D0%B1%D0%BB%D0%B8%D0%B7%D0%BE%D1%81%D1%82%D0%B8_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2_(%D0%90%D0%BD%D1%81-%D0%90%D1%82%D0%B0%D0%BE%D0%BB_%D0%91%D0%B5%D1%80%D0%B7%D0%B8%D0%BD%D1%8C,_ISPRASOPEN-2019)]

== Отзыв: Применение i-векторов для автоматизированного определения уровня близости языков (Анс-Атаол Берзинь, ISPRASOPEN-2019) ==

Доклад рассматривает применение i-векторов для определения близости языков для данных в виде аудиозаписей речи носителей языка. Автор собрал датасет записей пяти диалектов Латвии с целью проверить, насколько близость между i-векторами для этих диалектов отразит их "интуитивную" близость. Здесь встаёт вопрос о том, в каком именно смысле понимается здесь близость между языками/диалектами, и автор при ответе на этот вопрос после доклада сообщает, что имеет бэкграунд в диалектологии и для него похожесть или непохожесть диалектов является тривиальным свойством. Также была проведена экспертная оценка диалектов датасета и построено бинарное дерево близости, затем автор сравнил расстояние на этом дереве со своими результатами, полученными автоматически - но эта информация не вошла в доклад и была сообщена лишь как ответ на вопрос, тогда как именно это сравнение, на мой взгляд, и является ключевым результатом исследования. Также при анализе результатов работы использовалось предположение о тем большем различии диалектов, чем дальше друг от друга географически живут их носители - интуитивно понятно, но не слишком строго с точки зрения среднего слушателя-не диалектолога. Сами по себе i-векторы, получаемые из аудиозаписей с естественной речью, были очень кратко объяснены как концепт и им, на мой взгляд, было уделено недостаточное внимание в контексте доклада (для слушателей, ранее не знакомых с этим понятием). Автор строит i-векторы для 5 диалектов с помощью двух автоматических техник построения i-векторов, принципу работы которых также было уделено мало времени. Далее автор производит сравнение таблиц попарных расстояний между диалектами в различных метриках и оценивает осмысленность результатов по сравнению со своими представлении о правильных результатах, что как указано выше, недостаточно строго. В целом, доклад недостаточно хорошо структурирован (мало внимания ключевым методам), а его результаты не обоснованы (сравнение и экспертными оценками не были приведены).

Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов

2021-11-04T22:01:10Z

Boeing: /* Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в про…

[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BD%D0%B0_%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%BE%D0%BC_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B5_%D0%B4%D0%BB%D1%8F_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%BF%D1%80%D0%BE%D0%BC%D1%8B%D1%88%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%85_(%D0%95%D0%BA%D0%B0%D1%82%D0%B5%D1%80%D0%B8%D0%BD%D0%B0_%D0%9F%D0%BE%D0%BB%D0%B8%D1%86%D1%8B%D0%BD%D0%B0,_SECR-2018)]

== Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в промышленных системах (Екатерина Полицына, SECR-2018) ==

Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.

Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Также мне было интересно узнать, что на самом деле морфологических характеристик 97. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.

Участник:Boeing/Рецензия:Разработка кроссплатформенной библиотеки морфологического анализа текстов

2021-11-04T21:58:35Z

Boeing: Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%…»

[https://0x1.tv/%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BD%D0%B0_%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%BE%D0%BC_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B5_%D0%B4%D0%BB%D1%8F_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%BF%D1%80%D0%BE%D0%BC%D1%8B%D1%88%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%85_(%D0%95%D0%BA%D0%B0%D1%82%D0%B5%D1%80%D0%B8%D0%BD%D0%B0_%D0%9F%D0%BE%D0%BB%D0%B8%D1%86%D1%8B%D0%BD%D0%B0,_SECR-2018)]

== Краткая рецензия: Разработка кроссплатформенной библиотеки морфологического анализа текстов на русском языке для использования в промышленных системах (Екатерина Полицына, SECR-2018) ==

Доклад описывает контексты применения решений для морфологического анализа текстов и приводит опыт разработки оптимизированной по производительности системы для морфологического анализа.

Первая половина доклада представляет собой информативный и основательный обзор существующих на данный момент решений для морфологического анализа (например, узнал что у Lucene есть своя морфология). Упоминается А.А. Зализняк и его вклад в виде морфологического словаря на 100 тысяч слов - это порадовало, нужно помнить пионеров. Словарь Зализняка и его производные и сейчас используются в основе морфологических систем. Был задан вопрос касательно того, не делают ли глубокие языковые системы безнадежно устаревшими эти методы, - докладчица ответила, что не делают - например, они используются на этапе векторизации текста. Были приведены требования к пригодной для использования в промышленных системах библиотеки (кроссплатформенность, гибкость, производительность и поддержка нескольких ключевых операций над словами). Большая часть существующих решений не подходит под эти критерии полностью. Lucene подходит по многим показателям, но не умеет ставить слова в заданную морфологическую форму. Lucene использовалась как baseline для сравнения с библиотекой авторов доклада. Авторы использовали словарь OpenCorpora, содержащий уже 5 миллионов слов и их форм. Далее авторы приводят интересные оптимизации (словарь изначально находится в xml, человекочитаемый, но неоптимальный формат) - хитрое кодирование вхождений в словарь битовыми последовательностями, поиск вхождений по хэшам CityHash64. Произведено сравнение с Lucene, показан выигрыш в производительности. Все необходимые методы были реализованы. Приятный и информативный доклад.

Участник:Boeing/Рецензия:Методы кросс-языкового поиска документов

2021-11-01T21:34:40Z

Boeing: Новая страница: «[https://0x1.tv/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BA%D1%80%D0%BE%D1%81%D1%81-%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D0%B8%D1%8…»

[https://0x1.tv/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BA%D1%80%D0%BE%D1%81%D1%81-%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B0_%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_(%D0%94%D0%B5%D0%BD%D0%B8%D1%81_%D0%97%D1%83%D0%B1%D0%B0%D1%80%D0%B5%D0%B2,_ISPRASOPEN-2019)]

== Краткая рецензия: Методы кросс-языкового поиска документов (Денис Зубарев, ISPRASOPEN-2019) ==

В статье рассматривается задача кросс-языкового поиска в контексте задачи поиска плагиата (например, заимствования текста из англоязычных статей). Исследуется возможность применения кросс-языковых эмбеддингов в сравнении со стандартными методами решения задачи без использования эмбеддингов.

Для обучения эмбеддингов использовались параллельные предложения на английском и русском. Тексты препроцессировались следующим образом: токенизация/лемматизация, потом выбрасывались наиболее частотные токены, не несущие особого семантического смысла. Мне показался наиболее интересным следующий шаг: по результатам семантического анализа группы токенов до 4 объединялись в одну сущность, если представляли собой именные группы с модификаторами-существительными и прилагательными (чтобы не переводить по отдельности токены из, например, "Организации Объединенных Наций"). Мне интересно, каким образом эти группы были получены - видимо, составлялись грамматики на семантических аттрибутах слов? Но ведь русский язык очень сложный? Имеют ли именные группы отношение к именованным сущностям? Далее именная группа трактовалась как отдельное "слово" - ей присваивался свой эмбеддинг. Также из именной группы удалялись токены по одному, и оставшемуся набору токенов тоже присваивался свой эмбеддинг. Размер датасета для обучения составил более чем солидные 10 миллионов предложений, размер словаря был выбран равным 680 токенам/фразам. Сами эмбеддинги обучались двумя способами: word2vec на предложениях, где английские и русские слова были перемешаны и шли по очереди (интересный подход - а что, если порядок слов не совпадает?), а также был использован метод, переводящий обычные моноязычные эмбеддинги в общее пространство линейной трансформацией с использованием учителя, а именно словаря. Не уточняется, какие именно моноязычные эмбеддинги, но из контекста кажется, что тоже word2veс, обученный на этих текстах.

Далее для решения задачи были использованы стандартные методы для поиска документов на основе эмбеддингов. Видимо, имеется в виду, что эти методы применяются обычно в моноязычном пространстве эмбеддингов для поиска на том же языке, но здесь мы применяем их уже для двух разных языков. Это понятно, но все же хотелось бы, чтобы докладчик больше акцентировал на этом внимание. В числе методов обратный индекс, и аппроксимированный kNN. В качестве конкурента использовался метод без использования эмбеддингов - здесь вычислялась косинусная близость документов с 800 параллельными статьями на Википедии (тут хотелось бы уточнить, как представлялись документы для вычисления близости - tf-idf или же моноязыковые эмбеддинги?). В качестве датасета также использовались параллельные статьи в википедии на русском и английском.

Лучше других показал себя метод обратного индекса на эмбеддингах наибольшей из полученных размерностей, побив все другие методы на всех метриках. Подход беэ эмбеддингов сработал намного хуже, но показал сравнимую полноту. Эмбеддинги, построенные в двуязычном подходе, сработали лучше эмбеддингов, полученных линейной трансформацией. Также авторы исследовали зависимость качества работы алгоритма от того, являются ли пары запрос/ответ сопоставимыми по размеру. Отмечается, что использование именных групп дало лишь малый прирост в качестве. При использовании несравнимых по размеру примеров качество уменьшалось, авторы приводят возможную причину - алгоритм обратного индекса не масштабирует документ запроса относительно ответа.

В целом, как всегда, мне хотелось бы видеть описанные методы в паре с глубокими языковыми моделями. Идея с word2vec на перемешанных токенах из разных языков показалась мне интересной, также заинтересовали именные группы с шага препроцессинга, хотя я и не понял деталей. Буду разбираться. Доклад хорошо структурирован и интересно представлен.

Участник:Boeing/Рецензия:Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке

2021-10-27T22:29:18Z

Boeing: /* Краткая рецензия: PioNER — Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке (Цолак Гукасян, ISPRASOPEN-…

[https://0x1.tv/PioNER_%E2%80%94_%D0%9D%D0%B0%D0%B1%D0%BE%D1%80%D1%8B_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%B8_%D0%B1%D0%B0%D0%B7%D0%BE%D0%B2%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B4%D0%BB%D1%8F_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%B2_%D0%B0%D1%80%D0%BC%D1%8F%D0%BD%D1%81%D0%BA%D0%BE%D0%BC_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B5_(%D0%A6%D0%BE%D0%BB%D0%B0%D0%BA_%D0%93%D1%83%D0%BA%D0%B0%D1%81%D1%8F%D0%BD,_ISPRASOPEN-2018)]

== Краткая рецензия: PioNER — Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке (Цолак Гукасян, ISPRASOPEN-2018) ==

Доклад рассказывает о создании датасета для задачи извлечения именованных сущностей (NER) для армянского языка и построение бейзлайна для этой задачи. Перед исследователями стояла интересная задача: для армянского языка датасет для NER отсутствовал. Авторы применили метод автоматической генерации датасета (Nothman) на основе статей армянской википедии. Алгоритм переходит по ссылкам между статьями и по типу статей, на которые делаются ссылки, определяет, является ли подсвеченное слово именованной сущностью или нет. Также авторы вручную разметили порядка 250 новостных статей различных тематик, получив датасет, сравнимый по своим характеристикам с CoNNL-03 и другими датасетами. Здесь интересно, не требуется ли для составления такого датасета участие специалистов в области лингвистики. Видимо, не требуется - в статье про CoNNL-03 [https://arxiv.org/pdf/cs/0306050v1.pdf] ничего не говорится о том, кто именно размечал датасет. Наверное, тут важнее всего внимательность эксперта. Еще авторы обучили модель векторизации текстов GloVe для построения бейзлайна на корпусе 80 млн токенов из википедии, советской энциклопедии, текстов новостей и записей блогов, были получены наборы эмбеддингов разных размеров, размер словаря 400к слов. На основе этих векторов были построены несколько бейзлайнов. Здесь можно придраться что не были использованы глубокие трансформерные языковые модели, но авторы и не стремились получить state-of-the-art, - задача стояла в построении бейзлайна. С другой стороны, этот бейзлайн по определению и являлся sota на этой задаче :) Авторы заложили фундамент для улучшения результатов решения задачи. Был проведен анализ ошибок трех бейзлайнов (лучше всего справилась biLSTM+CRF с дополнительными признаками из biLSTM уровня символов - нетривиальный выбор для бейзлайна, надо сказать), результат - несовершенство построенного на основе Википедии датасета, а именно, отсутствующие/лишние именованные сущности. Точность для организаций оказалась невысока. Авторы упомянули о другой возможности для автоматической генерации датасета - алгоритме WINER, в разделе future work.

Мне показалось немного странным, что для трех задач ~генерации датасетов использовались три разных набора данных - например, для эмбеддингов использовались (в том числе) записи блогов, но такого рода неформальные тексты не использовались в вручную размеченном датасете. Почему так? Подумал об этом потому, что по моему опыту, качество работы NER сильно зависит от форматирования текста (например, сущность местоположения сильно опирается на заглавную букву), которое в реальном применении не всегда соответствует ожидаемому. Кажется, что в постах блогов больше вероятность что какие-то сущности будут в ловеркейсе, что при использовании таких текстов в золотом датасете позволило бы обучить лучшие модели. Напротив, в золотом датасете были использованы формальные тексты, где форматирование скорее всего тривиальное.

Участник:Boeing/Рецензия:Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке

2021-10-27T22:28:40Z

Boeing: Новая страница: «== Краткая рецензия: PioNER — Наборы данных и базовые методы для распознавания именованных…»

== Краткая рецензия: PioNER — Наборы данных и базовые методы для распознавания именованных сущностей в армянском языке (Цолак Гукасян, ISPRASOPEN-2018) ==

Доклад рассказывает о создании датасета для задачи извлечения именованных сущностей (NER) для армянского языка и построение бейзлайна для этой задачи. Перед исследователями стояла интересная задача: для армянского языка датасет для NER отсутствовал. Авторы применили метод автоматической генерации датасета (Nothman) на основе статей армянской википедии. Алгоритм переходит по ссылкам между статьями и по типу статей, на которые делаются ссылки, определяет, является ли подсвеченное слово именованной сущностью или нет. Также авторы вручную разметили порядка 250 новостных статей различных тематик, получив датасет, сравнимый по своим характеристикам с CoNNL-03 и другими датасетами. Здесь интересно, не требуется ли для составления такого датасета участие специалистов в области лингвистики. Видимо, не требуется - в статье про CoNNL-03 [https://arxiv.org/pdf/cs/0306050v1.pdf] ничего не говорится о том, кто именно размечал датасет. Наверное, тут важнее всего внимательность эксперта. Еще авторы обучили модель векторизации текстов GloVe для построения бейзлайна на корпусе 80 млн токенов из википедии, советской энциклопедии, текстов новостей и записей блогов, были получены наборы эмбеддингов разных размеров, размер словаря 400к слов. На основе этих векторов были построены несколько бейзлайнов. Здесь можно придраться что не были использованы глубокие трансформерные языковые модели, но авторы и не стремились получить state-of-the-art, - задача стояла в построении бейзлайна. С другой стороны, этот бейзлайн по определению и являлся sota на этой задаче :) Авторы заложили фундамент для улучшения результатов решения задачи. Был проведен анализ ошибок трех бейзлайнов (лучше всего справилась biLSTM+CRF с дополнительными признаками из biLSTM уровня символов - нетривиальный выбор для бейзлайна, надо сказать), результат - несовершенство построенного на основе Википедии датасета, а именно, отсутствующие/лишние именованные сущности. Точность для организаций оказалась невысока. Авторы упомянули о другой возможности для автоматической генерации датасета - алгоритме WINER, в разделе future work.

Мне показалось немного странным, что для трех задач ~генерации датасетов использовались три разных набора данных - например, для эмбеддингов использовались (в том числе) записи блогов, но такого рода неформальные тексты не использовались в вручную размеченном датасете. Почему так? Подумал об этом потому, что по моему опыту, качество работы NER сильно зависит от форматирования текста (например, сущность местоположения сильно опирается на заглавную букву), которое в реальном применении не всегда соответствует ожидаемому. Кажется, что в постах блогов больше вероятность что какие-то сущности будут в ловеркейсе, что при использовании таких текстов в золотом датасете позволило бы обучить лучшие модели. Напротив, в золотом датасете были использованы формальные тексты, где форматирование скорее всего тривиальное.

Участник:Boeing/Рецензия:Тематическая сегментация в информационном поиске

2021-10-27T21:13:46Z

Boeing: Новая страница: «[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2…»

[https://0x1.tv/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B5_(%D0%9F%D0%BE%D0%BB%D0%B8%D0%BD%D0%B0_%D0%9A%D0%B0%D0%B7%D0%B0%D0%BA%D0%BE%D0%B2%D0%B0,_SECR-2018)]

== Краткий отзыв на доклад «Тематическая сегментация в информационном поиске (Полина Казакова, SECR-2018) ==

В докладе рассказывается о применении тематической сегментации текстов в задаче информационного поиска. В начале говорится, что задача ставится несколько иначе, чем обычно - запрос тоже предполагается документом. Таким образом, задача состоит в подборе релевантных документов для данного документа. Предлагается разбивать документы на семантически-гомогенные блоки, чтобы использовать для поиска не весь текст документа, а лишь его часть.

Используется метод ARTM-регуляризаторов для задачи моделирования топиков, но сама эта модель не описана. Сегменты гомогенных тем строятся методом сливания меньших сегментов, начиная с предложений. Здесь не вполне понятно, как понять, что предложения имеют друг с другом одинаковые темы, поскольку предложение - это очень ограниченный набор слов. Несколько контр-интуитивный подход. Далее используется алгоритм Topic Tiling, снова считающий расстояние между векторами соседних предложений, и большие расстояния считаются границами сегментов. То есть, снова спускаемся на уровень предложений, такое получается нетривиальное движение вверх-вниз. Наверое, хотелось бы чтобы больше внимания было уделено мотивации такого пайплайна. Достаточно сложный пайплайн для поиска тоже объяснен не слишком детально - например, как происходит сегментирование документа на параграфы поисковым движком. Использованы различные алгоритмы векторизации текста, причем все конкурентные методы не предобучались на документах датасета (триплеты из статей на arxiv).

В сводной таблице результатов показано, что для некоторых (но не для всех) методов наличие в пайплайне сегментации действительно дает прирост в качестве. Однако, глобально наилучший результат получен на ARTM без сегментации, а второй наилучший - обычный doc2vec, который даже не видел обучающей выборки, и опять же, без сегментации. Впрочем, как отмечает докладчик, сравнение между собой предобученных моделей не особенно осмысленно, это по сути сравнение качества предобучения. Также докладчик отметил, что использование научных статей для проверки качества тематической сегментации в известном смысле упрощает эту задачу - там тематики довольно строго определены.

Приведены ссылки на статьи, где предложены используемые методы.

Участник:Boeing/Рецензия:Распознавание именованных сущностей в зашумленных доменах

2021-10-25T21:03:11Z

Boeing: Новая страница: «[https://0x1.tv/%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_…»

[https://0x1.tv/%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9_%D0%B2_%D0%B7%D0%B0%D1%88%D1%83%D0%BC%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%BE%D0%BC%D0%B5%D0%BD%D0%B0%D1%85_(%D0%92%D0%BB%D0%B0%D0%B4_%D0%9B%D1%8F%D0%BB%D0%B8%D0%BD,_ISPRASOPEN-2018)]

== Краткий отзыв на доклад «Распознавание именованных сущностей в зашумленных доменах» (Влад Лялин, ISPRASOPEN-2018) ==

Доклад сделан на тему распознавания именованных сущностей в датасетах, зашумленных опечатками. Продемонстрирована актуальность проблемы на примерах задач анализа социальных сетей и диалоговых систем.

Рассмотрены модели нейросетей biLSTM и CharCNN (сверточная сеть, работающая на уровне отдельных символов слов), докладчик утверждает, что рассмотренные модели представляли собой state-of-the-art на стандартных датасетах задачи NER. Мне кажется, на момент конференции это утверждение уже несколько устарело, поскольку, например, модели NER на основе глубокой языковой модели BERT появились в том же 2018 году и точно представляли sota на тот момент (точно на CoNLL-2003, и скорее всего, и на других использованных здесь датасетах). Впрочем, желание любое NLP засунуть в глубокий трансформер приводит к известному сужению взгляда на вещи, поэтому, пожалуй, полезно иногда посмотреть в другую сторону - в ретроспективе, так сказать:)

Был предложен интересный метод повышения устойчивости к опечаткам путём замены символов на случайные другие символы с небольшой вероятностью. Мне нравится идея, но кажется, можно было достичь более правдоподобных результатов, если бы символы подменялись не случайно, а в большем соответствии с тем, как люди обычно совершают опечатки, а именно:
* перестановка двух соседних символов в слове;
* замена символа на символ, использованный "не более трех символов назад" (такое случайное повторение);
* пропуск символа;
* замена символа на физически близкий к нему на QWERTY клавиатуре.
Мне кажется, что такая модель зашумления лучше сможет предсказывать опечатки пользователей системы. Кроме того, в примере на презентации видно, что символы заменяются не только на символы из алфавита, но и на небуквенные символы - такие опечатки кажутся мне ну совсем маловероятными. В докладе приведены графики качества моделей в зависимости от уровня зашумления обучающего датасета на зашумленном тестовом датасете и на оригинальном тестовом датасете; на обеих диаграммах качество почти линейно убывает при увеличении вероятности зашумления, из чего докладчик делает вывод о хорошей аппроксимации естественного шума их моделью, однако скорость убывания линейных графиков разная: они убывают быстрее на искуственно зашумленном тесте. Я бы сказал, что использованная модель шума все-таки слишком груба и приводит к большим потерям по сравнению с естественным зашумлением.

Интересным показался момент с получением sota на французском датасете благодаря предобработке spell-checker-ом - видимо, иногда какая-то специфическая предобработка действительно меняет всё дело.
Доклад хорошо структурирован, нагляден.

И все-таки интересно, как все это в реалиях 2021 года транслируется на современные сверхглубокие языковые модели - имеет ли всё еще смысл какая-то предобработка, или в этих комбаинах текст в любом случае перемалывается в удобоваримую массу признаков?

Участник:Boeing

2021-10-08T13:24:41Z

Boeing: Новая страница: «Бойко Александр Михайлович М05-005а»

Бойко Александр Михайлович
М05-005а