Задача классификации 0x1.tv

Stas Fomin

Есть сайт 0x1.tv

Технически — MediaWiki

MediaWiki Понятия

Page
Atom of Content
  • ID = Name = Title = URL
    • No more ID ≠ File ≠ Section Title
    • Названия несут семантику
  • Linking by name!
    • Not crazy URLs like «googledocs.php?id_doc=384357239&ctd=545654…»
    • Rename pages with redirections
    • Can link to nonexisting articles
    • Create any new page by typing name in browser URL
      • «Write fast, improves later if need» — easy to create big documentation

MediaWiki Concepts: Birds view .

MediaWiki Concepts: Namespace

Main
Regular namespace.
File
Binary files — images, documents, PDF, SVG, any blobs
  • Can be uploaded with any name
  • Supporting authomatic thumbnail/preview generation (even for PDF/docs).
  • Link to such file, include it
[[File:Page history diff.png|640px|center]]
Category
Categories. Main tool for structuring MediaWiki content.

… a tens of others (Blogs, Quizzes, ACL, …)

Categories

  • Page in "Category" namespace.
    • Can have content like any other page.
  • All pages linked to this page, "belongs" to it.
[[Category:SAAS]]
  • A category can belongs to several other categories.
  • It is like Web2.0 "tags", but structured and self-described.

Страница 0x1.tv

  • Заголовок, часто длинный.
  • Аннотация — наверное самый основной источник для классификации.
  • Ссылка на автора
  • Ссылка на видео на ютубе и vimeo (не поможет в классификации)
  • Одна или несколько категорий, иногда вообще нет, иногда слишком общее.
  • Иногда тезисы — много текста!

Что хотелось бы

  • Предложить категории для страницы — максимально узкие и походящие, может несколько. Из существующих.
  • Возможно дополнительно показать близкие статьи — чтобы уже вручную создать новые категории.
  • http://0x1.tv/img_auth.php/generated/categorygraph.svg

Тут явно ML

  • C элементами NTLK
    • Т.е. надо и парсить текст, убирать стоп слова.
    • И как-то отклассифицировать, учесть имеющиеся категории
    • Большие категории (высокоуровневые, в которых вкладывается много более узких), должны котироваться слабее.