0x1-classification

Ссылки сюда (3) →

Slide Show

Заголовок: Задача классификации 0x1.tv
Автор: Stas Fomin
Нижний колонтитул: 0x1-classification
Дополнительный нижний колонтитул: Stas Fomin, 21:47, 25 сентября 2021

Содержание

1 Есть сайт 0x1.tv _
2 Технически — MediaWiki _
3 MediaWiki Понятия _
4 MediaWiki Concepts: Birds view ._
5 MediaWiki Concepts: Namespace _
6 Categories _

Есть сайт 0x1.tv _

Технически — MediaWiki _

MediaWiki Понятия _

Page: Atom of Content

ID = Name = Title = URL
- No more ID ≠ File ≠ Section Title
- Названия несут семантику

Linking by name!
- Not crazy URLs like «googledocs.php?id_doc=384357239&ctd=545654…»
- Rename pages with redirections
- Can link to nonexisting articles
- Create any new page by typing name in browser URL
  - «Write fast, improves later if need» — easy to create big documentation

MediaWiki Concepts: Birds view ._

MediaWiki Concepts: Namespace _

Main: Regular namespace.
File: Binary files — images, documents, PDF, SVG, any blobs

Can be uploaded with any name
Supporting authomatic thumbnail/preview generation (even for PDF/docs).
Link to such file, include it

[[File:Page history diff.png|640px|center]]

Category: Categories. Main tool for structuring MediaWiki content.

… a tens of others (Blogs, Quizzes, ACL, …)

Categories _

Page in "Category" namespace.
- Can have content like any other page.
All pages linked to this page, "belongs" to it.

[[Category:SAAS]]

A category can belongs to several other categories.
It is like Web2.0 "tags", but structured and self-described.

Страница 0x1.tv _

Заголовок, часто длинный.
Аннотация — наверное самый основной источник для классификации.
Ссылка на автора
Ссылка на видео на ютубе и vimeo (не поможет в классификации)
Одна или несколько категорий, иногда вообще нет, иногда слишком общее.
Иногда тезисы — много текста!

Что хотелось бы _

Предложить категории для страницы — максимально узкие и походящие, может несколько. Из существующих.
Возможно дополнительно показать близкие статьи — чтобы уже вручную создать новые категории.
http://0x1.tv/img_auth.php/generated/categorygraph.svg

Тут явно ML _

C элементами NTLK
- Т.е. надо и парсить текст, убирать стоп слова.
- И как-то отклассифицировать, учесть имеющиеся категории
- Большие категории (высокоуровневые, в которых вкладывается много более узких), должны котироваться слабее.

Датасет

http://video-sky.0x1.tv/channels/misc/datasets/0x1tv-dataset.pickle
Python pickle
- Два списка — статьи и категории

        self.dataset = {
            'articles': [],
            'categories': [],
        }

Каждая статья и категория (один фиг) состоит из
- заголовка
- текста — там весь текст статьи, но можно легко вытащить аннотацию — она в

<blockquote>вот тут аннотация обычно на 2-3-4 абзаца</blockquote>

- списка категогий, к которым относится эта статья или категория.

            article = {
               'title': page.page_title,
               'text': page.text(),     
               'categories': []
            }

[ Хронологический вид ]Комментарии

(нет элементов)

Войдите, чтобы комментировать.

0x1-classification

Содержание

Есть сайт 0x1.tv _

Технически — MediaWiki _

MediaWiki Понятия _

MediaWiki Concepts: Birds view ._

MediaWiki Concepts: Namespace _

Categories _

Страница 0x1.tv _

Что хотелось бы _

Тут явно ML _

Датасет

[ Хронологический вид ]Комментарии

Навигация

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты