0x1-classification — различия между версиями
Материал из DISCOPAL
StasFomin (обсуждение | вклад) (→Categories _) |
StasFomin (обсуждение | вклад) |
||
(не показаны 4 промежуточные версии этого же участника) | |||
Строка 7: | Строка 7: | ||
</noinclude> | </noinclude> | ||
+ | {{vimeoembed|366000415|800|450}} | ||
=== Есть сайт 0x1.tv _ === | === Есть сайт 0x1.tv _ === | ||
Строка 52: | Строка 53: | ||
− | == MediaWiki Concepts: Namespace | + | == MediaWiki Concepts: Namespace _ == |
;Main: Regular namespace. | ;Main: Regular namespace. | ||
;File: Binary files — images, documents, PDF, SVG, any blobs | ;File: Binary files — images, documents, PDF, SVG, any blobs | ||
Строка 76: | Строка 77: | ||
* A category can belongs to several other categories. | * A category can belongs to several other categories. | ||
* It is like Web2.0 "tags", but {{!|structured}} and {{!|self-described}}. | * It is like Web2.0 "tags", but {{!|structured}} and {{!|self-described}}. | ||
+ | |||
+ | === Страница 0x1.tv _ === | ||
+ | * Заголовок, часто длинный. | ||
+ | * Аннотация — наверное самый основной источник для классификации. | ||
+ | * Ссылка на автора | ||
+ | * Ссылка на видео на ютубе и vimeo (не поможет в классификации) | ||
+ | * Одна или несколько категорий, иногда вообще нет, иногда слишком общее. | ||
+ | * Иногда тезисы — много текста! | ||
+ | |||
+ | === Что хотелось бы _ === | ||
+ | * Предложить категории для страницы — максимально узкие и походящие, может несколько. Из существующих. | ||
+ | * Возможно дополнительно показать близкие статьи — чтобы уже вручную создать новые категории. | ||
+ | * http://0x1.tv/img_auth.php/generated/categorygraph.svg | ||
+ | |||
+ | === Тут явно ML _ === | ||
+ | * C элементами NTLK | ||
+ | ** Т.е. надо и парсить текст, убирать стоп слова. | ||
+ | ** И как-то отклассифицировать, учесть имеющиеся категории | ||
+ | ** Большие категории (высокоуровневые, в которых вкладывается много более узких), должны котироваться слабее. | ||
+ | |||
+ | === Датасет === | ||
+ | * http://video-sky.0x1.tv/channels/misc/datasets/0x1tv-dataset.pickle | ||
+ | * Python pickle | ||
+ | ** Два списка — статьи и категории | ||
+ | <code-python> | ||
+ | self.dataset = { | ||
+ | 'articles': [], | ||
+ | 'categories': [], | ||
+ | } | ||
+ | </code-python> | ||
+ | * Каждая статья и категория (один фиг) состоит из | ||
+ | ** заголовка | ||
+ | ** текста — там весь текст статьи, но можно легко вытащить аннотацию — она в | ||
+ | <pre><nowiki><blockquote>вот тут аннотация обычно на 2-3-4 абзаца</blockquote></nowiki></pre> | ||
+ | ** списка категогий, к которым относится эта статья или категория. | ||
+ | <code-python> | ||
+ | article = { | ||
+ | 'title': page.page_title, | ||
+ | 'text': page.text(), | ||
+ | 'categories': [] | ||
+ | } | ||
+ | </code-python> |
Текущая версия на 21:47, 25 сентября 2021
- Заголовок
- Задача классификации 0x1.tv
- Автор
- Stas Fomin
- Нижний колонтитул
- 0x1-classification
- Дополнительный нижний колонтитул
- Stas Fomin, 21:47, 25 сентября 2021
Содержание
Есть сайт 0x1.tv _
Технически — MediaWiki _
MediaWiki Понятия _
- Page
- Atom of Content
- ID = Name = Title = URL
- No more ID ≠ File ≠ Section Title
- Названия несут семантику
- Linking by name!
- Not crazy URLs like «googledocs.php?id_doc=384357239&ctd=545654…»
- Rename pages with redirections
- Can link to nonexisting articles
- Create any new page by typing name in browser URL
- «Write fast, improves later if need» — easy to create big documentation
MediaWiki Concepts: Birds view ._
MediaWiki Concepts: Namespace _
- Main
- Regular namespace.
- File
- Binary files — images, documents, PDF, SVG, any blobs
- Can be uploaded with any name
- Supporting authomatic thumbnail/preview generation (even for PDF/docs).
- Link to such file, include it
[[File:Page history diff.png|640px|center]]
- Category
- Categories. Main tool for structuring MediaWiki content.
… a tens of others (Blogs, Quizzes, ACL, …)
Categories _
- Page in "Category" namespace.
- Can have content like any other page.
- All pages linked to this page, "belongs" to it.
[[Category:SAAS]]
- A category can belongs to several other categories.
- It is like Web2.0 "tags", but structured and self-described.
Страница 0x1.tv _
- Заголовок, часто длинный.
- Аннотация — наверное самый основной источник для классификации.
- Ссылка на автора
- Ссылка на видео на ютубе и vimeo (не поможет в классификации)
- Одна или несколько категорий, иногда вообще нет, иногда слишком общее.
- Иногда тезисы — много текста!
Что хотелось бы _
- Предложить категории для страницы — максимально узкие и походящие, может несколько. Из существующих.
- Возможно дополнительно показать близкие статьи — чтобы уже вручную создать новые категории.
- http://0x1.tv/img_auth.php/generated/categorygraph.svg
Тут явно ML _
- C элементами NTLK
- Т.е. надо и парсить текст, убирать стоп слова.
- И как-то отклассифицировать, учесть имеющиеся категории
- Большие категории (высокоуровневые, в которых вкладывается много более узких), должны котироваться слабее.
Датасет
- http://video-sky.0x1.tv/channels/misc/datasets/0x1tv-dataset.pickle
- Python pickle
- Два списка — статьи и категории
self.dataset = { 'articles': [], 'categories': [], }
- Каждая статья и категория (один фиг) состоит из
- заголовка
- текста — там весь текст статьи, но можно легко вытащить аннотацию — она в
<blockquote>вот тут аннотация обычно на 2-3-4 абзаца</blockquote>
- списка категогий, к которым относится эта статья или категория.
article = { 'title': page.page_title, 'text': page.text(), 'categories': [] }