0x1-classification — различия между версиями

Материал из DISCOPAL
Перейти к: навигация, поиск
(Новая страница: «<noinclude> <slideshow style="virtuozzo" scaled="true" headingmark="_" incmark="(...)"> ;addcss: * { font-family: «Segoe Print» !important; } .resc img { width:…»)
 
 
(не показано 6 промежуточных версий этого же участника)
Строка 7: Строка 7:
 
</noinclude>
 
</noinclude>
  
 +
{{vimeoembed|366000415|800|450}}
  
 
=== Есть сайт 0x1.tv _ ===
 
=== Есть сайт 0x1.tv _ ===
Строка 52: Строка 53:
  
  
== MediaWiki Concepts: Namespace ._ ==
+
== MediaWiki Concepts: Namespace _ ==
 
;Main: Regular namespace.
 
;Main: Regular namespace.
 
;File: Binary files — images, documents, PDF, SVG, any blobs
 
;File: Binary files — images, documents, PDF, SVG, any blobs
Строка 70: Строка 71:
 
* Page in "Category" namespace.  
 
* Page in "Category" namespace.  
 
** Can have content like any other page.
 
** Can have content like any other page.
{{SideBar|[[File:Pages in category.png|256px]]}}
 
 
* All pages linked to this page, "belongs" to it.
 
* All pages linked to this page, "belongs" to it.
 
<pre><nowiki>
 
<pre><nowiki>
[[Category:VzLinux]]
+
[[Category:SAAS]]
 
</nowiki></pre>
 
</nowiki></pre>
 
* A category can belongs to several other categories.
 
* A category can belongs to several other categories.
 
* It is like Web2.0 "tags", but {{!|structured}} and {{!|self-described}}.
 
* It is like Web2.0 "tags", but {{!|structured}} and {{!|self-described}}.
 +
 +
=== Страница 0x1.tv _ ===
 +
* Заголовок, часто длинный.
 +
* Аннотация — наверное самый основной источник для классификации.
 +
* Ссылка на автора
 +
* Ссылка на видео на ютубе и vimeo (не поможет в классификации)
 +
* Одна или несколько категорий, иногда вообще нет, иногда слишком общее.
 +
* Иногда тезисы — много текста!
 +
 +
=== Что хотелось бы _ ===
 +
* Предложить категории для страницы — максимально узкие и походящие, может несколько. Из существующих.
 +
* Возможно дополнительно показать близкие статьи — чтобы уже вручную создать новые категории.
 +
* http://0x1.tv/img_auth.php/generated/categorygraph.svg
 +
 +
=== Тут явно ML _ ===
 +
* C элементами NTLK
 +
** Т.е. надо и парсить текст, убирать стоп слова.
 +
** И как-то отклассифицировать, учесть имеющиеся категории
 +
** Большие категории (высокоуровневые, в которых вкладывается много более узких), должны котироваться слабее.
 +
 +
=== Датасет ===
 +
* http://video-sky.0x1.tv/channels/misc/datasets/0x1tv-dataset.pickle
 +
* Python pickle
 +
** Два списка — статьи и категории
 +
<code-python>
 +
        self.dataset = {
 +
            'articles': [],
 +
            'categories': [],
 +
        }
 +
</code-python>
 +
* Каждая статья и категория (один фиг) состоит из
 +
** заголовка
 +
** текста — там весь текст статьи, но можно легко вытащить аннотацию — она в
 +
<pre><nowiki><blockquote>вот тут аннотация обычно на 2-3-4 абзаца</blockquote></nowiki></pre>
 +
** списка категогий, к которым относится эта статья или категория.
 +
<code-python>
 +
            article = {
 +
              'title': page.page_title,
 +
              'text': page.text(),   
 +
              'categories': []
 +
            }
 +
</code-python>

Текущая версия на 21:47, 25 сентября 2021

Заголовок

Задача классификации 0x1.tv
Автор
Stas Fomin
Нижний колонтитул
0x1-classification
Дополнительный нижний колонтитул

Stas Fomin, 21:47, 25 сентября 2021


Есть сайт 0x1.tv _

Технически — MediaWiki _

MediaWiki Понятия _

Page
Atom of Content
  • ID = Name = Title = URL
    • No more ID ≠ File ≠ Section Title
    • Названия несут семантику
  • Linking by name!
    • Not crazy URLs like «googledocs.php?id_doc=384357239&ctd=545654…»
    • Rename pages with redirections
    • Can link to nonexisting articles
    • Create any new page by typing name in browser URL
      • «Write fast, improves later if need» — easy to create big documentation

MediaWiki Concepts: Birds view ._

[svg]


MediaWiki Concepts: Namespace _

Main
Regular namespace.
File
Binary files — images, documents, PDF, SVG, any blobs
  • Can be uploaded with any name
  • Supporting authomatic thumbnail/preview generation (even for PDF/docs).
  • Link to such file, include it
[[File:Page history diff.png|640px|center]]
Category
Categories. Main tool for structuring MediaWiki content.

… a tens of others (Blogs, Quizzes, ACL, …)


Categories _

  • Page in "Category" namespace.
    • Can have content like any other page.
  • All pages linked to this page, "belongs" to it.
[[Category:SAAS]]
  • A category can belongs to several other categories.
  • It is like Web2.0 "tags", but structured and self-described.

Страница 0x1.tv _

  • Заголовок, часто длинный.
  • Аннотация — наверное самый основной источник для классификации.
  • Ссылка на автора
  • Ссылка на видео на ютубе и vimeo (не поможет в классификации)
  • Одна или несколько категорий, иногда вообще нет, иногда слишком общее.
  • Иногда тезисы — много текста!

Что хотелось бы _

  • Предложить категории для страницы — максимально узкие и походящие, может несколько. Из существующих.
  • Возможно дополнительно показать близкие статьи — чтобы уже вручную создать новые категории.
  • http://0x1.tv/img_auth.php/generated/categorygraph.svg

Тут явно ML _

  • C элементами NTLK
    • Т.е. надо и парсить текст, убирать стоп слова.
    • И как-то отклассифицировать, учесть имеющиеся категории
    • Большие категории (высокоуровневые, в которых вкладывается много более узких), должны котироваться слабее.

Датасет

        self.dataset = {
            'articles': [],
            'categories': [],
        }
  • Каждая статья и категория (один фиг) состоит из
    • заголовка
    • текста — там весь текст статьи, но можно легко вытащить аннотацию — она в
<blockquote>вот тут аннотация обычно на 2-3-4 абзаца</blockquote>
    • списка категогий, к которым относится эта статья или категория.
            article = {
               'title': page.page_title,
               'text': page.text(),     
               'categories': []
            }