Хабрахабр (Стас Фомин)

Материал из DISCOPAL
Перейти к: навигация, поиск

Цель проекта

  • Вытащить полный граф пользователей
  • Задачи
    • Анализ графа
      • Статсвойства
      • Диаметры, распределения ребер, коэффициент кластеризации.
    • Генератор подобного графа


  • Анализ флеймов
    • Кластеризация тредов с использованием MAX-CUT.
  • Язык — Python
    • Набор пакетов numpy/igraph...
    • IDE
      • PyScripter
      • PyDev — Eclipse. — Можно поставить отдельно!!!
      • Komodo IDE — forum.ru-board.com
    • Assembla
      • EasySVN

Участники

  • Регистрируемся тут! (просто напишите подпись «~~~»), и тут появится ссылка на вашу пользовательскую страницу. А на страницу напишите ваши контакты, и логин в assembla.

Репозитории

Данные

Крауленные данные с хабра, промежуточные структуры («восстановленные графы»), отчеты (картинки и т.п.) все это живет в проекте

В виде простейшей «файловой» базы.

Соответственно, участникам проекта нужно зарегистрироваться на githube и указать ники на своих страничках. Впрочем, можно clone сделать и незарегистрированным.

Код

Пишем просто, без UI, один файл → одна исследовательская функция (построение каких-нибудь данных или отчетов). Смело заводите свои скрипты.

Открытые задачи

Алгоритмическое

Техническое

Полезно тем, кто хочет попрактиковаться в веб-краулинге (часто встречающаяся по работе задача).

Для тех, кто не умеет программировать

Только читать и писать. Работа аналитиком.

  • Смотрим подстатьи статьи /Анализ_тредов
  • Там приведено автоматическое разбиение участников тредов на две партии (обычно условно «партия сторонников автора статьи» и «критиков»
  • Надо сформулировать описание «партий» на которых разбил соответствующие треды алгоритм
  • Для каждого «члена партии», прочитать его участие в дискуссии и понять, правильно ли он попал в соответствующую партию, или он исключение (тогда можно подумать почему).

[ Хронологический вид ]Комментарии

(нет элементов)

Войдите, чтобы комментировать.