Хабрахабр (Стас Фомин)
Материал из DISCOPAL
Содержание
Цель проекта
- Вытащить полный граф пользователей
- Задачи
- Анализ графа
- Статсвойства
- Диаметры, распределения ребер, коэффициент кластеризации.
- Анализ графа
- Генератор подобного графа
- Анализ флеймов
- Кластеризация тредов с использованием MAX-CUT.
- Язык — Python
- Набор пакетов numpy/igraph...
- IDE
- PyScripter
- PyDev — Eclipse. — Можно поставить отдельно!!!
- Komodo IDE — forum.ru-board.com
- Assembla
- EasySVN
- Assembla
Участники
- Регистрируемся тут! (просто напишите подпись «~~~»), и тут появится ссылка на вашу пользовательскую страницу. А на страницу напишите ваши контакты, и логин в assembla.
Репозитории
Данные
Крауленные данные с хабра, промежуточные структуры («восстановленные графы»), отчеты (картинки и т.п.) все это живет в проекте
В виде простейшей «файловой» базы.
Соответственно, участникам проекта нужно зарегистрироваться на githube и указать ники на своих страничках. Впрочем, можно clone сделать и незарегистрированным.
Код
Пишем просто, без UI, один файл → одна исследовательская функция (построение каких-нибудь данных или отчетов). Смело заводите свои скрипты.
Открытые задачи
Алгоритмическое
Техническое
Полезно тем, кто хочет попрактиковаться в веб-краулинге (часто встречающаяся по работе задача).
Для тех, кто не умеет программировать
Только читать и писать. Работа аналитиком.
- Смотрим подстатьи статьи /Анализ_тредов
- Там приведено автоматическое разбиение участников тредов на две партии (обычно условно «партия сторонников автора статьи» и «критиков»
- Надо сформулировать описание «партий» на которых разбил соответствующие треды алгоритм
- Для каждого «члена партии», прочитать его участие в дискуссии и понять, правильно ли он попал в соответствующую партию, или он исключение (тогда можно подумать почему).
[ Хронологический вид ]Комментарии
Войдите, чтобы комментировать.