Хабрахабр (Стас Фомин)

Ссылки сюда (1) →

Подстраницы (8) →

Содержание

1 Цель проекта
2 Участники
3 Репозитории
- 3.1 Данные
- 3.2 Код
4 Открытые задачи

Цель проекта

Вытащить полный граф пользователей
Задачи

- Анализ графа
  - Статсвойства
  - Диаметры, распределения ребер, коэффициент кластеризации.

- Генератор подобного графа

Анализ флеймов
- Кластеризация тредов с использованием MAX-CUT.

Язык — Python
- Набор пакетов numpy/igraph...
- IDE
  - PyScripter
  - PyDev — Eclipse. — Можно поставить отдельно!!!
  - Komodo IDE — forum.ru-board.com

- Assembla
  - EasySVN

Участники

Регистрируемся тут! (просто напишите подпись «~~~»), и тут появится ссылка на вашу пользовательскую страницу. А на страницу напишите ваши контакты, и логин в assembla.

Репозитории

Данные

Крауленные данные с хабра, промежуточные структуры («восстановленные графы»), отчеты (картинки и т.п.) все это живет в проекте

https://github.com/belonesox/habra-data

В виде простейшей «файловой» базы.

Соответственно, участникам проекта нужно зарегистрироваться на githube и указать ники на своих страничках. Впрочем, можно clone сделать и незарегистрированным.

Код

https://github.com/belonesox/habra-mining

Пишем просто, без UI, один файл → одна исследовательская функция (построение каких-нибудь данных или отчетов). Смело заводите свои скрипты.

Открытые задачи

Алгоритмическое

Техническое

Полезно тем, кто хочет попрактиковаться в веб-краулинге (часто встречающаяся по работе задача).

/Crawler c Livejournal

Для тех, кто не умеет программировать

Только читать и писать. Работа аналитиком.

Смотрим подстатьи статьи /Анализ_тредов
Там приведено автоматическое разбиение участников тредов на две партии (обычно условно «партия сторонников автора статьи» и «критиков»
Надо сформулировать описание «партий» на которых разбил соответствующие треды алгоритм
Для каждого «члена партии», прочитать его участие в дискуссии и понять, правильно ли он попал в соответствующую партию, или он исключение (тогда можно подумать почему).

[ Хронологический вид ]Комментарии

(нет элементов)

Войдите, чтобы комментировать.