FM
13:50 20-04-2005
Интересно было бы провести кластерный анализ взаимных приязней на данных journals.ru и нарисовать проекцию на плоскости первых двух главных компонент. Еженедельная (например) динамика этой проекции -- тоже очень интересно. Как обычно: что-то очевидно подтвердится, что-то совершенно парадоксально. Наверное, какие-то из современных статистических пакетов поддерживают и такой размер входной матрицы.

Сколько уже поколений обезьян народилось в Сухуми с момента последнего исследования их полового поведения? ;-)
Комментарии:
асимптота
14:14 20-04-2005
кластерный анализ взаимных приязней на данных journals.ru и нарисовать проекцию на плоскости первых двух главных компонент

читала
думала
оч хотела разобраться
не получается без помощи из зала)

какие-такие главные компоненты?
FM
22:41 20-04-2005
Всё очень просто: например, каждый автор представлен как вектор в N-мерном пространстве, где N -- количество авторов. "1" на пересечении n-ого столбца и m-ой строки, если автор n подписан на автора m; в противном случае "0". Матрица, соответственно, получается квадратная. Лучше, конечно, не 0|1, а какие-то взвешенные (читай, осмысленные) оценки, например, количество комментариев или ещё какой-нибудь признак.

Можно добавить возрастной и географический признаки, но тогда надо все признаки взвешивать и нормализовавать. В этом случае матрица, разумеется, уже не квадратная, да это и неважно ;-)

Итого получаем M точек (авторов) в N-мерном пространстве признаков. Смотрим, какие точки расположены ближе друг к другу (образуют кластеры). Поиск грани между двумя крайними случаями (M кластеров по одной точке и один кластер со всеми точками) достаточно эвристичен и зависит: от данных, от метода кластеризации, от весов признаков и т. п.

Главные компоненты -- это, грубо говоря, те два признака, которые оказывают наибольшее влияние на расположение точек в пространстве (признаков) такое сечение пространства признаков плоскостью, при котором искажения от уменьшения размерности с N до 2 минимальны. Т. е. проекция на плоскость (2 признака, поэтому плоскость ;-) первых двух главных компонент позволяет визуально посмотреть, как располагаются точки в пространстве. Ну, с определённой (кстати, считаемой) ошибкой, конечно. Не совсем "ошибкой", а, скорее, мы можем посчитать правдоподобность этой проекции.

На 5-ом курсе я опросил своих одногруппников и составил "матрицу взаимного пьянства и алкоголизма", в которой попросил каждого в баллах от 0 до 10 оценить, сколько он с кем выпил за 5 лет учёбы. Сама понимаешь, что субъективная погрешность могла похоронить всю идею ;-) Но когда я взглянул на полученные результаты... м-м-м... очень многое встало на свои места ;-)

отредактировано: 21-04-2005 02:28 - FM

асимптота
13:23 21-04-2005
один единственный
совсем маленький вопрос:
а зачем?)
то есть, ответ конечно блы - Интересно было бы, но какой именно в этом интерес?
FM
14:06 21-04-2005
но какой именно в этом интерес? бескорыстный ;-)

От некоторых задач я получаю странное удовольствие, например, от задач автоматической классификации. Так ты по-прежнему настаиваешь на классификации моих интересов? ;-))
асимптота
15:28 21-04-2005
Нет-нет
У меня другие,
но, конечно, не менее странные способы получения удовольствия)
FM
01:27 22-04-2005
У меня другие, но, конечно, не менее странные способы получения удовольствия)
Так это ты сегодня ехала на изумрудной "Микре" по левому ряду МКАДа 50 км/час? ;-))
MaAask
02:18 22-04-2005
Так это ты сегодня ехала на изумрудной "Микре" по левому ряду МКАДа 50 км/час? ;-))
Бля-а-а-а-а-а... простите меня, как я смеялся...:-)))))
асимптота
07:05 22-04-2005
FM
УррррАа!)))
Вот она - слава!)))