gianthare: (Default)
gianthare ([personal profile] gianthare) wrote2011-02-20 05:27 pm

А кто тут понимает в статистике?

У меня есть таблица, где для каждого пользователя записано, когда он зарегистрировался и когда он в последний раз воспользовался программой. Я хочу каким-то осмысленным образом посчитать сколько дней средний пользователь пользуется программой прежде чем его задалбывает. Как это можно сделать и что именно я таким образом считаю?
Понятно, что просто посчитать среднее бесмысленно, потому что пользователь, зарегистрировавпийс месяц назад, не мог ей пользоваться два месяца, даже если б захотел. Предположим, что число новых пользователей все время растет. Для простоты, я смотрю на данные только за последние два года.

[identity profile] green-fr.livejournal.com 2011-02-21 10:17 am (UTC)(link)
1. Можно предположить, что у тебя есть активные пользователи (пользовались за последний месяц) и обломавшиеся. Считаешь только вторых, предполагая, что две категории отличаются друг от друга, и что тебя интересует только одна из них.
2. Можно предположить некоторое общее распределение (типа, время пользования по гауссу, все люди распределены по одному и тому же закону), и построить схему с условной вероятностью, чтобы определить параметры закона.

В обоих случаях будет примерно одинаковая лажа, первый вариант существенно проще.

[identity profile] gianthare.livejournal.com 2011-02-21 10:49 am (UTC)(link)
Послений абзац мне понравился
Да, в первом направлени я думал.
Второе я не понял, кстати.
А вообще, пусть у Эрнста с Янгом голова болит

[identity profile] green-fr.livejournal.com 2011-02-21 11:21 am (UTC)(link)
Ко второму: смотри, у тебя есть какое-то количество наблюдений, которые ты хочешь вписать в какой-то закон. Например, Гаусс. То есть, ты ищешь некоторое значение этого закона, при котором все твои наблюдения максимизируют суммарную вероятность каждого наблюдения.
Есть у тебя какие-то точки - ты ищешь среднее и среднеквадратичное отклонение, чтобы, соответственно, сумма плотности вероятности (умноженная на какую-то константу - ширину точки) была максимальна.
Теперь случай, если человек проработал с программой 3 месяца и продолжает работать. Ему не соответствует никакая точка - ты не знаешь, когда он обломается. Но ты знаешь, что эта точка лежит за пределами 3-х месяцев. Таким образом, в сумму ты вписываешь не точку наблюдения (точнее, вертикальную полоску, соответствующую этой точке), а весь сегмент под привой распределения (колокольчик Гаусса), который находится справа от 3-х месяцев. Пример: для распределения со средним в 3 месяца, точке 3 месяца соответствует 50% (половина графика находится слева, половина справа от твоего наблюдения).
Из этого же, к слову, очевидно, что гаусс совершенно не подходит для таких переменных - у него есть ненулевая вероятность того, что значение (время использования программы) будет отрицательным. Ну и он неустойчив при выбивающихся из общего поведения точках (разработчик программы пользуется ею как минимум с момента начала ведения лога). То есть можно попытаться прикрутить что-нибудь типа лог-нормального распределения. Но вообще-то, тут бы я вспомнил последнюю фразу своего первого комментария :-) Потому как по-хорошему, надо сначала изучить данные, понять, какой закон прикручиваем, сколько там различных популяций (насколько поведение "скачал, попробовал, бросил" отличается от серьёзного использования, и что конкретно при этом мы хотим померить), ну и т.п.