А кто тут понимает в статистике?
Feb. 20th, 2011 05:27 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
У меня есть таблица, где для каждого пользователя записано, когда он зарегистрировался и когда он в последний раз воспользовался программой. Я хочу каким-то осмысленным образом посчитать сколько дней средний пользователь пользуется программой прежде чем его задалбывает. Как это можно сделать и что именно я таким образом считаю?
Понятно, что просто посчитать среднее бесмысленно, потому что пользователь, зарегистрировавпийс месяц назад, не мог ей пользоваться два месяца, даже если б захотел. Предположим, что число новых пользователей все время растет. Для простоты, я смотрю на данные только за последние два года.
Понятно, что просто посчитать среднее бесмысленно, потому что пользователь, зарегистрировавпийс месяц назад, не мог ей пользоваться два месяца, даже если б захотел. Предположим, что число новых пользователей все время растет. Для простоты, я смотрю на данные только за последние два года.
no subject
Date: 2011-02-21 10:17 am (UTC)2. Можно предположить некоторое общее распределение (типа, время пользования по гауссу, все люди распределены по одному и тому же закону), и построить схему с условной вероятностью, чтобы определить параметры закона.
В обоих случаях будет примерно одинаковая лажа, первый вариант существенно проще.
no subject
Date: 2011-02-21 10:49 am (UTC)Да, в первом направлени я думал.
Второе я не понял, кстати.
А вообще, пусть у Эрнста с Янгом голова болит
no subject
Date: 2011-02-21 11:21 am (UTC)Есть у тебя какие-то точки - ты ищешь среднее и среднеквадратичное отклонение, чтобы, соответственно, сумма плотности вероятности (умноженная на какую-то константу - ширину точки) была максимальна.
Теперь случай, если человек проработал с программой 3 месяца и продолжает работать. Ему не соответствует никакая точка - ты не знаешь, когда он обломается. Но ты знаешь, что эта точка лежит за пределами 3-х месяцев. Таким образом, в сумму ты вписываешь не точку наблюдения (точнее, вертикальную полоску, соответствующую этой точке), а весь сегмент под привой распределения (колокольчик Гаусса), который находится справа от 3-х месяцев. Пример: для распределения со средним в 3 месяца, точке 3 месяца соответствует 50% (половина графика находится слева, половина справа от твоего наблюдения).
Из этого же, к слову, очевидно, что гаусс совершенно не подходит для таких переменных - у него есть ненулевая вероятность того, что значение (время использования программы) будет отрицательным. Ну и он неустойчив при выбивающихся из общего поведения точках (разработчик программы пользуется ею как минимум с момента начала ведения лога). То есть можно попытаться прикрутить что-нибудь типа лог-нормального распределения. Но вообще-то, тут бы я вспомнил последнюю фразу своего первого комментария :-) Потому как по-хорошему, надо сначала изучить данные, понять, какой закон прикручиваем, сколько там различных популяций (насколько поведение "скачал, попробовал, бросил" отличается от серьёзного использования, и что конкретно при этом мы хотим померить), ну и т.п.