gianthare: (Default)
[personal profile] gianthare
У меня есть таблица, где для каждого пользователя записано, когда он зарегистрировался и когда он в последний раз воспользовался программой. Я хочу каким-то осмысленным образом посчитать сколько дней средний пользователь пользуется программой прежде чем его задалбывает. Как это можно сделать и что именно я таким образом считаю?
Понятно, что просто посчитать среднее бесмысленно, потому что пользователь, зарегистрировавпийс месяц назад, не мог ей пользоваться два месяца, даже если б захотел. Предположим, что число новых пользователей все время растет. Для простоты, я смотрю на данные только за последние два года.

Date: 2011-02-21 10:17 am (UTC)
From: [identity profile] green-fr.livejournal.com
1. Можно предположить, что у тебя есть активные пользователи (пользовались за последний месяц) и обломавшиеся. Считаешь только вторых, предполагая, что две категории отличаются друг от друга, и что тебя интересует только одна из них.
2. Можно предположить некоторое общее распределение (типа, время пользования по гауссу, все люди распределены по одному и тому же закону), и построить схему с условной вероятностью, чтобы определить параметры закона.

В обоих случаях будет примерно одинаковая лажа, первый вариант существенно проще.

Date: 2011-02-21 10:49 am (UTC)
From: [identity profile] gianthare.livejournal.com
Послений абзац мне понравился
Да, в первом направлени я думал.
Второе я не понял, кстати.
А вообще, пусть у Эрнста с Янгом голова болит

Date: 2011-02-21 11:21 am (UTC)
From: [identity profile] green-fr.livejournal.com
Ко второму: смотри, у тебя есть какое-то количество наблюдений, которые ты хочешь вписать в какой-то закон. Например, Гаусс. То есть, ты ищешь некоторое значение этого закона, при котором все твои наблюдения максимизируют суммарную вероятность каждого наблюдения.
Есть у тебя какие-то точки - ты ищешь среднее и среднеквадратичное отклонение, чтобы, соответственно, сумма плотности вероятности (умноженная на какую-то константу - ширину точки) была максимальна.
Теперь случай, если человек проработал с программой 3 месяца и продолжает работать. Ему не соответствует никакая точка - ты не знаешь, когда он обломается. Но ты знаешь, что эта точка лежит за пределами 3-х месяцев. Таким образом, в сумму ты вписываешь не точку наблюдения (точнее, вертикальную полоску, соответствующую этой точке), а весь сегмент под привой распределения (колокольчик Гаусса), который находится справа от 3-х месяцев. Пример: для распределения со средним в 3 месяца, точке 3 месяца соответствует 50% (половина графика находится слева, половина справа от твоего наблюдения).
Из этого же, к слову, очевидно, что гаусс совершенно не подходит для таких переменных - у него есть ненулевая вероятность того, что значение (время использования программы) будет отрицательным. Ну и он неустойчив при выбивающихся из общего поведения точках (разработчик программы пользуется ею как минимум с момента начала ведения лога). То есть можно попытаться прикрутить что-нибудь типа лог-нормального распределения. Но вообще-то, тут бы я вспомнил последнюю фразу своего первого комментария :-) Потому как по-хорошему, надо сначала изучить данные, понять, какой закон прикручиваем, сколько там различных популяций (насколько поведение "скачал, попробовал, бросил" отличается от серьёзного использования, и что конкретно при этом мы хотим померить), ну и т.п.

Profile

gianthare: (Default)
gianthare

March 2022

S M T W T F S
   12 345
6789101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 6th, 2025 03:49 pm
Powered by Dreamwidth Studios