http://green-fr.livejournal.com/ ([identity profile] green-fr.livejournal.com) wrote in [personal profile] gianthare 2011-02-21 11:21 am (UTC)

Ко второму: смотри, у тебя есть какое-то количество наблюдений, которые ты хочешь вписать в какой-то закон. Например, Гаусс. То есть, ты ищешь некоторое значение этого закона, при котором все твои наблюдения максимизируют суммарную вероятность каждого наблюдения.
Есть у тебя какие-то точки - ты ищешь среднее и среднеквадратичное отклонение, чтобы, соответственно, сумма плотности вероятности (умноженная на какую-то константу - ширину точки) была максимальна.
Теперь случай, если человек проработал с программой 3 месяца и продолжает работать. Ему не соответствует никакая точка - ты не знаешь, когда он обломается. Но ты знаешь, что эта точка лежит за пределами 3-х месяцев. Таким образом, в сумму ты вписываешь не точку наблюдения (точнее, вертикальную полоску, соответствующую этой точке), а весь сегмент под привой распределения (колокольчик Гаусса), который находится справа от 3-х месяцев. Пример: для распределения со средним в 3 месяца, точке 3 месяца соответствует 50% (половина графика находится слева, половина справа от твоего наблюдения).
Из этого же, к слову, очевидно, что гаусс совершенно не подходит для таких переменных - у него есть ненулевая вероятность того, что значение (время использования программы) будет отрицательным. Ну и он неустойчив при выбивающихся из общего поведения точках (разработчик программы пользуется ею как минимум с момента начала ведения лога). То есть можно попытаться прикрутить что-нибудь типа лог-нормального распределения. Но вообще-то, тут бы я вспомнил последнюю фразу своего первого комментария :-) Потому как по-хорошему, надо сначала изучить данные, понять, какой закон прикручиваем, сколько там различных популяций (насколько поведение "скачал, попробовал, бросил" отличается от серьёзного использования, и что конкретно при этом мы хотим померить), ну и т.п.

Post a comment in response:

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting