Статистика: много ли вы проверяете?

Перевод статьи Statistics: How Many Would You Check? | Автор: Jonathan Palardy (спасибо!)

Представьте себе ситуацию: вы просто выполняли пакетное обновление на миллион пользователей в базе данных. Не было никаких сообщений об ошибках и вы уверены, что все прошло хорошо. Однако не мешало бы проверить...

Сколько пользователей у вас должно быть для проверки – чтобы уверенно чувствовать, что все работает, по крайней мере, у 95% пользователей? Вот некоторые мысли по этому поводу.

  • Если вы не проверите – вы не узнаете,: уверенность – 0%. Ведь, может быть, ваше пакетное обновление не будет работать вообще, хотя и не было никаких сообщений об ошибках.
  • Если вы проверьте все, что вы знаете ответ: уверенность – 100%. Но может быть много работы...
  • Если вы проверите некоторых пользователей (возможно, 10), и обновление работает... Вы сможете начать чувствовать себя лучше. Насколько уверены вы можете быть?

Я не думаю, что ответ очевиден. Я еще подумаю об этом.

Крюк: средний рейтинг

Я вспомнил свое чтение "Как не сортировать по Среднему рейтингу" и думал, что мог бы применить ту же логику к описанной проблеме.

Если у вас есть только один отзыв, и он положительный – это 100%? Интуитивно мы знаем, что нет: это просто мнение одного человека. Поскольку все больше и больше людей дают положительные отзывы, мы можем чуть больше доверять точности оценки.

Цитата из статьи:

Учитывая рейтинги, есть ли у меня 95% вероятность "реальной" доли положительных оценок?

Мы можем использовать нижнюю границу доверительного интервала Вильсона.

На практике, с использованием R

Функция binom.wilson, из пакета binom, может использоваться так:

 

> binom.wilson(18, 20)
    method  x  n mean     lower     upper
  1 wilson 18 20  0.9 0.6989664 0.9721335

 

Другими словами, если мы пробовали 18 позитивных и негативых отзывов (18/20), "реальная" доля, вероятно, находится между 0,699 и 0,972 (в среднем – 0,9).

Для нашего примера это сулит 100% успех:

> binom.wilson(10, 10)
    method  x  n mean     lower upper
  1 wilson 10 10    1 0.7224672     1

Верхняя граница не очень интересна, мы не заинтересованы в лучшем случае. Но если вы посмотрите 10 случаетв, и все они успешны, вы можете быть уверены, что они сработали для (нижней границы) 72,2% пользователей.

Если мы будем проверять и дальше, то сможем чувствовать себя все более и более уверенными в "истинности" успеха:

Чтобы достичь нижней границы 95% «истинного» успеха (красная линия), понадобится 73 проверок.

Анализ

Вот анализ в виде RMarkdown документа, а также HTML-документ.