Теорема Байеса: Святой Грааль Data Science

Теорема Байеса — одно из важнейших правил теории вероятностей, применяемых в Data Science. Рассмотрим интуитивный вывод теоремы на практике.

1. Введение

Теорема Байеса, названная в честь британского математика XVIII века Томаса Байеса, представляет собой математическую формулу для определения условных вероятностей. Эта теорема имеет огромное значение в области науки о данных. Например, одним из многих приложений теоремы Байеса является Байесовский вывод – особый подход к статистическому выводу.

Байесовский вывод – это метод, в котором теорема Байеса используется для обновления вероятности гипотезы по мере получения дополнительных подтверждений или иной информации. Байесовский вывод нашел применение в широком спектре видов деятельности, включая науку, инженерию, философию, медицину, спорт и право.

Так, в финансах теорема Байеса используется для оценки риска кредитования потенциальных заемщиков. В медицине теорема Байеса применяется для определения точности результатов медицинских тестов и вероятности, что у данного человека имеется потенциальное заболевание.

2. Постановка задачи

Для наглядности рассмотрим пример. Пусть у нас есть две чаши – X и Y, заполненные смесями шаров: оранжевых (будем обозначать их O – orange) и синих (будем обозначать их B – blue). При этом вы наперед точно знаете, сколько шаров имеется в каждой из чаш.

В этом случае нет никакой сложности узнать какова вероятность достать, например, оранжевый шар из чаши X. Если дело обстоит так, как это представлено на рисунке ниже, то в чаше 11 шаров, 3 из них —оранжевые. Поэтому вероятность достать оранжевый шар равна p(O)=3/11.

Но что если перед нами стоит обратная задача? Можно ли определить вероятность того, из какой чаши (X или Y) мы достали шар определенного цвета?

На этот вопрос дает ответ теорема Байеса.

3. Теорема Байеса: вывод выражения

Чтобы вывести теорему Байеса, представим эксперимент. Пусть мы бросаем игральную кость. Каждый раз, когда игральная кость показывает число 4 или меньше, мы берем элемент из чаши X, а для числа 5 и выше – элемент из чаши Y. Порог может быть выбран любым другим образом, важно лишь то, что мы случайным образом выбираем, из какой чаши взять объект. После того как мы взяли шар, мы возвращаем его обратно в чашу. И повторяем эту процедуру N=300 раз.

После того как мы бросим кость N раз, мы получим некоторые статистические результаты относительно количества предметов, взятых нами из двух чаш. Гипотетический результат эксперимента показан на диаграмме.

Буквой s принято обозначать источник (source). В нашем примере это чаши. Буквой y обозначаются наблюдаемые переменные (оранжевые и синие шары).

Рисунок говорит нам, что мы взяли…

  • ... 148 раз синий шар из чаши X: n(s=X, y=B)=148
  • ... 26 раз синий шар из чаши Y: n(s=Y, y=B)=26
  • ... 51 раз оранжевый шар из чаши X: n(s=X, y=O)=51
  • ... 75 раз оранжевый шар из чаши Y: n(s=Y, y=O)=75

Учитывая эти статистические данные, мы можем задаться несколькими вопросами.

Какова вероятность взять случайный предмет из чаши X?

Чтобы получить эту вероятность, которую мы обозначим как p(s=X), мы должны разделить общее количество синих и оранжевых шаров, взятых из чаши X, на число повторений N=300. Таким образом, вероятность взять случайный предмет из X выглядит следующим образом:

Очевидно, что так как суммарная вероятность взять предмет из какой-либо чаши равна 1, то вероятность взять шар из чаши Y равна:

В байесовском статистическом выводе такая вероятность называется априорной – мы говорим об источнике (чашах X и Y), но нам неважно, какой именно элемент мы из него взяли.

Какова вероятность достать синий/оранжевый шар?

Аналогично предыдущему выводу легко оценить какова вероятность достать, например, оранжевый шар, не учитывая, из какой чаши мы его достали. Делим число случаев, когда мы достали оранжевый шар на общее число экспериментов:

Для синих шаров соответственно:

Какова вероятность достать синий шар из чаши X?

Теперь вычислим вероятность наступления совместного события. Фактически мы берем один из квадрантов приведенной выше диаграммы и делим на общее число экспериментов:

Аналогично можно найти вероятности для других совместных событий достать конкретный шар из конкретной чаши:

Если мы достали шар из X, какова вероятность, что он будет синим?

Мы уже рассматривали этот пример в самом начале. Такая вероятность называется условной. Условная вероятность – вероятность наступления одного события (достать синий шар) при условии, что другое событие уже произошло (событие выбора чаши X). Такая вероятность обозначается p(y|s).

В отличие от предыдущих вопросов, в этом мы рассматриваем не все N экспериментов, а только те, в которых мы достаем шар из чаши X, следовательно знаменатель будет другим:

Правило умножения вероятностей

Возьмем полученную ранее формулу для вероятности достать синий шар из чаши X. Домножим числитель и знаменатель на одну и ту же сумму (n(s=X, y=B)+n(s=X, y=O)). Значение вероятности от этого, очевидно, не изменится.

Однако если вы присмотритесь к получаемому выражению, можно заметить, что в дроби крест-накрест образуются найденные нами выше выражения для вероятностей p(y=B|s=X) и p(s=X).

Получившееся отношение называется правилом умножения вероятностей. Правило позволяет найти вероятность совместного наступления событий p(s=X, y=B) из условной p(y=B|s=X) и априорной p(s=X) вероятностей.

Правило сложения вероятностей

Теперь рассмотрим выведенное выше выражение для априорной вероятности p(s=X). Сумму в числителе можно по отдельности разделить на знаменатель:

В результате получается сумма вероятностей совместного наступления двух разных видов событий и одного и того же источника.

Правило Байеса

Заметим, что для правила умножения не имеет значения порядок наступления совместных событий:

То есть вероятности p(s, y) и p(y, s) имеют одинаковое значение. Из подстановки легко получается новое выражение для p(s|y), которое и называют правилом Байеса:

4. Итог: из какой же чаши мы достали синий шар?

Теорема Байеса дает нам формулу нахождения условной вероятности p(s|y) – вероятности, что если произошло событие y (мы достали синий шар y=B), то источником этого y был s. А это и есть то, что мы искали, когда задавали вопрос в начале статьи.

Найдем вероятность достать синий шар из чаши X. Она обозначается соответственно p(s=X|y=B). Вероятность, что синий шар достали из чаши Y будет 1-p(s=X|y=B), либо, если считать заново, p(s=Y|y=B).

Ответ на поставленный вопрос – если мы достали синий шар, то вероятность 86%, что это шар из чаши X, и 14%, что из чаши Y.

Без найденного правила расчет p(s|y) был бы существенно сложнее. Таким образом, теорема Байеса позволяет находить искомую вероятность из легко вычислимых вероятностей.

Знаете другие полезные теоремы, которые стоило бы рассмотреть подробнее? Пишите в комментариях :)

Оригинальная публикация (англ. язык)

Вас также могут заинтересовать другие материалы:

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

admin
14 июля 2017

Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете из каких элеме...