🎲 Π—Π°Ρ‡Π΅ΠΌ Π² Π½Π°ΡƒΠΊΠ΅ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ… Π½ΡƒΠΆΠ½Ρ‹ тСория вСроятностСй ΠΈ статистика

Π—Π°Π²Π΅Ρ€ΡˆΠ°Π΅Ρ‚ наш нСбольшой Ρ†ΠΈΠΊΠ» ΠΎΠ±Π·ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΈ понятий Ρ‚Π΅ΠΎΡ€ΠΈΠΈ вСроятностСй ΠΈ статистики, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΈ Π½Π°ΡƒΠΊΠ΅ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ….

Π’ Π΄Π²ΡƒΡ… ΠΏΠ΅Ρ€Π²Ρ‹Ρ… ΡΡ‚Π°Ρ‚ΡŒΡΡ… ΠΌΡ‹ рассказали ΠΎ Ρ€ΠΎΠ»ΠΈ матСматичСского Π°Π½Π°Π»ΠΈΠ·Π° ΠΈ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ Π°Π»Π³Π΅Π±Ρ€Ρ‹ Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠŸΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Ρ Ρ‚Π΅ΠΌΡƒ, ΠΏΠΎΠ³ΠΎΠ²ΠΎΡ€ΠΈΠΌ ΠΎ Ρ‚Π΅ΠΎΡ€ΠΈΠΈ вСроятностСй ΠΈ статистикС Π² Π½Π°ΡƒΠΊΠ΅ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ…. Π‘ΠΎΠ»Π΅Π΅ ΡƒΠ³Π»ΡƒΠ±Π»Π΅Π½Π½ΠΎ эти Ρ‚Π΅ΠΌΡ‹ Π±ΡƒΠ΄ΡƒΡ‚ рассмотрСны Π² нашСм «Онлайн-курсС ΠΏΠΎ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ Π² Data Science LiteΒ».

Π‘ ΠΎΠ΄Π½ΠΎΠΉ стороны, Ρ€ΠΎΠ»ΡŒ Ρ‚Π΅ΠΎΡ€ΠΈΠΈ вСроятностСй ΠΈ статистики Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π΅Π²Π΅Π»ΠΈΠΊΠ°: ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ лишь Π±Π°Π·ΠΎΠ²Ρ‹Π΅ понятия, хотя ΠΈ довольно ΡˆΠΈΡ€ΠΎΠΊΠΎ. Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Ρ€Π°Π·Π²Π΅Π΄ΠΎΡ‡Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΡ… очистка, ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° ΠΈ конструированиС Π½ΠΎΠ²Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² – это чистая статистика. А ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ эти ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ Π² ΠΏΡ€ΠΈΠΊΠ»Π°Π΄Π½ΠΎΠΉ Π½Π°ΡƒΠΊΠ΅ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ… (Data Science) Π·Π°Π½ΠΈΠΌΠ°ΡŽΡ‚ 90-95% Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, самый Π²Π°ΠΆΠ½Ρ‹ΠΉ Ρ€Π°Π·Π΄Π΅Π» ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ для Data Scientist'ΠΎΠ² – ΠΈΠΌΠ΅Π½Π½ΠΎ статистика. ΠšΡΡ‚Π°Ρ‚ΠΈ, это ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ дСмонстрируСт Ρ€Π°Π·Π½ΠΈΡ†Ρƒ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΌΠ°ΡˆΠΈΠ½Π½Ρ‹ΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΈ Π½Π°ΡƒΠΊΠΎΠΉ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ….

"ВСроятности" классификации

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈ всС ΠΌΠΎΠ΄Π΅Π»ΠΈ классификации, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ, Π½Π° самом Π΄Π΅Π»Π΅ Π²Ρ‹Π΄Π°ΡŽΡ‚ Π½Π΅ Π΅Π΄ΠΈΠ½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ ΠΌΠ΅Ρ‚ΠΊΡƒ класса (ΠΈΠ»ΠΈ Π΅Π³ΠΎ Π½ΠΎΠΌΠ΅Ρ€), Π° Π½Π°Π±ΠΎΡ€ "вСроятностСй" принадлСТности ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ классу. ЛогистичСская рСгрСссия с Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификациСй – это Ρ‚Π° ΠΆΠ΅ линСйная рСгрСссия, Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ пропускаСтся Ρ‡Π΅Ρ€Π΅Π· Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ сигмоиды, ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΡƒΡŽ вСсь Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… чисСл ΠΊ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Ρƒ [0,1].

Π€ΡƒΠ½ΠΊΡ†ΠΈΠΈ сигмоиды с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ

Число p, ΡΠ²Π»ΡΡŽΡ‰Π΅Π΅ΡΡ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ сигмоиды, считаСтся "Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ" принадлСТности Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· классов, Π° "Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ" принадлСТности ΠΊ Π΄Ρ€ΡƒΠ³ΠΎΠΌΡƒ классу Ρ€Π°Π²Π½Π° 1-p. РазумССтся, это Π½Π΅ настоящиС вСроятности – строго говоря, Π² Π΄Π°Π½Π½ΠΎΠΌ случаС Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅Ρ‚ смысла Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΠΎ вСроятности, вСдь Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ классификации ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π΅Π½. Π’ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Π² Π΄Π°Π½Π½ΠΎΠΌ случаС Π±Ρ‹Π»ΠΎ Π±Ρ‹ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Π΅Π΅ Π½Π°Π·Ρ‹Π²Π°Ρ‚ΡŒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒΡŽ увСрСнности: Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, модСль считаСт, Ρ‡Ρ‚ΠΎ Π΄Π°Π½Π½Ρ‹ΠΉ экзСмпляр ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊ классу 1 с ΡƒΠ²Π΅Ρ€Π΅Π½Π½ΠΎΡΡ‚ΡŒΡŽ 74%. Π’Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, принято Π½Π°Π·Ρ‹Π²Π°Ρ‚ΡŒ этот ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ.

Если классов большС Π΄Π²ΡƒΡ…, вмСсто сигмоиды ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Softmax – функция, ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰Π°Ρ Π²Π΅ΠΊΡ‚ΠΎΡ€ вСщСствСнных чисСл z размСрности N Π² Π²Π΅ΠΊΡ‚ΠΎΡ€ Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… чисСл Ρ‚ΠΎΠΉ ΠΆΠ΅ размСрности, сумма ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Ρ€Π°Π²Π½Π° 1 (sigma):

Οƒ(z)i=eziβˆ‘k=1Nezk

Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ "вСроятности" принадлСТности ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ классу, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎ-Ρ€Π°Π·Π½ΠΎΠΌΡƒ. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ классификации считаСтся класс с максимальной "Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ", Π½ΠΎ Π½ΠΈΡ‡Ρ‚ΠΎ Π½Π΅ ΠΌΠ΅ΡˆΠ°Π΅Ρ‚ ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ ΠΊΠ°ΠΊΠΈΠ΅-Ρ‚ΠΎ особыС ΠΌΠ΅Ρ€Ρ‹ Π² Ρ‚Π΅Ρ… случаях, ΠΊΠΎΠ³Π΄Π° модСль "Π½Π΅ ΡƒΠ²Π΅Ρ€Π΅Π½Π°" Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ – Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ссли Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ "вСроятностями" Π½Π΅Π²Π΅Π»ΠΈΠΊΠ°.

Если для классификации ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ нСйронная ΡΠ΅Ρ‚ΡŒ, ΠΈ классов большС Π΄Π²ΡƒΡ…, послСдним слоСм этой сСти практичСски всСгда Π±ΡƒΠ΄Π΅Ρ‚ слой Softmax.

ВсС Π±ΡƒΠ΄Π΅Ρ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ

ΠΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ распрСдСлСниС, ΠΈΠ»ΠΈ распрСдСлСниС Гаусса – это сСмСйство Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ плотности распрСдСлСния вСроятности с двумя ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ: mu (срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, ΠΎΠ½ΠΎ ΠΆΠ΅ ΠΌΠ΅Π΄ΠΈΠ°Π½Π° ΠΈ ΠΌΠΎΠ΄Π°) ΠΈ sigma (стандартноС ΠΈΠ»ΠΈ срСднСквадратичСскоС ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅). Иногда вмСсто sigma ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ sigma2 – диспСрсия Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния:

ϕμ,Οƒ2(x)=1Οƒ2Ο€eβˆ’(xβˆ’ΞΌ)22Οƒ2

Π“Ρ€Π°Ρ„ΠΈΠΊ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ плотности Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния ΠΏΠΎΡ…ΠΎΠΆ Π½Π° ΠΊΠΎΠ»ΠΎΠΊΠΎΠ». Π•Π³ΠΎ Ρ†Π΅Π½Ρ‚Ρ€Π°Π»ΡŒΠ½Π°Ρ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π° Ρ€Π°Π²Π½Π° mu, Π° стандартноС ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ sigma опрСдСляСт ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ "ΠΊΡ€ΡƒΡ‚ΠΈΠ·Π½Ρ‹" Π³Ρ€Π°Ρ„ΠΈΠΊΠ°: Ρ‡Π΅ΠΌ ΠΎΠ½ΠΎ мСньшС, Ρ‡Π΅ΠΌ большая доля Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ Π±ΡƒΠ΄Π΅Ρ‚ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ Π½Π΅Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ Ρ†Π΅Π½Ρ‚Ρ€Π°.

Π€ΡƒΠ½ΠΊΡ†ΠΈΠΈ плотности Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ

Π¦Π΅Π½Ρ‚Ρ€Π°Π»ΡŒΠ½Π°Ρ ΠΏΡ€Π΅Π΄Π΅Π»ΡŒΠ½Π°Ρ Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ° гласит, Ρ‡Ρ‚ΠΎ сумма ΠΌΠ½ΠΎΠ³ΠΈΡ… слабо зависимых Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π° случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ ΠΈΠΌΠ΅Π΅Ρ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ распрСдСлСниС – ΠΈΠΌΠ΅Π½Π½ΠΎ поэтому ΠΎΠ½ΠΎ ΠΈΠΌΠ΅Π΅Ρ‚ ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для статистики, которая ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ массовыС явлСния. НапримСр, Ссли ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ, проходящий ΠΌΠΈΠΌΠΎ ΠΊΠΎΡ„Π΅ΠΉΠ½ΠΈ, Π·Π°Ρ…ΠΎΠ΄ΠΈΡ‚ Π²Ρ‹ΠΏΠΈΡ‚ΡŒ ΠΊΠΎΡ„Π΅ с ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ – Ρ‚ΠΎ количСство посСтитСлСй ΠΊΠ°Ρ„Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ распрСдСлСниС.

ΠΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ распрСдСлСниС Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ Π²Π°ΠΆΠ½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ машинного обучСния Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ Π»ΡƒΡ‡ΡˆΠ΅, Ссли Π΄Π°Π½Π½Ρ‹Π΅ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ распрСдСлСны (ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π² ΠΏΡ€ΠΎΡ‚ΠΈΠ²Π½ΠΎΠΌ случаС). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ нормализация Π΄Π°Π½Π½Ρ‹Ρ… – ΠΎΡ‡Π΅Π½ΡŒ часто выполняСмая опСрация, Π° для Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй Π΄Π°ΠΆΠ΅ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½ слой ΠΏΠ°ΠΊΠ΅Ρ‚Π½ΠΎΠΉ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ (batch normalization).

БайСсовскиС ΠΌΠΎΠ΄Π΅Π»ΠΈ

Одно сСмСйство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² машинного обучСния ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ основано Π½Π° Ρ‚Π΅ΠΎΡ€ΠΈΠΈ вСроятностСй – байСсовскиС ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π’Π΅ΠΎΡ€Π΅ΠΌΠ° БайСса опрСдСляСт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ события A, ΠΏΡ€ΠΈ условии события B, Ρ‡Π΅Ρ€Π΅Π· ΠΎΠ±Ρ€Π°Ρ‚Π½ΡƒΡŽ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΈ вСроятности A ΠΈ B:

P(A|B)=P(B|A)βˆ—P(A)P(B)

ВСроятностныС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ Π΄Π°Π½Π½Ρ‹Π΅, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΠ½ΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‚ΡΡ, ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ΅ распрСдСлСниС вСроятностСй появлСния всСх Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°. Если Π΄Π°Π½Π½Ρ‹Ρ… достаточно ΠΌΠ½ΠΎΠ³ΠΎ, ΠΈ всС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ распрСдСлСны Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ, это ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΡ‡Ρ‚ΠΈ Π²Π΅Ρ€Π½Ρ‹ΠΌ. НапримСр, Π² Π·Π°Π΄Π°Ρ‡Π΅ классификации Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ соотвСтствия Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° y для Π½Π°Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² x1, x2,..., xn ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· классов A прСдсказываСтся ΠΏΠΎ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½ΠΎΠΉ Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ΅ БайСса:

P(y=A|x1,x2,...,xn)=P(x1,x2,...,xn|y=A)βˆ—P(y=A)P(x1,x2,...,xn)

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, для получСния вСроятности Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ y ΠΏΡ€ΠΈ значСниях ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² x1, x2,..., xn ΠΏΡ€ΠΈΠΌΠ΅Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ А, Π½ΡƒΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Ρ‚Ρ€ΠΈ вСроятности:

  1. P(y = A) – Π·Π°Π²Π΅Π΄ΠΎΠΌΠΎ извСстная Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Ρƒ Ρ€Π°Π²Π½Π° A.
  2. P(x1, x2,..., xn) – совмСстная Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΡ€ΠΈΠΌΡƒΡ‚ Ρ‚Π°ΠΊΠΈΠ΅ значСния (Π»Π΅Π³ΠΊΠΎ рассчитываСтся ΠΏΠΎ Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ»ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ‚Π΅ΠΎΡ€Π΅ΠΌΡ‹ ΠΎ ΠΏΠΎΠ»Π½ΠΎΠΉ вСроятности).
  3. P(x1, x2,..., xn | Ρƒ = A) – условная Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΡ€ΠΈΠΌΡƒΡ‚ Ρ‚Π°ΠΊΠΈΠ΅ значСния ΠΏΡ€ΠΈ Π΄Π°Π½Π½ΠΎΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° (рассчитываСтся ΠΏΠΎ Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… Π»ΠΈΠ±ΠΎ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ†Π΅ΠΏΠ½ΠΎΠ³ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»Π° вСроятностСй).

НаиболСС популярСн Π½Π°ΠΈΠ²Π½Ρ‹ΠΉ байСсовский классификатор, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Π½Π΅ зависят Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Π’ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Ρ‚Π°ΠΊΠΎΠ΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΈ Π²ΠΏΡ€ΡΠΌΡŒ Π½Π°ΠΈΠ²Π½ΠΎ, Π·Π°Ρ‚ΠΎ ΠΎΠ½ΠΎ ΠΎΡ‡Π΅Π½ΡŒ ΡƒΠΏΡ€ΠΎΡ‰Π°Π΅Ρ‚ расчСт условной вСроятности.

Π Π°Π·Π²Π΅Π΄ΠΎΡ‡Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ…

Π Π°Π·Π²Π΅Π΄ΠΎΡ‡Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… (exploratory data analysis, EDA) – это ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… для принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΏΠΎ ΠΏΠΎΠ²ΠΎΠ΄Ρƒ ΠΈΡ… примСнСния, очистки, прСобразования ΠΈ конструирования Π½ΠΎΠ²Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Как сказано Π²Ρ‹ΡˆΠ΅, EDA – это чистая статистика, ΠΈ основныС Ρ†Π΅Π»ΠΈ Π΅Π³ΠΎ ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ этапа – ΠΏΠΎΠ½ΡΡ‚ΡŒ Π²ΠΈΠ΄ распрСдСлСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², основныС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ этого распрСдСлСния, ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΡ‚ΡŒ выбросы ΠΈ Ρ‚.Π΄.

Π’ ΠΏΠ΅Ρ€Π²ΡƒΡŽ ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ для Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ гистограммы ΠΈ "ящики с усами". Гистограмма просто Ρ€Π°Π·Π±ΠΈΠ²Π°Π΅Ρ‚ вСсь Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° нСсколько ΠΎΡ‚Ρ€Π΅Π·ΠΊΠΎΠ², ΠΈ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΡ‚Ρ€Π΅Π·ΠΊΠ° Π²Ρ‹Π²ΠΎΠ΄ΠΈΡ‚ количСство элСмСнтов Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΠΎΠΏΠ°Π΄Π°ΡŽΡ‰ΠΈΡ… Π² этот ΠΎΡ‚Ρ€Π΅Π·ΠΎΠΊ. Π›Π΅Π³ΠΊΠΎ Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ гистограмма ΠΎΡ‚Π΄Π°Π»Π΅Π½Π½ΠΎ ΠΏΠΎΡ…ΠΎΠΆΠ° Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ плотности распрСдСлСния вСроятности, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΏΠΎ Π½Π΅ΠΉ ΠΎΡ‡Π΅Π½ΡŒ Π»Π΅Π³ΠΊΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, распрСдСлСн Π»ΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ ΠΈΠ»ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ ΠΊΠ°ΠΊΠΎΠ΅-Ρ‚ΠΎ ΠΈΠ½ΠΎΠ΅ распрСдСлСниС. ΠžΠ±Ρ‹Ρ‡Π½ΠΎ выводятся гистограммы сразу для Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

"Π―Ρ‰ΠΈΠΊ с усами" Π½Π΅ позволяСт ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ ΠΎΠ±Ρ‰ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½Ρƒ распрСдСлСния, Π·Π°Ρ‚ΠΎ прСдоставляСт Ρ†Π΅Π½Π½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Π΅Π³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°Ρ…, особСнно квантилях. ΠšΠ²Π°Π½Ρ‚ΠΈΠ»ΡŒ – это Ρ‚Π°ΠΊΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°, Ρ‡Ρ‚ΠΎ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ этого ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… мСньшС этого квантиля. НапримСр, ΠΊΠ²Π°Π½Ρ‚ΠΈΠ»ΡŒ 50% – это Ρ‚Π°ΠΊΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Π° Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° мСньшС, Π° вторая ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Π° – большС Π½Π΅Π³ΠΎ, этот ΠΊΠ²Π°Π½Ρ‚ΠΈΠ»ΡŒ называСтся ΠΌΠ΅Π΄ΠΈΠ°Π½ΠΎΠΉ. ΠšΠ²Π°Π½Ρ‚ΠΈΠ»ΠΈ 0%, 25%, 50%, 75% ΠΈ 100% Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ квартилями, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ½ΠΈ дСлят ΠΎΠ±Π»Π°ΡΡ‚ΡŒ опрСдСлСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° Π½Π° Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ части.

"Π―Ρ‰ΠΈΠΊ с усами" ΠΈ Π΅Π³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹. ΠœΠΈΠ½ΠΈΠΌΡƒΠΌ ΠΈ максимум Π½Π΅ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ выбросы (Π½Π° рисункС Π½Π΅ ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹)

"Усы" выводятся Π±Π΅Π· ΡƒΡ‡Π΅Ρ‚Π° выбросов (outliers) – Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Q3+1.5*IQR ΠΈΠ»ΠΈ ΠΌΠ΅Π½ΡŒΡˆΠΈΡ… Q1-1.5*IQR. ΠŸΡ€ΠΈΠ½ΡΡ‚ΠΎ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ выбросы скорСС ΡΠ²ΠΈΠ΄Π΅Ρ‚Π΅Π»ΡŒΡΡ‚Π²ΡƒΡŽΡ‚ ΠΎΠ± ΠΎΡˆΠΈΠ±ΠΊΠ°Ρ… Π²Π²ΠΎΠ΄Π° Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‡Π΅ΠΌ ΠΎ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… значСниях ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΈ с Π½ΠΈΠΌΠΈ Π½Π°Π΄ΠΎ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ – Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΠ΄Π°Π»ΠΈΡ‚ΡŒ. На нашСм рисункС выбросы Π½Π΅ ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹, Π° Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… "ящиках с усами" ΠΎΠ½ΠΈ выводятся Π² Π²ΠΈΠ΄Π΅ ΠΊΡ€ΡƒΠΆΠΊΠΎΠ² Π·Π° ΠΏΡ€Π΅Π΄Π΅Π»Π°ΠΌΠΈ "усов". ВсС понятия, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΡ‹ Π³ΠΎΠ²ΠΎΡ€ΠΈΠ»ΠΈ, ΠΈΠ·ΡƒΡ‡Π°Π΅Ρ‚ статистика.

Анализ зависимостСй ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ

Для исслСдования Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… зависимостСй ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ мноТСство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², Π½ΠΎ самыС простыС ΠΈΠ· Π½ΠΈΡ… – попарная Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° ΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° коррСляции. НачнСм с ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠΉ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡ‹ (pairplot). Π’Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ΡΡ нСсколько ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², зависимости ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ, ΠΈ получаСтся комбинированная Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ°, Π²ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰Π°Ρ Π½Π΅Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡƒ рассСяния (scatter plot) для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Π’ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΊΠ»Π΅Ρ‚ΠΊΠ°Ρ… ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ выводятся Π³Ρ€Π°Ρ„ΠΈΠΊΠΈ ΠΈΠ»ΠΈ гистограммы ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

ΠŸΠΎΠΏΠ°Ρ€Π½Π°Ρ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠΈΠ½Π³Π²ΠΈΠ½ΠΎΠ² (для Ρ‚Ρ€Π΅Ρ… Ρ€Π°Π·Π½Ρ‹Ρ… Π²ΠΈΠ΄ΠΎΠ², ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½Π½Ρ‹Ρ… Ρ†Π²Π΅Ρ‚Π°ΠΌΠΈ). Рисунок взят ΠΈΠ· Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ ΠΏΠΎ Seaborn.

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ коррСляции ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ x ΠΈ y ΠΏΠΎ Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ…, состоящСму ΠΈΠ· n записСй, считаСтся ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ ("x с ΠΊΡ€Ρ‹ΡˆΠΊΠΎΠΉ" ΠΈ "y с ΠΊΡ€Ρ‹ΡˆΠΊΠΎΠΉ" – срСдниС значСния x ΠΈ y):

rxy=βˆ‘i=1n(xiβˆ’xΒ―)(yiβˆ’yΒ―)βˆ‘i=1n(xiβˆ’xΒ―)2βˆ‘i=1n(yiβˆ’yΒ―)2

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ коррСляции всСгда находится Π² ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π»Π΅ [-1, 1], ΠΈ Π΅Π³ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, насколько Π²Π΅Π»ΠΈΠΊΠ° линСйная Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ. Если Π΅Π³ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ 1, Ρ‚ΠΎ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΎΡ‡Π΅Π½ΡŒ сильна, Ссли ΠΊ -1, Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΡ€ΠΎΡ‚ΠΈΠ²ΠΎΠΏΠΎΠ»ΠΎΠΆΠ½Ρ‹ Π΄Ρ€ΡƒΠ³ Π΄Ρ€ΡƒΠ³Ρƒ, Π° Ссли ΠΊ 0 – ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Π½Π΅ зависят Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Для Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠ½ΠΎΠ³ΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² сразу ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ выводится ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° коррСляции, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Ρ†Π²Π΅Ρ‚ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ коэффициСнта соотвСтствуСт Π΅Π³ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡŽ.

ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° коррСляции для Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ "Π’ΠΈΡ‚Π°Π½ΠΈΠΊΠ΅".

НапримСр, ΠΈΠ· ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ коррСляции для Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ "Π’ΠΈΡ‚Π°Π½ΠΈΠΊΠ΅" Π»Π΅Π³ΠΊΠΎ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ какая-Ρ‚ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ коррСляция Π΅ΡΡ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΌΠ΅ΠΆΠ΄Ρƒ количСством Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ ΠΈ количСством Π΄Π΅Ρ‚Π΅ΠΉ Π½Π° Π±ΠΎΡ€Ρ‚Ρƒ: люди ΠΏΠ»Ρ‹Π»ΠΈ Π»ΠΈΠ±ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠΈ/Π² ΠΎΠ΄ΠΈΠ½ΠΎΡ‡ΠΊΡƒ, Π»ΠΈΠ±ΠΎ Ρ†Π΅Π»Ρ‹ΠΌΠΈ сСмьями. ΠžΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ коррСляция Π΅ΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ пассаТирским классом ΠΈ Ρ†Π΅Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ΅Π·Π΄Π° (СстСствСнно, Π±ΠΈΠ»Π΅Ρ‚Ρ‹ Π½ΠΈΠ·ΡˆΠΈΡ… ΠΏΠΎ Π½ΠΎΠΌΠ΅Ρ€Ρƒ классов стоили Π΄ΠΎΡ€ΠΎΠΆΠ΅) ΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠΎΠ»ΠΎΠΌ ΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ Π²Ρ‹ΠΆΠΈΠ²ΡˆΠ΅Π³ΠΎ: ΠΌΡƒΠΆΡ‡ΠΈΠ½Ρ‹ уступали мСста Π² ΡˆΠ»ΡŽΠΏΠΊΠ°Ρ… Π΄Π°ΠΌΠ°ΠΌ.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

Как ΠΌΡ‹ ΡƒΠΆΠ΅ Π³ΠΎΠ²ΠΎΡ€ΠΈΠ»ΠΈ, статистика Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ особоС мСсто Π² Π½Π°ΡƒΠΊΠ΅ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ всС Π΄Π°Π½Π½Ρ‹Π΅ ΡΠΎΠ±ΠΈΡ€Π°ΡŽΡ‚ΡΡ ΠΈ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΈΠΌΠ΅Π½Π½ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ статистики. Π‘ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΠ³ΠΎ, ΠΈΠ½ΠΎΠ³Π΄Π° вся Ρ€Π°Π±ΠΎΡ‚Π° Data Scientist'Π°, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ созданиС ΠΈ ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, проводится Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΈΠ»ΠΈ ΠΎΠΏΡ€ΠΎΠ²Π΅Ρ€Π³Π½ΡƒΡ‚ΡŒ ΠΊΠ°ΠΊΡƒΡŽ-Π½ΠΈΠ±ΡƒΠ΄ΡŒ ΡΡ‚Π°Ρ‚ΠΈΡΡ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ! А это Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Data Scientist обязан Π·Π½Π°Ρ‚ΡŒ статистику Π½Π° ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅ – ΠΏΠΎ ΠΊΡ€Π°ΠΉΠ½Π΅ΠΉ ΠΌΠ΅Ρ€Π΅, ΠΈΠΌΠ΅Π½Π½ΠΎ Ρ‚Π°ΠΊΠΈΠ΅ трСбования ΠΊ Π½ΠΈΠΌ ΠΏΡ€Π΅Π΄ΡŠΡΠ²Π»ΡΡŽΡ‚ Π½Π° Π—Π°ΠΏΠ°Π΄Π΅. Помимо статистики придСтся ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ основы матСматичСского Π°Π½Π°Π»ΠΈΠ·Π° ΠΈ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ Π°Π»Π³Π΅Π±Ρ€Ρ‹, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… шла Ρ€Π΅Ρ‡ΡŒ Π² ΠΏΠ΅Ρ€Π²Ρ‹Ρ… публикациях нашСго нСбольшого Ρ†ΠΈΠΊΠ»Π°.

***

Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ Π½Π°Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡƒΡŽ для изучСния Data Science ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π±Π°Π·Ρƒ ΠΈ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΡ‚ΡŒΡΡ ΠΊ ΡƒΠ³Π»ΡƒΠ±Π»Π΅Π½Π½Ρ‹ΠΌ занятиям Π² Β«Π¨ΠΊΠΎΠ»Π΅ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…Β» ΠΈΠ»ΠΈ Computer Science Center, ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚Π΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π½Π° ΠΎΠ½Π»Π°ΠΉΠ½-курс Β«Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ программиста». Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠΏΡ‹Ρ‚Π½Ρ‹Ρ… ΠΏΡ€Π΅ΠΏΠΎΠ΄Π°Π²Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΈΠ· Π²Π΅Π΄ΡƒΡ‰ΠΈΡ… Π²ΡƒΠ·ΠΎΠ² страны ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ это Π±ΡƒΠ΄Π΅Ρ‚ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ‰Π΅, Ρ‡Π΅ΠΌ ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎ ΠΊΠ½ΠΈΠ³Π°ΠΌ.

Π›Π£Π§Π¨Π˜Π• БВАВЬИ ПО Π’Π•ΠœΠ•

Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° программиста
16 ноября 2019

DeepFake-Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π»: создаСм собствСнный Π΄ΠΈΠΏΡ„Π΅ΠΉΠΊ Π² DeepFaceLab

РассказываСм ΠΎ Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ DeepFake ΠΈ шаг Π·Π° шагом учимся Π΄Π΅Π»Π°Ρ‚ΡŒ Π΄ΠΈΠΏΡ„Π΅ΠΉΠΊΠΈ Π² ...
Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° программиста
08 октября 2017

13 рСсурсов, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΡƒ

Π‘Ρ€Π΅Π΄ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ² часто Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‚ споры ΠΎ Ρ‚ΠΎΠΌ, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π»ΠΈ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ ΠΌΠ°Ρ‚Π΅...
admin
14 июля 2017

ПишСм свою Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ: пошаговоС руководство

ΠžΡ‚Π»ΠΈΡ‡Π½Ρ‹ΠΉ Π³Π°ΠΉΠ΄ ΠΏΡ€ΠΎ Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ ΠΎΡ‚ Ρ‚Π΅ΠΎΡ€ΠΈΠΈ ΠΊ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅. Π’Ρ‹ ΡƒΠ·Π½Π°Π΅Ρ‚Π΅ ΠΈΠ· ΠΊΠ°ΠΊΠΈΡ… элСмС...