πŸ“Š ΠŸΡ€ΠΎΠ²Π΅Ρ€ΡŒΡ‚Π΅ свои Π½Π°Π²Ρ‹ΠΊΠΈ: Π΅Ρ‰Π΅ 26 вопросов с собСсСдований ΠΏΠΎ Data Science с ΠΎΡ‚Π²Π΅Ρ‚Π°ΠΌΠΈ

Π‘Ρ‚Π°Ρ‚ΡŒΡ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ Ρ‚Π΅ΠΌΡƒ ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ (Β«26 вопросов ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² с собСсСдований») ΠΈ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ 26 Π½ΠΎΠ²Ρ‹Ρ… вопросов для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Π½Π°Π²Ρ‹ΠΊΠΎΠ² Π² Data Science.

Π‘ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π»ΠΈ Π²Ρ‹ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° всС?

Π’ΠΎΡ‚ Π΅Ρ‰Π΅ 26 вопросов с собСсСдований ΠΏΠΎ Data Science ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° эти вопросы (ΠΏΠ΅Ρ€Π²Ρ‹Π΅ 26 ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь). Вопросы упорядочСны ΠΏΠΎ Ρ‚Π΅ΠΌΠ°ΠΌ ΠΎΡ‚ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ ΠΈ статистики ΠΊ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌ ΠΈ Π΄Π°Π»Π΅Π΅ ΠΊ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΈ NLP, Π° вопросы ΠΏΠΎ ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… разбросаны ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ. Π― Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽ Ρ‡ΠΈΡ‚Π°Ρ‚ΡŒ вопросы ΠΈ ΠΏΡ‹Ρ‚Π°Ρ‚ΡŒΡΡ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° Π½ΠΈΡ… ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ, ΠΏΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΊ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ΅ своСго ΠΎΡ‚Π²Π΅Ρ‚Π°.

Π‘ΡƒΠ΄ΡŒ Π²Ρ‹ студСнтом Π²ΡƒΠ·Π° ΠΈΠ»ΠΈ ΠΎΠΏΡ‹Ρ‚Π½Ρ‹ΠΌ профСссионалом, любой ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ (ΠΈΠ»ΠΈ ΠΎΡΠ²Π΅ΠΆΠΈΡ‚ΡŒ) свои Π½Π°Π²Ρ‹ΠΊΠΈ, ΠΏΠΎΡ‚Ρ€Π°Ρ‚ΠΈΠ² совсСм Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

Π‘ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π»ΠΈ Π²Ρ‹ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° всС вопросы? ΠŸΠΎΠ΅Ρ…Π°Π»ΠΈ!

1). КакиС Ρ„ΠΎΡ€ΠΌΡ‹ ошибок Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ (selection bias) ΠΌΠΎΠΆΠ½ΠΎ Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒ Π² Π΄Π°Π½Π½Ρ‹Ρ…?

  • Ошибка ΠΎΡ‚Π±ΠΎΡ€Π° (sampling bias)- систСматичСская ошибка, Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‰Π°Ρ ΠΈΠ·-Π·Π° нСслучайного ΠΎΡ‚Π±ΠΎΡ€Π° участников Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ популяции Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Π² Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°Ρ… Ρ€Π΅ΠΆΠ΅, Ρ‡Π΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΠ΅. НапримСр, ΠΎΠ½Π»Π°ΠΉΠ½-опросы ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ Π±Π΅Π΄Π½Ρ‹Π΅ сСмьи ΠΈΠ»ΠΈ Π²ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ ΠΈΡ… Ρ€Π΅ΠΆΠ΅, Ρ‡Π΅ΠΌ ΠΎΠ½ΠΈ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ.
  • Ошибка Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π»Π° (time interval bias) - ΠΏΡ€Π΅Ρ€Ρ‹Π²Π°Π½ΠΈΠ΅ испытания ΠΏΡ€ΠΈ достиТСнии ΠΆΠ΅Π»Π°Π΅ΠΌΠΎΠ³ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° ΠΈΠ»ΠΈ ΡΠΊΡΡ‚Ρ€Π΅ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΏΠΎ этичСским ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°ΠΌ). Ошибка Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΏΡ€Π΅ΠΆΠ΄Π΅Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠ΅ достиТСниС Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎ для ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… с высокой диспСрсиСй, Π΄Π°ΠΆΠ΅ Ссли срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ всСх ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ.
  • Ошибка Π²Ρ‹Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… (data bias) – Π²Ρ‹Π±ΠΎΡ€ подмноТСств Π΄Π°Π½Π½Ρ‹Ρ… для Π΄ΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΡΡ‚Π²Π° ΠΈΠ»ΠΈ опровСрТСния Π³ΠΈΠΏΠΎΡ‚Π΅Π· Π½Π΅ соотвСтствуСт ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡŠΡΠ²Π»Π΅Π½Π½Ρ‹ΠΌ ΠΈΠ»ΠΈ согласованным критСриям.
  • НаконСц, ошибка Π²Ρ‹ΠΆΠΈΠ²ΡˆΠ΅Π³ΠΎ (attrition bias) – ошибка, вызванная ΠΏΠΎΡ‚Π΅Ρ€Π΅ΠΉ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π΄ΠΎΠ»ΠΈ участников, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ‚Π΅ участники, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ дошли Π΄ΠΎ ΠΊΠΎΠ½Ρ†Π° испытаний, Π½Π΅ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ.

2). ΠžΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚Π΅ ΠŸΡ€ΠΎΡ†Π΅Π½Ρ‚ ошибок (Error Rate), Π”ΠΎΡΡ‚ΠΎΠ²Π΅Ρ€Π½ΠΎΡΡ‚ΡŒ (Accuracy), Π§ΡƒΠ²ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ/ΠŸΠΎΠ»Π½ΠΎΡ‚Ρƒ (Sensitivity/Recall), Π‘ΠΏΠ΅Ρ†ΠΈΡ„ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ (Specificity), Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (Precision) ΠΈ F-ΠΌΠ΅Ρ€Ρƒ (F-Score)

Рассмотрим ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ ошибок, Π³Π΄Π΅ T – это истинный Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ (True), F – Π»ΠΎΠΆΠ½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ (False), P – ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ (Positive), Π° N – Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΉ (Negative):

  • Error Rate: (FP + FN) / (P + N). Π­Ρ‚ΠΎ доля ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½Ρ‹Ρ… прСдсказаний ΠΈΠ· всСх.
  • Accuracy: (TP + TN) / (P + N). Π­Ρ‚ΠΎ доля истинных прСдсказаний ΠΈΠ· всСх.
  • Sensitivity/Recall: TP / P. Π­Ρ‚ΠΎ доля истинно прСдсказанных ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Ρ….
  • Specificity: TN / N. Π­Ρ‚ΠΎ доля истинных прСдсказаний ΠΈΠ· Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹Ρ….
  • Precision: TP / (TP + FP). Доля истинных ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΈΠ· прСдсказанных ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Ρ….
  • F-Score: гармоничСскоС срСднСС ΠΌΠ΅ΠΆΠ΄Ρƒ Precision ΠΈ Recall.

3). Π§Π΅ΠΌ коррСляция отличаСтся ΠΎΡ‚ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ?

ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ считаСтся Π»ΡƒΡ‡ΡˆΠ΅ΠΉ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΎΠΉ для измСрСния ΠΈ количСствСнной ΠΎΡ†Π΅Π½ΠΊΠΈ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ, ΠΈ измСряСт, насколько сильна Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ.

ΠšΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΡ измСряСт ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π΄Π²Π΅ случайныС ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΈΠ·ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Π² Ρ†ΠΈΠΊΠ»Π΅. Π˜Π½Π°Ρ‡Π΅ говоря, ΠΎΠ½Π° измСряСт ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌ измСнСниям Π²Ρ‚ΠΎΡ€ΠΎΠΉ.

4). ΠŸΠΎΡ‡Π΅ΠΌΡƒ A/B тСстированиС эффСктивно?

A/B тСстированиС – это тСстированиС Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ для Ρ€Π°Π½Π΄ΠΎΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ экспСримСнта с двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ A ΠΈ B. Π•Π³ΠΎ Ρ†Π΅Π»ΡŒ – ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π»ΡŽΠ±Ρ‹Π΅ измСнСния, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π½Π° web-страницС, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΈΠ· Π³Ρ€ΡƒΠΏΠΏΡ‹ A ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ привСтствиС Β«Π”ΠΎΠ±Ρ€Ρ‹ΠΉ дСнь», Π° ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΈΠ· Π³Ρ€ΡƒΠΏΠΏΡ‹ B – Β«Π”ΠΎΠ±Ρ€ΠΎ ΠΏΠΎΠΆΠ°Π»ΠΎΠ²Π°Ρ‚ΡŒΒ». A/B тСстированиС эффСктивно, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ½ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ ΡΠΎΠ·Π½Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΏΡ€Π΅Π΄ΡƒΠ±Π΅ΠΆΠ΄Π΅Π½ΠΈΠ΅ – люди ΠΈΠ· Π³Ρ€ΡƒΠΏΠΏΡ‹ А Π½Π΅ Π·Π½Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΈΠ· Π³Ρ€ΡƒΠΏΠΏΡ‹ А, Ρ‡Ρ‚ΠΎ сущСствуСт Π³Ρ€ΡƒΠΏΠΏΠ° B ΠΈ Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚. Π­Ρ‚ΠΎ Ρ…ΠΎΡ€ΠΎΡˆΠΈΠΉ способ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎ чСстной ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ. Однако A/B тСстированиС Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ для любого контСкста, ΠΊΡ€ΠΎΠΌΠ΅ Π˜Π½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-бизнСсов.

Π˜Π»Π»ΡŽΡΡ‚Ρ€Π°Ρ†ΠΈΡ A/B тСстирования (источник)

5). Как Π±Ρ‹ Π²Ρ‹ сгСнСрировали случайноС число ΠΎΡ‚ 1 Π΄ΠΎ 7, имСя всСго ΠΎΠ΄ΠΈΠ½ ΡˆΠ΅ΡΡ‚ΠΈΠ³Ρ€Π°Π½Π½Ρ‹ΠΉ ΠΊΡƒΠ±ΠΈΠΊ?

Одно ΠΈΠ· Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ – это Π±Ρ€ΠΎΡΠΈΡ‚ΡŒ ΠΊΡƒΠ±ΠΈΠΊ Π΄Π²Π° Ρ€Π°Π·Π°. ΠŸΡ€ΠΈ этом количСство Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ Ρ€Π°Π²Π½ΠΎ 6*6 = 36. Если ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ ΠΎΠ΄Π½Ρƒ ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡŽ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 6 ΠΈ 6), останСтся 35 Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ. Если ΠΌΡ‹ Π½Π°Π·Π½Π°Ρ‡ΠΈΠΌ ΠΏΠΎ 5 ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ (порядок ΠΈΠΌΠ΅Π΅Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅!) ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΈΠ· 7 Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ случайноС число ΠΎΡ‚ 1 Π΄ΠΎ 7.

НапримСр, ΠΌΡ‹ выбросили (1, 2). ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΌΡ‹, гипотСтичСски, Π½Π°Π·Π½Π°Ρ‡ΠΈΠ»ΠΈ ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ бросков (1, 1), (1, 2), (1, 3), (1, 4) ΠΈ (1, 5) Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρƒ 1, Ρ‚ΠΎ нашС случайно сгСнСрированноС число Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π²Π½ΠΎ 1.

6). Π’ Ρ‡Π΅ΠΌ Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ ΡƒΠ½ΠΈΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΌ, Π±ΠΈΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΌ ΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΌ Π°Π½Π°Π»ΠΈΠ·ΠΎΠΌ?

Π£Π½ΠΈΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· – это ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ статистичСского Π°Π½Π°Π»ΠΈΠ·Π°, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΠ΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ. Он Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡ‹, гистограммы ΠΈ «ящики с усами» (boxplots).

Π‘ΠΈΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· пытаСтся ΠΏΠΎΠ½ΡΡ‚ΡŒ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡ‹ рассСяния (scatter plot), ΠΊΠΎΠ½Ρ‚ΡƒΡ€Π½Ρ‹Π΅ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡ‹ ΠΈ Π°Π½Π°Π»ΠΈΠ· Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… рядов.

ΠœΡƒΠ»ΡŒΡ‚ΠΈΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· ΠΈΠΌΠ΅Π΅Ρ‚ Π΄Π΅Π»ΠΎ с нСсколькими ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ½ΡΡ‚ΡŒ влияниС этих ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π½Π° Ρ†Π΅Π»Π΅Π²ΡƒΡŽ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΡƒΡŽ. Он ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй для прСдсказаний ΠΈΠ»ΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠ΅ SHAP-Π³Ρ€Π°Ρ„ΠΈΠΊΠΎΠ² ваТности Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ/ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ для нахоТдСния самого Π²Π°ΠΆΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°. Он Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡ‹ рассСяния с Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ Π² Π²ΠΈΠ΄Π΅ Ρ†Π²Π΅Ρ‚Π° ΠΈΠ»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Ρ‚ΠΎΡ‡Π΅ΠΊ.

7). Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кросс-валидация? КакиС ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΎΠ½Π° пытаСтся Ρ€Π΅ΡˆΠΈΡ‚ΡŒ? ΠŸΠΎΡ‡Π΅ΠΌΡƒ ΠΎΠ½Π° эффСктивна?

ΠšΡ€ΠΎΡΡ-валидация – это ΠΌΠ΅Ρ‚ΠΎΠ΄ опрСдСлСния, насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ модСль обобщаСтся Π½Π° вСсь Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ΅ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° тСстовыС ΠΈ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹Π΅, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Ρ‡Π°ΡΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Ρ… случайно выбираСтся для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ – для тСстирования, ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ модСль Π±ΡƒΠ΄Π΅Ρ‚ Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π½Π° ΠΎΠ΄Π½ΠΈΡ… случайно Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Ρ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Π°Ρ… тСстовых Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΏΠ»ΠΎΡ…ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π½Π° Π΄Ρ€ΡƒΠ³ΠΈΡ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Π°Ρ…. Π˜Π½Ρ‹ΠΌΠΈ словами, ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π±ΡƒΠ΄ΡƒΡ‚ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ качСству ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π° случайному Π²Ρ‹Π±ΠΎΡ€Ρƒ тСстовых Π΄Π°Π½Π½Ρ‹Ρ….

ΠšΡ€ΠΎΡΡ-валидация (источник)

ΠšΡ€ΠΎΡΡ-валидация Π΄Π΅Π»ΠΈΡ‚ Π΄Π°Π½Π½Ρ‹Π΅ Π½Π° n сСгмСнтов. МодСль обучаСтся Π½Π° n-1 сСгмСнтах ΠΈ тСстируСтся Π½Π° ΠΎΡΡ‚Π°Π²ΡˆΠ΅ΠΌΡΡ сСгмСнтС. Π—Π°Ρ‚Π΅ΠΌ модСль Π·Π°Π½ΠΎΠ²ΠΎ инициализируСтся ΠΈ обучаСтся Π½Π° Π΄Ρ€ΡƒΠ³ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅ ΠΈΠ· n-1 сСгмСнтов. Π­Ρ‚ΠΎΡ‚ процСсс повторяСтся, ΠΏΠΎΠΊΠ° модСль Π½Π΅ прСдскаТСт значСния для всСх Π΄Π°Π½Π½Ρ‹Ρ… (Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ прСдсказаний ΡƒΡΡ€Π΅Π΄Π½ΡΡŽΡ‚ΡΡ). ΠšΡ€ΠΎΡΡ-валидация ΠΏΠΎΠ»Π΅Π·Π½Π°, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ½Π° прСдоставляСт Π±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ»Π½ΠΎΠ΅ прСдставлСниС ΠΎ качСствС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° всСм Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ….

8). Π§Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ слово Β«Π½Π°ΠΈΠ²Π½Ρ‹ΠΉΒ» Π² «Наивном БайСсовском классификаторС»?

Наивный БайСсовский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ основан Π½Π° Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ΅ БайСса, которая описываСт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ события, ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ Π·Π½Π°Π½ΠΈΠΈ условий, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΊ этому ΡΠΎΠ±Ρ‹Ρ‚ΠΈΡŽ. Алгоритм считаСтся Β«Π½Π°ΠΈΠ²Π½Ρ‹ΠΌΒ», ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π΄Π΅Π»Π°Π΅Ρ‚ ряд ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΈΠ»ΠΈ Π½Π΅ Π±Ρ‹Ρ‚ΡŒ Π²Π΅Ρ€Π½Ρ‹ΠΌΠΈ. Π’ΠΎΡ‚ ΠΏΠΎΡ‡Π΅ΠΌΡƒ этот Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‡Π΅Π½ΡŒ ΠΌΠΎΡ‰Π½Ρ‹ΠΌ, Ссли ΠΎΠ½ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ – ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΎΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ поиск знания, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΈΡΠΊΠ°Ρ‚ΡŒ, просто принимая Π½Π° Π²Π΅Ρ€Ρƒ Π΅Π³ΠΎ ΠΈΡΡ‚ΠΈΠ½Π½ΠΎΡΡ‚ΡŒ.

9). КакиС ядра ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π² SVM?

Π•ΡΡ‚ΡŒ Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Π²ΠΈΠ΄Π° ядСр SVM:

  • Π›ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ΅ ядро.
  • ПолиномиальноС ядро.
  • Π―Π΄Ρ€ΠΎ Ρ€Π°Π΄ΠΈΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ базиса.
  • Π‘ΠΈΠ³ΠΌΠΎΠΈΠ΄Π½ΠΎΠ΅ ядро.

10). Как ΡΠΏΡ€Π°Π²ΠΈΡ‚ΡŒΡΡ с ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ Π”Π΅Ρ€Π΅Π²ΡŒΠ΅Π² РСшСний?

Π”Π΅Ρ€Π΅Π²ΡŒΡ РСшСний часто ΠΈΠΌΠ΅ΡŽΡ‚ высокоС смСщСниС (bias), ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΡΡƒΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ создании Π½ΠΎΠ²Ρ‹Ρ… ΡƒΠ·Π»ΠΎΠ² Π΄Π΅Ρ€Π΅Π²Π° ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ для Ρ‚Π°ΠΊΠΈΡ… ниш. Если это Π½Π΅ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ, Π΄Π΅Ρ€Π΅Π²ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ создаст Ρ‚Π°ΠΊΠΎΠ΅ ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠ΅ количСство ΡƒΠ·Π»ΠΎΠ², Ρ‡Ρ‚ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π½Π° Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, Π½ΠΎ ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠ»ΠΎΡ…ΠΎ Π½Π° тСстовых. Один ΠΈΠ· ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π±ΠΎΡ€ΡŒΠ±Ρ‹ с ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ называСтся ΠΏΠΎΠ΄Ρ€Π΅Π·ΠΊΠΎΠΉ (pruning).

Π”Π΅Ρ€Π΅Π²ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½Π½ΠΎΠ΅ ΠΏΠΎΠ΄ Π΄Π°Π½Π½Ρ‹Π΅ (источник)

ΠžΠ±Ρ€Π΅Π·ΠΊΠ° – это ΠΌΠ΅Ρ‚ΠΎΠ΄ сокращСния Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ посрСдством удалСния Ρ‚Π΅Ρ… сСкций Π΄Π΅Ρ€Π΅Π²Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠ°Π»ΠΎ ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ классификации. Π­Ρ‚ΠΎ позволяСт ΠΎΠ±ΠΎΠ±Ρ‰ΠΈΡ‚ΡŒ Π΄Π΅Ρ€Π΅Π²ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΈ заставляСт Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ·Π»Ρ‹, Π²Π°ΠΆΠ½Ρ‹Π΅ для структуры Π΄Π°Π½Π½Ρ‹Ρ…, Π° Π½Π΅ просто ΡˆΡƒΠΌ.

11. ΠžΠ±ΡŠΡΡΠ½ΠΈΡ‚Π΅ ΠΈ Π΄Π°ΠΉΡ‚Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ, Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π° ΠΈ Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ

ΠšΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Π°Ρ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ – это Ρ„ΠΎΡ€ΠΌΠ° Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ систСмы, которая опрСдСляСт Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠ½Ρ€Π°Π²ΠΈΡ‚ΡŒΡΡ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ, ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎ Π΅Π³ΠΎ Ρ€Π΅ΠΉΡ‚ΠΈΠ½Π³Π°ΠΌ. ВсС Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚Ρ‹ Ρ‚ΠΎΠ²Π°Ρ€Π° ΠΈΠ·ΡƒΡ‡Π°ΡŽΡ‚ΡΡ посрСдством взаимодСйствия с ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ ΠΈΠ»ΠΈ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ. Один ΠΈΠ· ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ – это факторизация ΠΌΠ°Ρ‚Ρ€ΠΈΡ†.

Π€ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π° – другая Ρ„ΠΎΡ€ΠΌΠ° Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ систСмы, Π²Ρ‹Π΄Π°ΡŽΡ‰Π°Ρ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ исходя ΠΈΠ· Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΡ… Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ² Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² ΠΈ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², Ρ‚Π°ΠΊΠΈΡ…, ΠΊΠ°ΠΊ Ρ†Π΅Π½Π° Ρ‚ΠΎΠ²Π°Ρ€Π°, возраст ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π° ΠΈ Ρ‚.ΠΏ. Один ΠΈΠ· способов Π΄ΠΎΠ±ΠΈΡ‚ΡŒΡΡ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π° – Π½Π°ΠΉΡ‚ΠΈ сходство ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ профиля ΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ Ρ‚ΠΎΠ²Π°Ρ€Π°, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΊΠΎΡΠΈΠ½ΡƒΡΠ½ΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ сходства.

Гибридная Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ Π±Π΅Ρ€Π΅Ρ‚ Π»ΡƒΡ‡ΡˆΠ΅Π΅ ΠΈΠ· ΠΎΠ±ΠΎΠΈΡ… ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ², комбинируя ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΡƒΡŽ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡŽ ΠΈ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡŽ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π° для получСния Π»ΡƒΡ‡ΡˆΠΈΡ… Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ. Однако Π²Ρ‹Π±ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ зависит ΠΎΡ‚ контСкста ΠΈΠ· Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΌΠΈΡ€Π°, ΠΈ гибридная Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ Π½Π΅ всСгда Π±ΡƒΠ΄Π΅Ρ‚ Π»ΡƒΡ‡ΡˆΠΈΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ.

12). Π’ Ρ‡Π΅ΠΌ Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ bagging ΠΈ boosting для ансамблСй?

Bagging – это ΠΌΠ΅Ρ‚ΠΎΠ΄ обучСния ансамблСй, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ готовятся нСсколько ΠΏΠΎΠ΄Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ… случайным Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΈΠ· всСго Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… (ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠ΅Ρ€Π΅ΠΊΡ€Ρ‹Π²Π°Ρ‚ΡŒΡΡ). ПослС этого всС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‚ΡΡ Π½Π° ΠΎΠ΄Π½ΠΎΠΌ ΠΏΠΎΠ΄Π½Π°Π±ΠΎΡ€Π΅, ΠΈ ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΡΠΎΠ±ΠΈΡ€Π°ΡŽΡ‚ΡΡ вмСстС с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ.

Boosting – это итСративная Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ°, которая измСняСт вСс наблюдСния Π² зависимости ΠΎΡ‚ послСднСй классификации. Если наблюдСниС Π±Ρ‹Π»ΠΎ классифицировано ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ, Π΅Π³ΠΎ вСс увСличиваСтся, ΠΈ Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚. Бустинг ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ ΠΎΡˆΠΈΠ±ΠΊΡƒ смСщСния ΠΈ строит ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

13). Π’ Ρ‡Π΅ΠΌ Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ ТСстким ΠΈ мягким голосованиСм Π² ансамблях?

ΠŸΡ€ΠΈ ТСстком голосовании Ρ„ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ классификация ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ансамбля (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 0 ΠΈΠ»ΠΈ 1) аггрСгируСтся – Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ срСднСго значСния ΠΈΠ»ΠΈ ΠΌΠΎΠ΄Ρ‹.

МягкоС голосованиС – это ΠΊΠΎΠ³Π΄Π° Π°Π³Π³Ρ€Π΅Π³ΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΈΡ‚ΠΎΠ³ΠΎΠ²Ρ‹Π΅ вСроятности (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 85% Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ классификации 1), ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ срСднСго значСния.

МягкоС голосованиС ΠΌΠΎΠΆΠ΅Ρ‚ Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… случаях принСсти прСимущСства, Π½ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΈ нСдостаточному ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ΠœΡ‹ Π½Π°ΠΊΠΎΠ½Π΅Ρ† достигли ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Ρ‹! (источник)

14). Π’ вашСм ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π΅ 5Π“Π± ΠžΠ—Π£, Π° Π²Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ модСль Π½Π° 10-Π³ΠΈΠ³Π°Π±Π°ΠΉΡ‚ΠΎΠ²ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…. Как Π²Ρ‹ это сдСлаСтС?

Для SVM ΠΌΠΎΠΆΠ΅Ρ‚ ΡΡ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ частичноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Набор Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π±ΠΈΡ‚ΡŒ Π½Π° нСсколько Π½Π°Π±ΠΎΡ€ΠΎΠ² мСньшСго Ρ€Π°Π·ΠΌΠ΅Ρ€Π°. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ SVM – это Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ с Π½ΠΈΠ·ΠΊΠΈΠΌΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ трСбованиями, Π² Π΄Π°Π½Π½ΠΎΠΌ сцСнарии это ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π»ΡƒΡ‡ΡˆΠΈΠΌ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ.

Если Π΄Π°Π½Π½Ρ‹Π΅ Π½Π΅ подходят для SVM, ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΡƒΡŽ ΡΠ΅Ρ‚ΡŒ с достаточно ΠΌΠ°Π»Ρ‹ΠΌ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ ΠΏΠ°ΠΊΠ΅Ρ‚Π° (batch size) Π½Π° сТатом массивС NumPy. Π’ NumPy Π΅ΡΡ‚ΡŒ нСсколько инструмСнтов для сТатия Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ Π² ΡˆΠΈΡ€ΠΎΠΊΠΎ распространСнныС ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй Π²Ρ€ΠΎΠ΄Π΅ Keras/Tensorflow ΠΈ PyTorch.

15). ВСория Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния извСстна довольно Π΄Π°Π²Π½ΠΎ, Π½ΠΎ лишь Π½Π΅Π΄Π°Π²Π½ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»Π° Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΠΏΠΎΠΏΡƒΠ»ΡΡ€Π½ΠΎΡΡ‚ΡŒ. Как Π²Ρ‹ Π΄ΡƒΠΌΠ°Π΅Ρ‚Π΅, ΠΏΠΎΡ‡Π΅ΠΌΡƒ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Ρ‚Π°ΠΊ поднялось Π·Π° послСдниС Π³ΠΎΠ΄Ρ‹?

Π“Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ растСт ΠΎΡ‡Π΅Π½ΡŒ быстро, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ лишь Π½Π΅Π΄Π°Π²Π½ΠΎ ΠΎΠ½ΠΎ стало Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹ΠΌ. НСдавно ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ сдвига ΠΎΡ‚ физичСских экспСримСнтов ΠΊ ΠΎΠ½Π»Π°ΠΉΠ½ΠΎΠ²Ρ‹ΠΌ ΠΎΠ·Π½Π°Ρ‡Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠΎΠ±Ρ€Π°Ρ‚ΡŒ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ большС Π΄Π°Π½Π½Ρ‹Ρ…. ВслСдствиС ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄Π° ΠΏΠΎΠΊΡƒΠΏΠΎΠΊ Π² ΠΎΠ½Π»Π°ΠΉΠ½ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΎ большС возмоТностСй ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ Π΄ΠΎΡ…ΠΎΠ΄ ΠΈ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Π²ΠΎΠ·Π²Ρ€Π°Ρ‚Π° ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»Π΅ΠΉ, Ρ‡Π΅ΠΌ, допустим, Π² физичСских Π±Π°ΠΊΠ°Π»Π΅ΠΉΠ½Ρ‹Ρ… Π»Π°Π²ΠΊΠ°Ρ…. Π‘Ρ‚ΠΎΠΈΡ‚ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π΄Π²Π΅ ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠΈΡ… ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния Π½Π° PyTorch (Tensorflow ΠΈ PyTorch) Π±Ρ‹Π»ΠΈ созданы ΠΊΡ€ΡƒΠΏΠ½Ρ‹ΠΌΠΈ ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ компаниями Google ΠΈ Facebook. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ GPU ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΎ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ быстрСС.

(Π₯отя этот вопрос ΠΈ Π½Π΅ связан Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ с Ρ‚Π΅ΠΎΡ€ΠΈΠ΅ΠΉ, ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° Π½Π΅Π³ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹ слСдитС Π·Π° ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΎΠΉ Π² Ρ†Π΅Π»ΠΎΠΌ ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚Π΅ прСдставлСниС ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ ваш Π°Π½Π°Π»ΠΈΠ· ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»Π΅Π·Π΅Π½ с ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния)

16). Как Π±Ρ‹ Π²Ρ‹ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ вСса Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти?

Π‘Π°ΠΌΡ‹ΠΉ ΡˆΠΈΡ€ΠΎΠΊΠΎ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠΉΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄ – ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ вСса случайно, Π±Π»ΠΈΠ·ΠΊΠΈΠΌΠΈ ΠΊ Π½ΡƒΠ»ΡŽ значСниями. Π—Π°Ρ‚Π΅ΠΌ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹ΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ΄Π²ΠΈΠ½ΡƒΡ‚ΡŒ вСса Π² Π½ΡƒΠΆΠ½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ. Если пространство ошибок слишком ΠΊΡ€ΡƒΡ‚ΠΎΠ΅, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρƒ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ слоТно ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ локального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°. Π’ этом случаС ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠ΅ΠΉ ΠΈΠ΄Π΅Π΅ΠΉ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ нСсколько Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… локациях пространства ошибок, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ шанс нахоТдСния глобального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ° хотя Π±Ρ‹ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

17). ΠšΠ°ΠΊΠΎΠ²Ρ‹ послСдствия установки Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠΉ скорости обучСния?

Если ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния слишком ΠΌΠ°Π»Π°, ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ слишком ΠΌΠ΅Π΄Π»Π΅Π½Π½Ρ‹ΠΌ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ вСса Π±ΡƒΠ΄ΡƒΡ‚ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ Π½Π΅Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ. Однако, Ссли ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния слишком Π²Π΅Π»ΠΈΠΊΠ°, это ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ функция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Π±ΡƒΠ΄Π΅Ρ‚ бСспорядочно ΠΏΡ€Ρ‹Π³Π°Ρ‚ΡŒ вслСдствиС ΡΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ вСсов. МодСль ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π΅ ΡΠΎΠΉΡ‚ΠΈΡΡŒ Π² ΠΊΠ°ΠΊΠΎΠΉ-Ρ‚ΠΎ ΠΎΠ΄Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠ΅ ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ ΠΎΡ‚ΠΊΠ»ΠΎΠ½ΠΈΡ‚ΡŒΡΡ ΠΎΡ‚ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°, Ссли Π΄Π°Π½Π½Ρ‹Π΅ слишком Ρ…Π°ΠΎΡ‚ΠΈΡ‡Π½Ρ‹ для обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти.

18). ΠžΠ±ΡŠΡΡΠ½ΠΈΡ‚Π΅ Ρ€Π°Π·Π½ΠΈΡ†Ρƒ ΠΌΠ΅ΠΆΠ΄Ρƒ эпохой, ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠΌ (batch) ΠΈ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠ΅ΠΉ.

  • Π­ΠΏΠΎΡ…Π° – ΠΎΠ΄ΠΈΠ½ ΠΏΡ€ΠΎΡ…ΠΎΠ΄ ΠΏΠΎ всСму Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π½ΠΎΠΌΡƒ для обучСния.
  • ΠŸΠ°ΠΊΠ΅Ρ‚. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Π° сразу всСго Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… Π² Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΡƒΡŽ ΡΠ΅Ρ‚ΡŒ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ слишком ΠΌΠ½ΠΎΠ³ΠΎ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ мощности, Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… дСлится Π½Π° ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹.
  • Π˜Ρ‚Π΅Ρ€Π°Ρ†ΠΈΡ – количСство запусков ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠ² Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ эпохС. Если Ρƒ нас 50.000 строк Π΄Π°Π½Π½Ρ‹Ρ…, Π° Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΏΠ°ΠΊΠ΅Ρ‚Π° составляСт 1000 строк, Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ эпохС Π±ΡƒΠ΄Π΅Ρ‚ Π·Π°ΠΏΡƒΡ‰Π΅Π½ΠΎ 50 ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ.

19). КакиС Ρ‚Ρ€ΠΈ основных Π²ΠΈΠ΄Π° слоСв ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π² свСрточных Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтях? Как ΠΎΠ½ΠΈ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‚ΡΡ?

Π’Ρ€ΠΈ основных Π²ΠΈΠ΄Π° слоСв, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… Π² свСрточных Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтях – это:

  • Π‘Π²Π΅Ρ€Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ слой: слой, Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‰ΠΈΠΉ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΡŽ свСртки, которая создаСт нСсколько ΠΎΠΊΠΎΠ½-ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΎΠΊ, обобщая ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅.
Π‘Π²Π΅Ρ€Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ слой (источник)
  • Π‘Π»ΠΎΠΉ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ReLU): привносит Π² ΡΠ΅Ρ‚ΡŒ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ всС Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ пиксСли ΠΊ Π½ΡƒΠ»ΡŽ. Π’Ρ‹Π²ΠΎΠ΄ прСвращаСтся Π² ΠΈΡΠΏΡ€Π°Π²Π»Π΅Π½Π½ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².
  • Π‘Π»ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ (pooling): опСрация сокращСния, которая сокращаСт Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°Ρ€Ρ‚Ρ‹ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

БвСрточная нСйронная ΡΠ΅Ρ‚ΡŒ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ состоит ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ свСрточного, Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΠΈ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΡŽΡ‰Π΅Π³ΠΎ слоСв. Π—Π° всСм этим ΠΌΠΎΠ³ΡƒΡ‚ ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½ ΠΈΠ»ΠΈ Π΄Π²Π° полносвязных слоя ΠΈΠ»ΠΈ слоя ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ (dropout) для дальнСйшСго обобщСния, ΠΈ послСдним ΠΈΠ΄Π΅Ρ‚ полносвязный слой.

20). Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ слой ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ (dropout), ΠΈ Ρ‡Π΅ΠΌ ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΌΠΎΡ‡ΡŒ?

Π‘Π»ΠΎΠΉ ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ сокращаСт ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти, прСдотвращая ΠΊΠΎΠΌΠΏΠ»Π΅ΠΊΡΠ½ΡƒΡŽ со-Π°Π΄Π°ΠΏΡ‚Π°Ρ†ΠΈΡŽ ΠΊ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Π΄Π°Π½Π½Ρ‹ΠΌ. Π‘Π»ΠΎΠΉ ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ слуТит маской, случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ прСдотвращая связи с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ ΡƒΠ·Π»Π°ΠΌΠΈ. Π˜Π½Ρ‹ΠΌΠΈ словами, Π² процСссС обучСния ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Π° Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² слоя ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ Π±ΡƒΠ΄Π΅Ρ‚ Π΄Π΅Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€ΠΎΠ²Π°Π½Π°, Ρ‡Ρ‚ΠΎ заставляСт Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ нСсти большС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, Ρ‡Π΅ΠΌ ΠΎΡΡ‚Π°Π²Π°Π»ΠΎΡΡŒ послС Π΄Π΅Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ². Иногда слои ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ послС слоСв максимальной Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ (max-pooling).

НСйронная ΡΠ΅Ρ‚ΡŒ ΠΏΠ΅Ρ€Π΅Π΄ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ΠΌ ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈ послС Π½Π΅Π³ΠΎ (источник)

21). Если Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½ΠΎ ΠΈ Π½Π° Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π½Π΅Π΄Π°Π²Π½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ BERT Π»ΡƒΡ‡ΡˆΠ΅, Ρ‡Π΅ΠΌ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ NLP?

Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ NLP, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ·Π½Π°ΠΊΠΎΠΌΠΈΡ‚ΡŒΡΡ с тСкстом, ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ Π·Π°Π΄Π°Ρ‡Ρƒ прСдсказания ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π³ΠΎ слова Π² ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, слово "dogs" Π² ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ "It's raining cats and ___"). Π”Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒΡΡ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π΅ слово Π² ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ ΠΏΠΎ контСксту послС Π½Π΅Π³ΠΎ. BERT случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ маскируСт слово Π² ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ ΠΈ заставляСт модСль ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ это слово, исходя ΠΈΠ· контСкста Π΄ΠΎ ΠΈ послС Π½Π΅Π³ΠΎ – Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, слово "raining" Π² ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ "It's _____ cats and dogs".

Π­Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ BERT ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΡΠ²ΠΎΠΈΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ слоТныС зависимости ΠΌΠ΅ΠΆΠ΄Ρƒ словами, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ нСльзя ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌΡƒ (ΠΈΠ»ΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌΡƒ) контСксту. ΠšΠΎΠ½Π΅Ρ‡Π½ΠΎ, BERT ΠΈΠΌΠ΅Π΅Ρ‚ мноТСство Π΄Ρ€ΡƒΠ³ΠΈΡ… ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠΉ, Ρ‚Π°ΠΊΠΈΡ…, ΠΊΠ°ΠΊ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ слои кодирования, Π½ΠΎ Π½Π° Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅ Π΅Π³ΠΎ успСх обусловлСн способом чтСния тСкста.

22). Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ «РаспознаваниС Π˜ΠΌΠ΅Π½ΠΎΠ²Π°Π½Π½Ρ‹Ρ… БущностСй» (Named Entity Recognition, NER)?

NER, Ρ‚Π°ΠΊΠΆΠ΅ извСстная ΠΊΠ°ΠΊ идСнтификация сущностСй, Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ сущностСй ΠΈΠ»ΠΈ ΠΈΠ·Π²Π»Π΅Ρ‡Π΅Π½ΠΈΠ΅ сущностСй – это ΠΏΠΎΠ΄Π·Π°Π΄Π°Ρ‡Π° извлСчСния ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, направлСнная Π½Π° Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ ΠΈ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½Π½Ρ‹Ρ… сущностСй Π² нСструктурированном тСкстС ΠΏΠΎ катСгориям – Ρ‚Π°ΠΊΠΈΠΌ, ΠΊΠ°ΠΊ ΠΈΠΌΠ΅Π½Π°, ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ, Π»ΠΎΠΊΠ°Ρ†ΠΈΠΈ, суммы Π΄Π΅Π½Π΅Π³, врСмя ΠΈ Ρ‚.Π΄. NER пытаСтся Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ слова, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠΈΡˆΡƒΡ‚ΡΡ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ, Π½ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°ΡŽΡ‚ Ρ€Π°Π·Π½Ρ‹Π΅ Π²Π΅Ρ‰ΠΈ, ΠΈ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½ΠΎ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ сущности, содСрТащиС ΠΏΠΎΠ΄-сущности, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, "America" ΠΈ "Bank of America".

23). Π’Π°ΠΌ Π΄Π°Π»ΠΈ большой Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚Π²ΠΈΡ‚ΠΎΠ², ΠΈ ваша Π·Π°Π΄Π°Ρ‡Π° – ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΈΡ… Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ (ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΠΈΠ»ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ). ΠžΠ±ΡŠΡΡΠ½ΠΈΡ‚Π΅, ΠΊΠ°ΠΊ Π±Ρ‹ Π²Ρ‹ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ Π΄Π°Π½Π½Ρ‹Ρ….

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ‚Π²ΠΈΡ‚Ρ‹ Π½Π°ΠΏΠΎΠ»Π½Π΅Π½Ρ‹ Ρ…ΡΡˆΡ‚Π΅Π³Π°ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ Π²Π°ΠΆΠ½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ, ΠΈ, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ Π½Π°Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Π·Π°ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… ΡƒΠ½ΠΈΡ‚Π°Ρ€Π½Ρ‹ΠΌ ΠΊΠΎΠ΄ΠΎΠΌ (one-hot encoding), Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ '1' Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Ρ…ΡΡˆΡ‚Π΅Π³Π°, Π° '0' – Π΅Π³ΠΎ отсутствиС. Π’ΠΎ ΠΆΠ΅ самоС ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ с символами '@' (ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π²Π°ΠΆΠ½ΠΎ, ΠΊΠ°ΠΊΠΎΠΌΡƒ Π°ΠΊΠΊΠ°ΡƒΠ½Ρ‚Ρƒ адрСсован Ρ‚Π²ΠΈΡ‚). Π’ Ρ‚Π²ΠΈΡ‚Π°Ρ… особСнно часто Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ сокращСния (ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π΅ΡΡ‚ΡŒ Π»ΠΈΠΌΠΈΡ‚ количСства символов), Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ Π² тСкстах навСрняка Π±ΡƒΠ΄Π΅Ρ‚ ΠΌΠ½ΠΎΠ³ΠΎ Π½Π°ΠΌΠ΅Ρ€Π΅Π½Π½ΠΎ Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ записанных слов, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ придСтся Π²ΠΎΡΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°Ρ‚ΡŒ. Π’ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, само количСство Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ написанных слов Ρ‚Π°ΠΊΠΆΠ΅ прСдставляСт ΠΏΠΎΠ»Π΅Π·Π½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ: Ρ€Π°Π·ΠΎΠ·Π»Π΅Π½Π½Ρ‹Π΅ люди ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΏΠΈΡˆΡƒΡ‚ большС Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… слов.

Π£Π΄Π°Π»Π΅Π½ΠΈΠ΅ ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΠΈ, Ρ…ΠΎΡ‚ΡŒ ΠΎΠ½ΠΎ ΠΈ являСтся стандартным для NLP, Π² Π΄Π°Π½Π½ΠΎΠΌ случаС ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π²ΠΎΡΠΊΠ»ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π·Π½Π°ΠΊΠΈ, вопросы, Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΈ ΠΏΡ€. ΠΌΠΎΠ³ΡƒΡ‚ нСсти Π²Π°ΠΆΠ½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ, Π² сочСтании с тСкстом, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΎΠ½ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ. МоТно ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ Ρ‚Ρ€ΠΈ ΠΈΠ»ΠΈ большСС количСство столбцов, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π±ΡƒΠ΄Π΅Ρ‚ ΡƒΠΊΠ°Π·Π°Π½ΠΎ количСство Π²ΠΎΡΠΊΠ»ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π·Π½Π°ΠΊΠΎΠ², Π²ΠΎΠΏΡ€ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π·Π½Π°ΠΊΠΎΠ² ΠΈ Ρ‚ΠΎΡ‡Π΅ΠΊ. Однако ΠΏΠ΅Ρ€Π΅Π΄ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Π΅ΠΉ Π΄Π°Π½Π½Ρ‹Ρ… Π² модСль ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΡŽ слСдуСт ΡƒΠ±Ρ€Π°Ρ‚ΡŒ ΠΈΠ· тСкста.

Π—Π°Ρ‚Π΅ΠΌ Π½ΡƒΠΆΠ½ΠΎ провСсти Π»Π΅ΠΌΠΌΠ°Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΈ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΡŽ тСкста. Π’ модСль слСдуСт ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‚ΡŒ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ чистый тСкст, Π½ΠΎ ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Ρ…ΡΡˆΡ‚Π΅Π³Π°Ρ…, '@', Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ написанных словах ΠΈ ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΠΈ. ВсС это, вСроятно, повысит Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ прСдсказаний.

24). Как ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ сходство Π΄Π²ΡƒΡ… Π°Π±Π·Π°Ρ†Π΅Π² тСкста?

ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ шаг – это пСрСвСсти Π°Π±Π·Π°Ρ†Ρ‹ Π² Ρ‡ΠΈΡΠ»ΠΎΠ²ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° – Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, "мСшка слов" (bag of words) ΠΈΠ»ΠΈ TF/IDF. Π’ Π΄Π°Π½Π½ΠΎΠΌ случаС "мСшок слов" ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π»ΡƒΡ‡ΡˆΠ΅, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π°Π±ΠΎΡ€ тСкстов совсСм Π½Π΅Π²Π΅Π»ΠΈΠΊ. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ Π΄Π°Ρ‚ΡŒ Π»ΡƒΡ‡ΡˆΠ΅Π΅ прСдставлСниС ΠΎ тСкстС, вСдь TF/IDF ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½ прСимущСствСнно для ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

ПослС этого для измСрСния сходства ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΡΠΈΠ½ΡƒΡΠ½ΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ ΠΈΠ»ΠΈ Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ.

25). Π’ Π½Π°Π±ΠΎΡ€Π΅ ΠΈΠ· N Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΎΠ΄ΠΈΠ½ случайный Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ содСрТит T Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ². Π’Π΅Ρ€ΠΌΠΈΠ½ 'hello' встрСчаСтся Π² этом Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ K Ρ€Π°Π·. Π§Π΅ΠΌΡƒ Ρ€Π°Π²Π½ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ TF (Term Frequency) ΠΈ IDF (Inverted Document Frequency), Ссли Ρ‚Π΅Ρ€ΠΌΠΈΠ½ 'hello' встрСчаСтся ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π² Ρ‚Ρ€Π΅Ρ‚ΠΈ всСх Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²?

Π€ΠΎΡ€ΠΌΡƒΠ»Π° для Term Frequency = K/T, Π° Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° для IDF – это Π»ΠΎΠ³Π°Ρ€ΠΈΡ„ΠΌ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ количСства всСх Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΊ количСству Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², содСрТащих Ρ‚Π΅Ρ€ΠΌΠΈΠ½ (Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ, log(1/(1/3)) = log(3). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ TF/IDF для слова 'hello' Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π²Π½ΠΎ K * log(3) / T.

26). БущСствуСт Π»ΠΈ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ стоп-слов? Π’ ΠΊΠ°ΠΊΠΈΡ… случаях Π²Ρ‹ Π±Ρ‹ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΠ»ΠΈ Π½Π°Π±ΠΎΡ€ стоп-слов, ΠΈ Π² ΠΊΠ°ΠΊΠΈΡ…, Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΠ»ΠΈ Π΅Π³ΠΎ?

Π’ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ΅ NLTK Π½Π° Python'Π΅ Π·Π°Π΄Π°Π½ общСпринятый Π½Π°Π±ΠΎΡ€ стоп-слов (для английского языка), Π½ΠΎ Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… случаях список стоп-слов Π½ΡƒΠΆΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ ΠΈΠ»ΠΈ ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ, Π² зависимости ΠΎΡ‚ контСкста. НапримСр, для Ρ‚Π²ΠΈΡ‚ΠΎΠ² Π½Π°Π±ΠΎΡ€ стоп-слов придСтся ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρƒ нас Π½Π΅ Ρ‚Π°ΠΊ ΠΌΠ½ΠΎΠ³ΠΎ тСкста. Π‘Π»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, ваТная информация ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π° нСбольшим количСством символов, ΠΈ ΡƒΠ΄Π°Π»Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ посчитаСм стоп-словами, ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ ΠΏΠΎΡ‚Π΅Ρ€Π΅ этой ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ.

Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Ссли ΠΌΡ‹ ΠΈΠΌΠ΅Π΅ΠΌ Π΄Π΅Π»ΠΎ с тысячСй ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΈΡ… рассказов, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π·Π°Ρ…ΠΎΡ‚Π΅Ρ‚ΡŒ ΡƒΠ΄Π°Π»ΡΡ‚ΡŒ большС стоп-слов, Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для экономии машинного Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, Π½ΠΎ ΠΈ для упрощСния нахоТдСния Ρ€Π°Π·Π½ΠΈΡ†Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ этими рассказами, ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ…, вСроятно, Π±ΡƒΠ΄Π΅Ρ‚ ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Ρ‚ΡŒ мноТСство стоп-слов.

На сколько вопросов Π²Π°ΠΌ ΡƒΠ΄Π°Π»ΠΎΡΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ? Π­Ρ‚ΠΈ вопросы ΠΊΠ°ΡΠ°ΡŽΡ‚ΡΡ статистики, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния, NLP, ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈ понимания Π΄Π°Π½Π½Ρ‹Ρ… – Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΠΎΡΠ»ΡƒΠΆΠΈΡ‚ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠΈΠΌ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»Π΅ΠΌ вашСго знакомства с концСпциями Data Science.

Если Π²Ρ‹ Π΅Ρ‰Π΅ Π½Π΅ сдСлали этого, ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡŒΡ‚Π΅ сСбя Π½Π° ΠΏΠ΅Ρ€Π²Ρ‹Ρ… 26 вопросах с собСсСдований.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊΠΈ

Π›Π£Π§Π¨Π˜Π• БВАВЬИ ПО Π’Π•ΠœΠ•

matyushkin
07 апрСля 2020

ВОП-15 ΠΊΠ½ΠΈΠ³ ΠΏΠΎ Python: ΠΎΡ‚ Π½ΠΎΠ²ΠΈΡ‡ΠΊΠ° Π΄ΠΎ профСссионала

Книги ΠΏΠΎ Python (ΠΈ связанным с Π½ΠΈΠΌ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΌ Ρ‚Π΅ΠΌΠ°ΠΌ) Π½Π° русском языкС. Рас...
Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° программиста
16 ноября 2019

DeepFake-Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π»: создаСм собствСнный Π΄ΠΈΠΏΡ„Π΅ΠΉΠΊ Π² DeepFaceLab

РассказываСм ΠΎ Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ DeepFake ΠΈ шаг Π·Π° шагом учимся Π΄Π΅Π»Π°Ρ‚ΡŒ Π΄ΠΈΠΏΡ„Π΅ΠΉΠΊΠΈ Π² ...
admin
14 июля 2017

ПишСм свою Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ: пошаговоС руководство

ΠžΡ‚Π»ΠΈΡ‡Π½Ρ‹ΠΉ Π³Π°ΠΉΠ΄ ΠΏΡ€ΠΎ Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ ΠΎΡ‚ Ρ‚Π΅ΠΎΡ€ΠΈΠΈ ΠΊ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅. Π’Ρ‹ ΡƒΠ·Π½Π°Π΅Ρ‚Π΅ ΠΈΠ· ΠΊΠ°ΠΊΠΈΡ… элСмС...