07 октября 2020

👨‍🎓️Пишем нейросеть на Python с нуля

Ilya Ginsburg

Разработчик ПО (системы PDM/PLM) с 1993 года, компания "ИНТЕРМЕХ" (www.intermech.ru). В 2020-м успешно закончил курсы "Основы Data Science" (минская IT Academy) Референт-переводчик технической литературы с английского языка.

Нейронные сети не так уж сложно реализовать, если знать, как моделируется каждый нейрон, что такое функция потери и алгоритм обратного распространения ошибки (backpropagation). Статья также демонстрирует обучение нейронной сети.

Статья публикуется в переводе, автор оригинального текста Victor Zhou.

***

Пишем нейросеть на Python с нуля

Термин "нейронные сети" сейчас можно услышать из каждого утюга, и многие верят, будто это что-то очень сложное. На самом деле нейронные сети совсем не такие сложные, как может показаться! Мы разберемся, как они работают, реализовав одну сеть с нуля на Python.

Эта статья предназначена для полных новичков, не имеющих никакого опыта в машинном обучении. Поехали!

1. Составные элементы: нейроны

Прежде всего нам придется обсудить нейроны, базовые элементы нейронной сети. Нейрон принимает несколько входов, выполняет над ними кое-какие математические операции, а потом выдает один выход. Вот как выглядит нейрон с двумя входами:

Внутри нейрона происходят три операции. Сначала значения входов умножаются на веса:

x_{1} \to x_{1} * w_{1}, x_{2} \to x_{2} * w_{2}

Затем взвешенные входы складываются, и к ним прибавляется значение порога b:

x_{1} * w_{1} + x_{2} * w_{2} + b

Наконец, полученная сумма проходит через функцию активации:

у= f (x_{1} * w_{1} + x_{2} * w_{2} + b)

Функция активации преобразует неограниченные значения входов в выход, имеющий ясную и предсказуемую форму. Одна из часто используемых функций активации – сигмоида:

Сигмоида выдает результаты в интервале (0, 1). Можно представить, что она «упаковывает» интервал от минус бесконечности до плюс бесконечности в (0, 1): большие отрицательные числа превращаются в числа, близкие к 0, а большие положительные – к 1.

🐍 Библиотека питониста

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека питониста»

🐍🎓 Библиотека собеса по Python

Подтянуть свои знания по Python вы можете на нашем телеграм-канале «Библиотека собеса по Python»

🐍🧩 Библиотека задач по Python

Интересные задачи по Python для практики можно найти на нашем телеграм-канале «Библиотека задач по Python»

Простой пример

Допустим, наш двухвходовой нейрон использует сигмоидную функцию активации и имеет следующие параметры:

w = [0, 1] b = 4

w=[0, 1] – это всего лишь запись w₁=0, w₂=1 в векторном виде. Теперь зададим нашему нейрону входные данные: x=[2, 3]. Мы используем скалярное произведение векторов, чтобы записать формулу в сжатом виде:

(w \cdot x) + b = ((w_{1} * x_{1}) + (w_{2} * x_{2})) + b = 0 * 2 + 1 * 3 + 4 = 7

y = f (w \cdot x + b) = f (7) = 0.999

Наш нейрон выдал 0.999 при входах x=[2, 3]. Вот и все! Процесс передачи значений входов дальше, чтобы получить выход, называется прямой связью (feed forward).

Пишем код для нейрона

Настало время написать свой нейрон! Мы используем NumPy, популярную и мощную расчетную библиотеку для Python, которая поможет нам с вычислениями:

        import numpy as np

def sigmoid(x):
  # Наша функция активации: f(x) = 1 / (1 + e^(-x))
  return 1 / (1 + np.exp(-x))

class Neuron:
  def __init__(self, weights, bias):
    self.weights = weights
    self.bias = bias

  def feedforward(self, inputs):
    # Умножаем входы на веса, прибавляем порог, затем используем функцию активации
    total = np.dot(self.weights, inputs) + self.bias
    return sigmoid(total)

weights = np.array([0, 1]) # w1 = 0, w2 = 1
bias = 4                   # b = 4
n = Neuron(weights, bias)

x = np.array([2, 3])       # x1 = 2, x2 = 3
print(n.feedforward(x))    # 0.9990889488055994

Узнаете эти числа? Это тот самый пример, который мы только что рассчитали! И мы получили тот же результат – 0.999.

2. Собираем нейронную сеть из нейронов

Нейронная сеть – это всего лишь несколько нейронов, соединенных вместе. Вот как может выглядеть простая нейронная сеть:

У этой сети два входа, скрытый слой с двумя нейронами (h₁ и h₂) и выходной слой с одним нейроном (o₁). Обратите внимание, что входы для o₁ – это выходы из h₁ и h₂. Именно это создает из нейронов сеть.

Замечание

Скрытый слой – это любой слой между входным (первым) слоем сети и выходным (последним). Скрытых слоев может быть много!

Пример: прямая связь

Давайте используем сеть, изображенную выше, и будем считать, что все нейроны имеют одинаковые веса w=[0, 1], одинаковые пороговые значения b=0, и одинаковую функцию активации – сигмоиду. Пусть h₁, h₂ и o₁ обозначают выходные значения соответствующих нейронов.

Что получится, если мы подадим на вход x=[2, 3]?

\begin{aligned} h_{1} = h_{2} = f (w \cdot x + b) = f ((0 * 2) + (1 * 3) + 0) = f (3) = 0.9526 \\ o_{1} = f (w \cdot [h_{1}, h_{2}] + b) = f ((0 * h_{1}) + (1 * h_{2}) + 0) = f (0.9526) = 0.7216 \end{aligned}

Если подать на вход нашей нейронной сети x=[2, 3], на выходе получится 0.7216. Достаточно просто, не правда ли?

Нейронная сеть может иметь любое количество слоев, и в этих слоях может быть любое количество нейронов. Основная идея остается той же: передавайте входные данные по нейронам сети, пока не получите выходные значения. Для простоты мы будем использовать сеть, показанную выше, до конца статьи.

Пишем код нейронной сети

Давайте реализуем прямую связь для нашей нейронной сети. Напомним, как она выглядит:

        import numpy as np

# ... вставьте сюда код из предыдущего раздела

class OurNeuralNetwork:
  '''
  Нейронная сеть с:
    - 2 входами
    - скрытым слоем с 2 нейронами (h1, h2)
    - выходным слоем с 1 нейроном (o1)
  Все нейроны имеют одинаковые веса и пороги:
    - w = [0, 1]
    - b = 0
  '''
  def __init__(self):
    weights = np.array([0, 1])
    bias = 0

    # Используем класс Neuron из предыдущего раздела
    self.h1 = Neuron(weights, bias)
    self.h2 = Neuron(weights, bias)
    self.o1 = Neuron(weights, bias)

  def feedforward(self, x):
    out_h1 = self.h1.feedforward(x)
    out_h2 = self.h2.feedforward(x)

    # Входы для o1 - это выходы h1 и h2
    out_o1 = self.o1.feedforward(np.array([out_h1, out_h2]))

    return out_o1

network = OurNeuralNetwork()
x = np.array([2, 3])
print(network.feedforward(x)) # 0.7216325609518421

Мы снова получили 0.7216! Похоже, наша сеть работает.

3. Обучаем нейронную сеть (часть 1)

Допустим, у нас есть следующие измерения:

Имя	Вес (в фунтах)	Рост (в дюймах)	Пол
Алиса	133 (54.4 кг)	65 (165,1 см)	Ж
Боб	160 (65,44 кг)	72 (183 см)	М
Чарли	152 (62.2 кг)	70 (178 см)	М
Диана	120 (49 кг)	60 (152 см)	Ж

Давайте обучим нашу нейронную сеть предсказывать пол человека по его росту и весу.

Мы будем представлять мужской пол как 0, женский – как 1, а также сдвинем данные, чтобы их было проще использовать:

Имя	Вес (минус 135)	Рост (минус 66)	Пол
Алиса	-2	-1	1
Боб	25	6	0
Чарли	17	4	0
Диана	-15	-6	1

Замечание

Я выбрал величину сдвигов (135 и 66), чтобы числа выглядели попроще. Обычно сдвигают на среднее значение.

Потери

Прежде чем обучать нашу нейронную сеть, нам нужно как-то измерить, насколько "хорошо" она работает, чтобы она смогла работать "лучше". Это измерение и есть потери (loss).

Мы используем для расчета потерь среднюю квадратичную ошибку (mean squared error, MSE):

M S E = \frac{1}{n} \sum_{i = 1}^{n} (y_{t r u e} - y_{p r e d})^{2}

Давайте рассмотрим все используемые переменные:

n – это количество измерений, в нашем случае 4 (Алиса, Боб, Чарли и Диана).
y представляет предсказываемое значение, Пол.
y_true – истинное значение переменной ("правильный ответ"). Например, для Алисы y_true будет равна 1 (женский пол).
y_pred – предсказанное значение переменной. Это то, что выдаст наша нейронная сеть.

(y_true-y_pred)² называется квадратичной ошибкой. Наша функция потерь просто берет среднее значение всех квадратичных ошибок – поэтому она и называется средней квадратичной ошибкой. Чем лучшими будут наши предсказания, тем меньшими будут наши потери!

Лучшие предсказания = меньшие потери.

Обучение нейронной сети = минимизация ее потерь.

🤖 Библиотека data scientist’а

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека Data scientist’а»

🤖🎓 Библиотека Data Science для собеса

Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»

🤖🧩 Библиотека задач по Data Science

Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»

Пример расчета потерь

Предположим, что наша сеть всегда возвращает 0 – иными словами, она уверена, что все люди мужчины. Насколько велики будут наши потери?

Имя	y_true	y_pred	(y_true-y_pred)2
Алиса	1	0	1
Боб	0	0	0
Чарли	0	0	0
Диана	1	0	1

M S E = \frac{1}{4} (1 + 0 + 0 + 1) = 0.5

Пишем функцию средней квадратичной ошибки

Вот небольшой кусок кода, который рассчитает наши потери. Если вы не понимаете, почему он работает, прочитайте в руководстве NumPy про операции с массивами.

        import numpy as np

def mse_loss(y_true, y_pred):
  # y_true и y_pred - массивы numpy одинаковой длины.
  return ((y_true - y_pred) ** 2).mean()

y_true = np.array([1, 0, 0, 1])
y_pred = np.array([0, 0, 0, 0])

print(mse_loss(y_true, y_pred)) # 0.5

Отлично. Идем дальше!

4. Обучаем нейронную сеть (часть 2)

Теперь у нас есть четкая цель: минимизировать потери нейронной сети. Мы знаем, что можем изменять веса и пороги нейронов, чтобы изменить ее предсказания, но как нам делать это таким образом, чтобы минимизировать потери?

Внимание: математика!

Этот раздел использует частные производные по нескольким переменным. Если вы плохо знакомы с дифференциальным исчислением, можете просто пропускать математические формулы.

Для простоты давайте представим, что в нашем наборе данных только одна Алиса.

Имя	Вес (минус 135)	Рост (минус 66)	Пол
Алиса	-2	-1	1

Тогда средняя квадратичная ошибка будет квадратичной ошибкой только для Алисы:

M S E = \frac{1}{1} \sum_{i = 1}^{1} (y_{t r u e} - y_{p r e d})^{2} = (y_{t r u e} - y_{p r e d})^{2} = (1 - y_{p r e d})^{2}

Другой метод – это рассматривать функцию потерь как функцию от весов и порогов. Давайте отметим все веса и пороги нашей нейронной сети:

Теперь мы можем записать функцию потерь как функцию от нескольких переменных:

L (w_{1}, w_{2}, w_{3}, w_{4}, w_{5}, w_{6}, b_{1}, b_{2}, b_{3})

Предположим, мы хотим отрегулировать w₁. Как изменится значение потери L при изменении w₁? На этот вопрос может ответить частная производная dL/dw₁. Как мы ее рассчитаем?

Не падайте духом!

Здесь математика становится более сложной. Возьмите бумагу и ручку, чтобы не отставать – это поможет вам понять, что происходит.

Прежде всего, давайте перепишем эту частную производную через dy_pred/dw₁, воспользовавшись цепным правилом:

\frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial y_{p r e d}} * \frac{\partial y_{p r e d}}{\partial w_{1}}

Мы можем рассчитать dL/d_ypred, поскольку мы уже выяснили выше, что L=(1-y_pred)²:

\frac{\partial L}{\partial y_{p r e d}} = \frac{\partial (1 - y_{p r e d})^{2}}{\partial y_{p r e d}} = - 2 (1 - y_{p r e d})

Теперь давайте решим, что делать с dy_pred/dw₁. Обозначая выходы нейронов, как прежде, h₁, h₂ и o₁, получаем:

y_{p r e d} = o_{1} = f (w_{5} h_{1} + w_{6} h_{2} + b_{3})

Вспомните, что f() – это наша функция активации, сигмоида. Поскольку w₁ влияет только на h₁(но не на h₂), мы можем снова использовать цепное правило и записать:

\begin{aligned} \frac{\partial y_{p r e d}}{\partial w_{1}} = \frac{\partial y_{p r e d}}{\partial h_{1}} * \frac{\partial h_{1}}{\partial w_{1}} \\ \frac{\partial y_{p r e d}}{\partial h_{1}} = w_{5} * f' (w_{5} h_{1} + w_{6} h_{2} + b_{3}) \end{aligned}

Мы можем сделать то же самое для dh₁/dw₁, снова применяя цепное правило:

\begin{aligned} h_{1} = f (w_{1} x_{1} + w_{2} x_{2} + b_{1}) \\ \frac{\partial h_{1}}{\partial w_{1}} = x_{1} * f' (w_{1} x_{1} + w_{2} x_{2} + b_{1}) \end{aligned}

В этой формуле x₁ – это вес, а x₂ – рост. Вот уже второй раз мы встречаем f'(x) – производную сигмоидной функции! Давайте вычислим ее:

\begin{matrix} f (x) = \frac{1}{1 + e^{- x}} \\ f' (x) = \frac{e^{- x}}{(1 + e^{- x})^{2}} = f (x) * (1 - f (x)) \end{matrix}

Мы используем эту красивую форму для f'(x) позже. На этом мы закончили! Мы сумели разложить dL/dw₁ на несколько частей, которые мы можем рассчитать:

\frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial y_{p r e d}} * \frac{\partial y_{p r e d}}{\partial h_{1}} * \frac{\partial h_{1}}{\partial w_{1}}

Такой метод расчета частных производных "от конца к началу" называется методом обратного распространения (backpropagation).

Уффф. Здесь было очень много символов, так что не страшно, если вы пока не все понимаете. Давайте покажем, как это работает, на практическом примере!

Пример. Считаем частную производную

Мы по-прежнему считаем, что наш набор данных состоит из одной Алисы:

Имя	Вес (минус 135)	Рост (минус 66)	Пол
Алиса	-2	-1	1

Давайте инициализируем все веса как 1, а все пороги как 0. Если мы выполним прямой проход по нейронной сети, то получим:

\begin{aligned} h_{1} = f (w_{1} x_{1} + w_{2} x_{2} + b_{1}) = f (- 2 + (- 1) + 0) = 0.0474 \\ h_{2} = f (w_{3} x_{1} + w_{4} x_{2} + b_{2}) = 0.0474 \\ o_{1} = f (w_{5} h_{1} + w_{6} h_{2} + b_{3}) = f (0.0474 + 0.0474 + 0) = 0.524 \end{aligned}

Наша сеть выдает y_pred=0.524, что находится примерно на полпути между Мужским полом (0) и Женским (1). Давайте рассчитаем dL/dw₁:

\begin{aligned} \frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial y_{p r e d}} * \frac{\partial y_{p r e d}}{\partial h_{1}} * \frac{\partial h_{1}}{\partial w_{1}} \\ \frac{\partial L}{\partial y_{p r e d}} = - 2 (1 - y_{p r e d}) = - 2 (1 - 0.524) = - 0.952 \\ \frac{\partial y_{p r e d}}{\partial h_{1}} = w_{5} * f' (w_{5} h_{1} + w_{6} h_{2} + b_{3}) = 1 * f' (0.0474 + 0.0474 + 0) = f (0.948) (1 - f (0.948)) = 0.249 \\ \frac{\partial h_{1}}{\partial w_{1}} = x_{1} * f' (w_{1} x_{1} + w_{2} x_{2} + b_{1}) = - 2 * f' (- 2 + (- 1) + 0) = - 2 * f (- 3) * (1 - f (- 3)) = - 0.0904 \\ \frac{\partial L}{\partial w_{1}} = - 0.952 * 0.249 * - 0.0904 = 0.0214 \end{aligned}

Напоминаем:

Ранее мы получили формулу для производной сигмоиды f'(x)=f(x)(1-f(x))

Вот и все! Результат говорит нам, что при увеличении w_1, функция ошибки чуть-чуть повышается.

Обучение: стохастический градиентный спуск

Теперь у нас есть все нужные инструменты для обучения нейронной сети! Мы используем алгоритм оптимизации под названием стохастический градиентный спуск (stochastic gradient descent), который определит, как мы будем изменять наши веса и пороги для минимизации потерь. Фактически, он заключается в следующей формуле обновления:

\begin{aligned} w_{1} \leftarrow w_{1} - η \frac{\partial L}{\partial w_{1}} \\ η (e t a) - константа, называемая скоростью обучения (l e a r n i n g r a t e) . \end{aligned}

Скорость обучения определяет, как быстро наша сеть учится. Все, что мы делаем – это вычитаем eta*dL/dw₁ из w₁:

Если dL/dw₁ положительна, w₁ уменьшится, что уменьшит L.
Если dL/dw₁ отрицательна, w₁ увеличится, что также уменьшит L.

Если мы сделаем то же самое для каждого веса и порога в сети, потери будут постепенно уменьшаться, и наша сеть будет выдавать более точные результаты.

Процесс обучения сети будет выглядеть примерно так:

Выбираем одно наблюдение из набора данных. Именно то, что мы работаем только с одним наблюдением, делает наш градиентный спуск стохастическим.
Считаем все частные производные функции потерь по всем весам и порогам (dL/dw₁, dL/dw₂ и т.д.)
Используем формулу обновления, чтобы обновить значения каждого веса и порога.
Снова переходим к шагу 1.

Пишем код всей нейронной сети

Наконец настало время реализовать всю нейронную сеть.

Имя	Вес (минус 135)	Рост (минус 66)	Пол
Алиса	-2	-1	1
Боб	25	6	0
Чарли	17	4	0
Диана	-15	-6

        import numpy as np

def sigmoid(x):
  # Сигмоидная функция активации: f(x) = 1 / (1 + e^(-x))
  return 1 / (1 + np.exp(-x))

def deriv_sigmoid(x):
  # Производная сигмоиды: f'(x) = f(x) * (1 - f(x))
  fx = sigmoid(x)
  return fx * (1 - fx)

def mse_loss(y_true, y_pred):
  # y_true и y_pred - массивы numpy одинаковой длины.
  return ((y_true - y_pred) ** 2).mean()

class OurNeuralNetwork:
  '''
  Нейронная сеть с:
    - 2 входами
    - скрытым слоем с 2 нейронами (h1, h2)
    - выходной слой с 1 нейроном (o1)

  *** DISCLAIMER ***:
  Следующий код простой и обучающий, но НЕ оптимальный.
  Код реальных нейронных сетей совсем на него не похож. НЕ копируйте его! 
  Изучайте и запускайте его, чтобы понять, как работает эта нейронная сеть.
  '''
  def __init__(self):
    # Веса
    self.w1 = np.random.normal()
    self.w2 = np.random.normal()
    self.w3 = np.random.normal()
    self.w4 = np.random.normal()
    self.w5 = np.random.normal()
    self.w6 = np.random.normal()

    # Пороги
    self.b1 = np.random.normal()
    self.b2 = np.random.normal()
    self.b3 = np.random.normal()

  def feedforward(self, x):
    # x is a numpy array with 2 elements.
    h1 = sigmoid(self.w1 * x[0] + self.w2 * x[1] + self.b1)
    h2 = sigmoid(self.w3 * x[0] + self.w4 * x[1] + self.b2)
    o1 = sigmoid(self.w5 * h1 + self.w6 * h2 + self.b3)
    return o1

  def train(self, data, all_y_trues):
    '''
    - data - массив numpy (n x 2) numpy, n = к-во наблюдений в наборе. 
    - all_y_trues - массив numpy с n элементами.
      Элементы all_y_trues соответствуют наблюдениям в data.
    '''
    learn_rate = 0.1
    epochs = 1000 # сколько раз пройти по всему набору данных 

    for epoch in range(epochs):
      for x, y_true in zip(data, all_y_trues):
        # --- Прямой проход (эти значения нам понадобятся позже)
        sum_h1 = self.w1 * x[0] + self.w2 * x[1] + self.b1
        h1 = sigmoid(sum_h1)

        sum_h2 = self.w3 * x[0] + self.w4 * x[1] + self.b2
        h2 = sigmoid(sum_h2)

        sum_o1 = self.w5 * h1 + self.w6 * h2 + self.b3
        o1 = sigmoid(sum_o1)
        y_pred = o1

        # --- Считаем частные производные.
        # --- Имена: d_L_d_w1 = "частная производная L по w1"
        d_L_d_ypred = -2 * (y_true - y_pred)

        # Нейрон o1
        d_ypred_d_w5 = h1 * deriv_sigmoid(sum_o1)
        d_ypred_d_w6 = h2 * deriv_sigmoid(sum_o1)
        d_ypred_d_b3 = deriv_sigmoid(sum_o1)

        d_ypred_d_h1 = self.w5 * deriv_sigmoid(sum_o1)
        d_ypred_d_h2 = self.w6 * deriv_sigmoid(sum_o1)

        # Нейрон h1
        d_h1_d_w1 = x[0] * deriv_sigmoid(sum_h1)
        d_h1_d_w2 = x[1] * deriv_sigmoid(sum_h1)
        d_h1_d_b1 = deriv_sigmoid(sum_h1)

        # Нейрон h2
        d_h2_d_w3 = x[0] * deriv_sigmoid(sum_h2)
        d_h2_d_w4 = x[1] * deriv_sigmoid(sum_h2)
        d_h2_d_b2 = deriv_sigmoid(sum_h2)

        # --- Обновляем веса и пороги
        # Нейрон h1
        self.w1 -= learn_rate * d_L_d_ypred * d_ypred_d_h1 * d_h1_d_w1
        self.w2 -= learn_rate * d_L_d_ypred * d_ypred_d_h1 * d_h1_d_w2
        self.b1 -= learn_rate * d_L_d_ypred * d_ypred_d_h1 * d_h1_d_b1

        # Нейрон h2
        self.w3 -= learn_rate * d_L_d_ypred * d_ypred_d_h2 * d_h2_d_w3
        self.w4 -= learn_rate * d_L_d_ypred * d_ypred_d_h2 * d_h2_d_w4
        self.b2 -= learn_rate * d_L_d_ypred * d_ypred_d_h2 * d_h2_d_b2

        # Нейрон o1
        self.w5 -= learn_rate * d_L_d_ypred * d_ypred_d_w5
        self.w6 -= learn_rate * d_L_d_ypred * d_ypred_d_w6
        self.b3 -= learn_rate * d_L_d_ypred * d_ypred_d_b3

      # --- Считаем полные потери в конце каждой эпохи
      if epoch % 10 == 0:
        y_preds = np.apply_along_axis(self.feedforward, 1, data)
        loss = mse_loss(all_y_trues, y_preds)
        print("Epoch %d loss: %.3f" % (epoch, loss))

# Определим набор данных
data = np.array([
  [-2, -1],  # Алиса
  [25, 6],   # Боб
  [17, 4],   # Чарли
  [-15, -6], # Диана
])
all_y_trues = np.array([
  1, # Алиса
  0, # Боб
  0, # Чарли
  1, # Диана
])

# Обучаем нашу нейронную сеть!
network = OurNeuralNetwork()
network.train(data, all_y_trues)

Код в сети

Вы можете запустить этот код и поиграть с ним самостоятельно. Он также доступен на GitHub.

По мере обучения сети ее потери постепенно уменьшаются:

Теперь мы можем использовать нашу сеть для предсказания пола:

        # Делаем пару предсказаний
emily = np.array([-7, -3]) # 128 фунтов (52.35 кг), 63 дюйма (160 см)
frank = np.array([20, 2])  # 155 pounds (63.4 кг), 68 inches (173 см)
print("Эмили: %.3f" % network.feedforward(emily)) # 0.951 - Ж
print("Фрэнк: %.3f" % network.feedforward(frank)) # 0.039 - М

Что теперь?

Вы сделали это! Давайте перечислим все, что мы с вами сделали:

Определили нейроны, составные элементы нейронных сетей.
Использовали сигмоидную функцию активации для наших нейронов.
Увидели, что нейронные сети – это всего лишь несколько нейронов, соединенных друг с другом.
Создали набор данных, в котором Вес и Рост были входными данными (или признаками), а Пол – выходным (или меткой).
Узнали о функции потерь и средней квадратичной ошибке (MSE).
Поняли, что обучение нейронной сети – это всего лишь минимизация ее потерь.
Использовали метод обратного распространения (backpropagation) для расчета частных производных.
Использовали стохастический градиентный спуск (SGD) для обучения нашей сети.

Перед вами – множество путей, на которых вас ждет масса нового и интересного:

Экспериментируйте с большими и лучшими нейронными сетями, используя подходящие библиотеки вроде Tensorflow, Keras и PyTorch.
Создайте свою первую нейронную сеть с помощью Keras.
Прочитайте остальные статьи из серии "Нейронные сети с нуля".
Исследуйте другие функции активации, кроме сигмоиды, например, Softmax.
Исследуйте другие оптимизаторы, кроме стохастического градиентного спуска.

Спасибо за внимание!

***

На Python создают прикладные приложения, пишут тесты и бэкенд веб-приложений, автоматизируют задачи в системном администрировании, его используют в нейронных сетях и анализе больших данных. Язык можно изучить самостоятельно, но на это придется потратить немало времени. Если вы хотите быстро понять основы программирования на Python, обратите внимание на онлайн-курс «Библиотеки программиста». За 30 уроков (15 теоретических и 15 практических занятий) под руководством практикующих экспертов вы не только изучите основы синтаксиса, но и освоите две интегрированные среды разработки (PyCharm и Jupyter Notebook), работу со словарями, парсинг веб-страниц, создание ботов для Telegram и Instagram, тестирование кода и даже анализ данных. Чтобы процесс обучения стал более интересным и комфортным, студенты получат от нас обратную связь. Кураторы и преподаватели курса ответят на все вопросы по теме лекций и практических занятий.

Спешите зарегистрироваться, количество мест ограничено

Источники

https://victorzhou.com/blog/intro-to-neural-networks/

Здравствуйте, меня зовут Вячеслав, мне 14 лет, учусь в 37 Минской гимназии, в 9 классе. Прочел ваше объяснение нейросетей. Перестал понимать что либо на формуле с экспонентой, а дальше стало все на столько весело что я удалил браузер с которого читал это. Теперь у меня комплекс неполноценности, но суть нейросетей и их работы я понял, кстати программу с подсчетом возраста, веса, роста и пола людей в принципе можно было сделать без нейросети. Еще раз спасибо.

Вячеслав, то, что вы прочитали в этой статье, а именно математические формулы, находятся на уровне 1 курса математического факультета в университете, поэтому не стоит комплексовать, у вас ещё всё впереди

Ну написано же - с нуля, зачем импортировать библиотеку Numpy? Её в других языках не сущетвует, слабо сделать нейронную сеть без Numpy?

Одна из лучших работ. Спасибо

Извините, не совсем правильно Вас поправил - "Среднеквадратное отклонение" - звучит криво и слух режет. Более правильно будет - Среднее суммы квадратов разниц значений

Вы не совсем корректно, на мой взгляд, перевели и применили термин - "Среднеквадратичное отклонение", для его расчета требуется еще извлечь корень. Т.е. Среднеквадратичное отклонение = Root Mean Square Error. В случае с MSE правильнее применить - Среднеквадратное отклонение (хотя в нашей математике такой термин не используется, но применяя термин "Среднеквадратичное" Вы путаете людей).

Условные операторы в 3 строчки без лишнего гемора предскажут пол. Если значения меньше нуля - баба, больше - мужик. И нафиг эти нейросети?

Сначала популярные

По порядку

Спасибо, Кэп. Сколько понадобится условных операторов чтобы научиться отличать на картинке кошечек от собачек?

YandereDev подскажет сколько)

Чел не понимает что тут простой пример для новичков))

чего уж там, можно и спросить пол

Этот пример специально сделал примитивным, чтобы вы "пропахали носом" все основные формулы нейронных сетей. Для более сложных примеров вы не сможете этого сделать из-за огромного объема вычислений.

5 ответов

Замечательно! Спасибо! +++

👨‍🎓️Пишем нейросеть на Python с нуля

Ilya Ginsburg

Пишем нейросеть на Python с нуля

1. Составные элементы: нейроны

Простой пример

Пишем код для нейрона

2. Собираем нейронную сеть из нейронов

Пример: прямая связь

Пишем код нейронной сети

3. Обучаем нейронную сеть (часть 1)

Потери

Пример расчета потерь

Пишем функцию средней квадратичной ошибки

4. Обучаем нейронную сеть (часть 2)

Пример. Считаем частную производную

Обучение: стохастический градиентный спуск

Пишем код всей нейронной сети

Что теперь?

Источники

Комментарии

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

ООП на Python: концепции, принципы и примеры реализации

13 ресурсов, чтобы выучить математику

Программирование на Python: от новичка до профессионала

Пишем нейросеть на Python с нуля

1. Составные элементы: нейроны

Простой пример

Пишем код для нейрона

2. Собираем нейронную сеть из нейронов

Пример: прямая связь

Пишем код нейронной сети

3. Обучаем нейронную сеть (часть 1)

Потери

Пример расчета потерь

Пишем функцию средней квадратичной ошибки

4. Обучаем нейронную сеть (часть 2)

Пример. Считаем частную производную

Обучение: стохастический градиентный спуск

Пишем код всей нейронной сети

Что теперь?

Источники

ООП на Python: концепции, принципы и примеры реализации

13 ресурсов, чтобы выучить математику

Программирование на Python: от новичка до профессионала

Во время авторизации произошла ошибка