Régression logistique

Régression logistique#

Le neurone artificiel#

C’est parti pour le vif du sujet : le neurone artificiel !

La figure ci-dessous montre comment fonctionne un neurone artificiel :

Neurone artificiel

Un neurone artificiel prend en entrée un vecteur \(\mathbf{x}=(x_1,x_2,...,x_n)\). Chaque élément \(x_i\) du vecteur \(\mathbf{x}\) est multiplié par un poids \(w_i\), puis on fait la somme de tout ça et on ajoute un biais \(b\). Cette somme est ensuite passée dans une fonction appelée fonction d’activation \(\phi\). \(Sortie = \phi(\sum_{i=0}^{n} w_i x_i + b)\) On appelle ce procédé neurone artificiel car il s’inspire du fonctionnement d’un neurone biologique.

Les fonctions d’activation#

Fonction de Heaviside : À l’origine, le premier neurone artificiel (le perceptron) utilisait une fonction de seuillage comme fonction d’activation. Cela permet de prendre une décision (0 ou 1) en fonction de la somme pondérée et d’un seuil défini. \(heaviside(x) = \left\{ \begin{array}{ll} 1 & \text{si } x > 0 \\ 0 & \text{sinon} \end{array} \right. \text{avec } x=\sum_{i=0}^{n} w_i x_i + b\) Cette fonction d’activation est efficace pour une classification binaire, mais elle ne fonctionne pas pour plusieurs classes. De plus, la fonction n’est pas dérivable, ce qui complique l’utilisation de l’algorithme de la descente du gradient pour optimiser les poids \(w_i\) du neurone.

Les fonctions d’activation récentes sont bien plus intéressantes pour l’entraînement de réseaux de neurones par descente du gradient. Premièrement, elles sont dérivables, ce qui permet d’appliquer notre algorithme de descente du gradient. Deuxièmement, elles sont non linéaires, ce qui permet aux réseaux d’apprendre des représentations complexes. Il y a aussi d’autres avantages spécifiques à chaque fonction d’activation.

Une des fonctions d’activation “récente” est la fonction sigmoïde, que nous détaillons ici :

Fonction sigmoïde : Une autre fonction d’activation particulièrement intéressante par son analogie avec une probabilité est la fonction sigmoïde. Cette fois-ci, la fonction permet d’obtenir une valeur entre 0 et 1 grâce à la formule : \(sigmoid(x) = \frac{1}{1 + e^{-x}} \text{ avec } x=\sum_{i=0}^{n} w_i x_i + b\)

# Tracé de la fonction sigmoïde
import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))
x = np.linspace(-10, 10, 100)
y = sigmoid(x)

plt.plot(x, y)
plt.title('Fonction sigmoïde')
plt.xlabel('x')
plt.ylabel('sigmoid(x)')
plt.grid(True)
plt.show()

../_images/cb2a6b5327d1de2209c0b7d14fce71c47416801bce8208628ada2d92dc021e7c.png

Cette fonction est dérivable et sa dérivée vaut : \(sigmoid'(x) = sigmoid(x) \cdot (1 - f(x))\) On peut donc appliquer la descente du gradient à notre neurone artificiel lorsqu’on utilise cette fonction d’activation.

Il existe de nombreuses autres fonctions d’activation qui ont chacune leurs utilités. Nous les verrons dans les cours suivants. (\(Tanh\),\(ReLU\),\(Softmax\))

Application#

Pour bien comprendre la régression logistique, rien de tel qu’un exemple concret.

Dans cet exemple, nous allons déterminer si un étudiant sera admis dans l’université de ses rêves à partir de trois informations : son score à l’examen d’entrée, ses notes moyennes de l’année précédente et la qualité de sa lettre de motivation.

Nous ne connaissons pas la méthode de calcul pour l’admission ou le refus d’un étudiant, mais nous disposons des données et des décisions correspondantes.

Les informations d’entrée sont comprises entre 0 et 1, avec 1 indiquant le meilleur score. Admis = 1 correspond à une admission, tandis qu’admis = 0 correspond à un refus.

from tabulate import tabulate

# Définition des données d'entraînement
values_train = [[0.7, 0.8, 0.1], [0.4, 0.9, 0.5], [0.2, 0.3, 0.9], [0.9, 0.9, 0.6]]
labels_train = [1, 0, 0, 1]

# Ajout des noms de colonnes
data = [['Examen', 'Moyenne', 'Motivation', 'Admis']]
data.extend([[values_train[i][0], values_train[i][1], values_train[i][2], labels_train[i]] for i in range(len(values_train))])

# Affichage du tableau
print(tabulate(data, headers="firstrow", tablefmt="fancy_grid"))

╒══════════╤═══════════╤══════════════╤═════════╕
│   Examen │   Moyenne │   Motivation │   Admis │
╞══════════╪═══════════╪══════════════╪═════════╡
│      0.7 │       0.8 │          0.1 │       1 │
├──────────┼───────────┼──────────────┼─────────┤
│      0.4 │       0.9 │          0.5 │       0 │
├──────────┼───────────┼──────────────┼─────────┤
│      0.2 │       0.3 │          0.9 │       0 │
├──────────┼───────────┼──────────────┼─────────┤
│      0.9 │       0.9 │          0.6 │       1 │
╘══════════╧═══════════╧══════════════╧═════════╛

Notre but dans ce problème est de déterminer si les étudiants ayant eu les scores \([Examen=0.8, Moyenne=0.7, Motivation=0.2]\) et \([Examen=0.4, Moyenne=0.5, Motivation=0.9]\) ont été admis.

Vous l’aurez compris, les données \(Examen\), \(Moyenne\) et \(Motivation\) correspondent à nos \(x_i\). Notre but avec la régression logistique est de trouver une valeur optimale des \(w_i\) en accord avec nos données d’entraînement.

Pour simplifier, posons \(x_0=Examen\), \(x_1=Moyenne\) et \(x_2=Motivation\) et \(y_{true}=Admis\).

Fonction de coût#

Dans notre exemple de descente du gradient, notre but était de trouver le minimum d’une fonction. C’est dans ces scénarios que la descente du gradient excelle. Pour notre nouveau problème, il nous faut trouver une fonction qui, lorsqu’on la minimise, améliore les prédictions.

Dans notre classification binaire, \(y_{true}\) vaut 1 si l’élève est admis et 0 sinon.

Notre but est de prédire si l’élève est admis ou non en prédisant la sortie \(pred\).

Lors de l’entraînement, on veut entraîner notre modèle de régression logistique à prédire \(pred \approx y_{true}\).

Pour cela, on utilise la fonction de vraisemblance négative, qui s’exprime de la manière suivante : \(\text{loss} = - \left( y_{\text{true}} \cdot \log(\text{pred}) + (1 - y_{\text{true}}) \cdot \log(1 - \text{pred}) \right)\)

Pour plus de détails sur la régression logistique et la perte de vraisemblance négative, vous pouvez consulter ce lien.

L’important est de comprendre comment cette fonction varie en fonction de notre prédiction \(pred\) et du label \(y_{true}\).

Pour cela, prenons le cas où le label est \(y_{true}=1\). Analysons deux cas :

Si \(pred=0.9\), c’est-à-dire que notre modèle prédit que l’élève sera admis à 90% de chance (une bonne prédiction), alors : \(\text{loss} = - \left( 1.0 \cdot \log(0.9) + (1 - 1.0) \cdot \log(1 - 0.9) \right)\) \(\text{loss} = - \left( 1.0 \cdot \log(0.9) + 0 \cdot \log(1 - 0.9) \right)\) \(\text{loss} = - \left( 1.0 \cdot \log(0.9)\right)\) \(\text{loss} = - \left( 1.0 \cdot \log(0.9)\right)\) \(\text{loss} = 0.046\) Le loss est faible, c’est une bonne chose car la prédiction est bonne.

Si \(pred=0.2\), c’est-à-dire que notre modèle prédit que l’élève sera admis à 20% de chance (une mauvaise prédiction), alors : \(\text{loss} = - \left( 1.0 \cdot \log(0.2) + (1 - 1.0) \cdot \log(1 - 0.2) \right)\) \(\text{loss} = - \left( 1.0 \cdot \log(0.2) + 0 \cdot \log(1 - 0.2) \right)\) \(\text{loss} = - \left( 1.0 \cdot \log(0.2)\right)\) \(\text{loss} = - \left( 1.0 \cdot \log(0.2)\right)\) \(\text{loss} = 0.70\) Le loss est important, c’est une bonne chose car la prédiction est mauvaise.

Pour un cas où \(y_{true}=0\), on retrouve un loss faible quand la \(pred\) est proche de 0 et un loss important quand \(pred\) est proche de 1 (faire le calcul pour s’exercer si besoin).

Calcul des dérivées#

Maintenant que nous avons une fonction à minimiser, il est nécessaire de calculer la dérivée de cette fonction en fonction de chacun des poids \(w_0\), \(w_1\), \(w_2\) et \(b\).

On doit donc calculer \(\frac{\partial loss}{\partial w_0}\), \(\frac{\partial loss}{\partial w_1}\), \(\frac{\partial loss}{\partial w_2}\) et \(\frac{\partial loss}{\partial b}\).

Pour les poids \(w_0\), \(w_1\) et \(w_2\), la dérivée s’effectue de la même manière.

Avec la règle de la chaîne, pour \(w_0\), on a : \(\frac{\partial loss}{\partial w_0} = \frac{\partial loss}{\partial pred} \cdot \frac{\partial pred}{\partial w_0}\)

Pour rappel, notre prédiction \(pred\) correspond à la sortie de notre régression logistique avec la fonction d’activation \(sigmoid\).

Pour le premier terme, la dérivée du loss en fonction de \(pred\) nous donne : \(\frac{\partial loss}{\partial pred} = -(\frac{y_{true}}{pred} - \frac{1-y_{true}}{1-pred}) \) Le calcul ne sera pas détaillé ici, mais vous pouvez le faire vous-même pour vous en assurer.

Pour le second terme, la dérivée de \(pred\) en fonction de \(w_0\) nous donne : \(\frac{\partial pred}{\partial w_0} = pred \cdot (1-pred) \cdot x_0\)

En combinant les deux termes, on obtient : \(\frac{\partial loss}{\partial w_0} =-(\frac{y_{true}}{pred} - \frac{1-y_{true}}{1-pred}) \cdot pred \cdot (1-pred) \cdot x_0\)

Et après simplification (magique), \(\frac{\partial loss}{\partial w_0} = (pred-y_{true}) \cdot x_0\)

Sans détailler le calcul, on obtient également : \(\frac{\partial loss}{\partial b} = pred-y_{true}\)