Quelle est la définition de la dérivée d'une fonction \( f \) en un point \( x \) ?
2
Quel est le rôle principal de la descente du gradient en optimisation ?
3
Dans la méthode de descente du gradient, comment est mise à jour la variable \( x \) à chaque itération ?
4
Quelle est la règle de la chaîne en calcul différentiel ?
5
Dans le contexte de la descente du gradient pour plusieurs variables, comment calcule-t-on la dérivée partielle de \( y \) par rapport à la variable \( a \) ?
6
Quelle est la formule de la fonction sigmoïde \( \sigma(x) \) utilisée comme fonction d'activation dans un neurone artificiel ?
7
Pourquoi la fonction de Heaviside est moins adaptée pour l'entraînement par descente du gradient d'un réseau de neurones ?
8
Quelle est la forme générale de la fonction de perte (loss) utilisée en régression logistique pour une donnée avec étiquette \( y_{true} \) et prédiction \( pred \) ?
9
Quelle est la dérivée partielle de la fonction de perte par rapport au poids \( w_0 \) dans la régression logistique ?
10
Comment est calculée la sortie d'un neurone artificiel avec entrée \( \mathbf{x} \), poids \( \mathbf{w} \), biais \( b \) et fonction d'activation \( \phi \) ?