Fonctions de coût#
Nous avons maintenant présenté une première famille de modèles, qui est la famille MLP. Afin d’entraîner ces modèles (i.e. d’ajuster leurs paramètres pour qu’ils s’adaptent aux données), nous devons définir une fonction de coût (aussi appelée fonction de perte, ou loss function) à optimiser. Une fois cette fonction choisie, l’optimisation consistera à régler les paramètres du modèle de manière à la minimiser.
Dans cette section, nous présenterons deux fonctions de pertes standard, à savoir l’erreur quadratique moyenne (principalement utilisée pour la régression) et la fonction de perte logistique (utilisée en classification).
Dans ce qui suit, nous supposons connu un ensemble de données \(\mathcal{D}\) composé de \(n\) échantillons annotés \((x_i, y_i)\), et nous désignons la sortie du modèle :
où \(m_\theta\) est notre modèle et \(\theta\) est l’ensemble de tous ses paramètres (poids et biais).
Erreur quadratique moyenne#
L’erreur quadratique moyenne (ou Mean Squared Error, MSE) est la fonction de perte la plus couramment utilisée dans les contextes de régression. Elle est définie comme suit
Sa forme quadratique tend à pénaliser fortement les erreurs importantes :
Perte logistique#
La perte logistique est la fonction de perte la plus largement utilisée pour entraîner des réseaux neuronaux dans des contextes de classification. Elle est définie comme suit
où \(p(\hat{y}_i = y_i ; m_\theta)\) est la probabilité prédite par le modèle \(m_\theta\) pour la classe correcte \(y_i\).
Sa formulation tend à favoriser les cas où le modèle prédit la classe correcte avec une probabilité proche de 1, comme on peut s’y attendre :