Vanhoof, Antoine
[UCL]
De Vleeschouwer, Christophe
[UCL]
Le domaine de l’Intelligence Artificielle (IA) est actuellement en plein essor; les réseaux de neurones sont de plus en plus présents, notamment les réseaux de neurones convolutifs (convolutional neural networks ou CNN) pour leurs performances parfois remarquables dans la classification et la reconnaissance d’images. Cependant, malgré l’engouement pour la capacité de généralisation des CNN profonds, cette capacité à classifier correctement des images jamais vues auparavant, on ne connaît pas encore leur fonctionnement de manière assez précise. Souvent considérés comme des "boites noires", ces réseaux sont plus ou moins bons dans leurs applications, et cela pour des raisons encore floues. En d’autres termes, la raison d’une bonne généralisation d’un CNN n’est pas encore bien connue.Dans ce travail, nous avons donc comparé des réseaux/modèles entraînés par des algorithmes d’optimisations différents ; via sgd, via sgd avec weight decay et via sgd utilisant l’extension layca [CV18b]. L’entraînement à l’aide d’algorithmes d’optimisation différents nous a permis d’obtenir des modèles offrant des propriétés observables différentes en termes de généralisation. En continuation des travaux [CV18b], nous affirmons que la variation de la cosinus distance entre le nouveau vecteur de poids généré lors de l’apprentissage et le vecteur de poids initial n’est pas directement liée à la généralisation, mais elle en représente une expression visible. Nous avons alors analysé la façon dont sont générés ces nouveaux vecteurs de poids lors de l’apprentissage et avons conclu qu’une grande cosinus distance est signe d’une aptitude du réseau à mettre à zéro les liens inutiles, améliorant ainsi la robustesse du réseau à l’élagage (pruning) de ces poids les plus petits.On se penche maintenant sur la redondance d’information des activations. Dans les premières couches, on remarque qu’un réseau qui généralise mieux aura un moins grand coefficient de silhouette (CS) et une plus petite information mutuelle entre ses neurones (IM). Le comportement inverse se produira dans les dernières couches. L’information mutuelle des neurones avec les classes (IMC) montre un comportement similaire, plus important et plus tôt dans le réseau. Elle serait un symptôme direct d’un meilleur apprentissage au sein même de chaque neurone. De plus, il semble que les comportements de l’IM et de la CS soient conséquents de cette première. Le meilleur apprentissage de chaque neurone amène à un meilleur choix de sous-classes, directement liées avec la classification finale voulue. On peut donc émettre l’hypothèse qu’un réseau qui généralise mieux est constitué de neurones qui classent et transforment plus efficace-ment leurs entrées par rapport à l’ensemble des données reçues (images et classes). L’ensemble de ces expériences nous amène à mieux comprendre le fonctionnement de sgd, weight decay et layca. Effectivement, avec ces deux dernières extensions, on amène le réseau à adopter une structure plus nette ainsi qu’une plus grande diversité dans les biais observés. C’est cette diversité dans l’observation des biais par le réseau qui lui permet de prendre sa décision de classification sur plusieurs caractéristiques, et donc être plus apte à une meilleure généralisation.On confirme l’hypothèse affirmant qu’un réseau peu profond aura tendance à ne distinguer que les biais superficiels des données. Les performances de généralisation, apportées par la détection des biais désirés, seront ainsi diminuées. Plus un réseau sera profond, plus il y aura de paramètres à ajuster et plus on pourra dégager des sous-classes complexes adéquates qui cernent les bons biais des données servant à la classification voulue. Cette complexité amène une classification plus conceptuelle et intelligente, c’est-à-dire une meilleure généralisation. Finalement, on observe que les réseaux dégagent plusieurs biais dans les données. Ces biais sont créés de façon à différencier correctement les entrées dans la base de données. De plus, si un réseau observe plusieurs biais en lien avec la classification, cela lui apportera généralement de meilleures performances car il sera alors plus robuste. C’est ce qu’essaie d’apporter l’usage de dropout, weight decay et layca dans l’apprentissage, et c’est ce qui est mis en avant par le prunning. Pour faire simple, l’explication d’une bonne généralisation vient du fait que le réseau observe un meilleur choix de biais.


Bibliographic reference |
Vanhoof, Antoine. Indicateurs de généralisation au sein des couches d’un réseau de neurones convolutifs. Ecole polytechnique de Louvain, Université catholique de Louvain, 2019. Prom. : De Vleeschouwer, Christophe. |
Permanent URL |
http://hdl.handle.net/2078.1/thesis:22290 |