Le modèle BERT

L’objectif technologique de BERT était d’explorer la géométrie des représentations internes de l’information linguistique de BERT, y compris les caractéristiques syntaxiques et les caractéristiques sémantiques. Le modèle BERT est une nouvelle technique de pré-entraînement au traitement du langage naturel (NLP) développée par l’équipe Google AI Langage qui utilise un encodeur transformateur bidirectionnel multicouche et deux tâches pré-entraînées non supervisées, dont le LM masqué et la NSP (prédiction de la phrase suivante). Au lieu du modèle traditionnel gauche-droite ou droite-gauche, BERT pré-entraîne le texte non étiqueté en conditionnant conjointement le contexte gauche et droit dans toutes les couches. Par conséquent, BERT est capable de réaliser un large éventail de tâches, telles que la réponse à des questions et l’inférence linguistique.

Lors de l’examen des études précédentes, les travaux relatifs à des réseaux neuronaux similaires, tels que CNN et Word2Vec ont conduit à certaines limitations des connaissances sur l’étude actuelle, comme les caractéristiques linguistiques qui sont traduites en représentations géométriques et certaines hypothèses comme les informations grammaticales peuvent être représentées par des directions dans l’espace et les matrices d’attention peuvent encoder des relations importantes entre les mots.

En outre, la recherche axée sur la représentation géométrique des arbres d’analyse complète par Hewitt et Manning met en évidence deux limites de connaissance de la technologie, l’une étant la possibilité de découvrir d’autres exemples de représentations intermédiaires, et l’autre la façon dont ces représentations internes se décomposent.

Un certain nombre d’obstacles technologiques spécifiques ont motivé les recherches décrites plus loin. Tout d’abord, BERT est un cadre de traitement du langage naturel (NLP) récemment publié, que Google qualifie de plus grande avancée en cinq ans. Contrairement aux réseaux neuronaux traditionnels tels que CNN ou RNN qui ont suffisamment de travaux antérieurs auxquels se référer, l’architecture de transformation de BERT a été un domaine largement sous-exploré avec de nombreux potentiels inexploités. Il est donc difficile de trouver une technique ou une méthodologie existante correspondant à cette étude.

Le deuxième défaut technologique de cette étude est que, pour visualiser la géométrie interne, ils ont dû traiter avec des dimensions élevées. A dû traiter avec un espace à haute dimension. Il faut commencer par trouver des explications théoriques pour prouver l’existence, puis essayer des techniques de projection en deux dimensions qui fournissent des images compréhensibles.

Par conséquent, les expériences doivent être soigneusement conçues et la technique de projection doit être choisie avec précaution. Par exemple, lors de la visualisation des encastrements d’arbres pour la géométrie de la syntaxe, l’étude utilise l’ACP en raison de sa facilité d’interprétation. Cependant, lors de la visualisation du sens des mots, ils utilisent l’UMAP car l’ACP a tendance à perdre certains des sous-titres alors que l’UMAP a des gains de vitesse et la capacité de mieux préserver les données sous la structure globale.

Les études de la PNL pour améliorer l’expérience de recherche de l’utilisateur ont fait l’objet de nombreuses recherches ces dernières années. Ces travaux ont discuté de la représentation syntaxique dans les matrices d’attention et les directions dans l’espace représentant la relation de dépendance. Ils ont également proposé une justification mathématique pour l’intégration de l’arbre à distance carrée et ont visualisé l’intégration de l’arbre pour prouver que la représentation syntaxique a un aspect quantitatif. En outre, ils étudient comment les erreurs de désambiguïsation du sens des mots peuvent correspondre à des changements dans la représentation géométrique interne du sens des mots. Ils ont également exploré le fait que la géométrie interne de BERT peut être divisée en plusieurs sous-espaces linéaires pour faire correspondre différentes représentations.

Les résultats présentés dans cet article auront une influence considérable sur les tâches de traitement du langage naturel. L’un des résultats les plus intéressants de cette étude est la capacité de la géométrie interne à se décomposer en sous-espaces linéaires distincts pour différentes informations syntaxiques et sémantiques. Ce type de décomposition implique qu’il peut y avoir d’autres sous-espaces significatifs et représenter d’autres types de caractéristiques linguistiques.

Une autre voie d’exploration potentielle est la découverte de la transformation linéaire pour le sous-espace d’intégration, au lieu de la couche finale, le résultat suggère qu’il y a plus d’informations sémantiques dans la géométrie de l’intégration des couches précédentes, ce qui peut permettre d’atteindre une plus grande précision de l’état de l’art. En outre, le résultat de l’expérience de concaténation met en évidence un mode d’échec potentiel des modèles basés sur l’attention. Ces résultats précieux sur la géométrie interne incitent les gens à approfondir leur compréhension de l’architecture des transformateurs et font la lumière sur l’amélioration de l’architecture de BERT.

Les entreprises qui innovent dans le domaine des technologies logicielles susceptibles d’améliorer notre vie quotidienne sont éligibles à plusieurs programmes de financement, notamment les subventions gouvernementales et la RS&DE.

Vous voulez en savoir plus sur les possibilités de financement pour votre projet ? Planifiez une consultation gratuite avec l’un de nos experts dès aujourd’hui !

Contactez-Nous