Génération d’images personnalisée à partir de texte par renforcement

La génération d’images personnalisée à partir de texte connaît un révolution grâce à l’apprentissage par renforcement. Ces modèles permettent aux utilisateurs de générer des images dans divers styles à partir d’une description textuelle et d’un ensemble d’images de référence.

Bien que les modèles de génération basés sur la diffusion aient obtenu des résultats impressionnants, ils altèrent souvent la structure visuelle et les détails de l’objet durant le processus de diffusion.

Ce problème survient car ces modèles utilisent un objectif de reconstruction simple pendant l’entraînement. Ce qui peine à maintenir la cohérence structurelle entre les images générées et les images de référence.

Une approche d’apprentissage par renforcement

Pour remédier à ce défi, un nouveau cadre d’apprentissage par renforcement a été conçu. Ceci utilise la méthode du gradient de politique déterministe pour la génération d’images personnalisées à partir de texte.

Ce cadre permet l’incorporation de divers objectifs, qu’ils soient différentiables ou non–différentiables, pour guider les modèles de diffusion dans l’amélioration de la qualité des images générées.

Résultats expérimentaux et performances observées

Les résultats expérimentaux sur des ensembles de données de référence pour la génération d’images personnalisée à partir de texte montrent que cette approche surpasse considérablement les méthodes de pointe actuelles en termes de fidélité visuelle tout en maintenant l’alignement avec la description textuelle.

Les avancées récentes dans la génération d’images personnalisée à partir de texte ont démontré une capacité remarquable à créer des images de haute qualité.

Ces modèles sont robustes, capables de produire des images couvrant des concepts variés dans divers contextes et arrière-plans. Ouvrant ainsi de nouvelles perspectives de recherche et d’innovation.

Cependant, une limitation demeure dans la nature non contrôlée de ces modèles de génération. Ces modèles ne peuvent pas encore synthétiser des concepts personnalisés basés sur des expériences personnelles.

Par exemple, il n’est pas encore possible de générer et de modifier des images d’animaux de compagnie spécifiques, d’amis ou d’objets personnels, en ajustant leurs poses, emplacements, styles ou arrière-plans selon les demandes de l’utilisateur.

Text-inversion

Pour permettre une telle personnalisation, certaines approches existantes utilisent un mécanisme de réglage contrôlé. Ce mécanisme intègre de nouveaux concepts dans des modèles de diffusion texte-en-image pré-entraînés.

La Text-Inversion, personnalise la génération d’images en apprenant un identifiant textuel unique à partir d’images données pendant le réglage. Cela permet au modèle de générer de nouvelles variations du concept d’entrée en utilisant des instructions qui incluent l’identifiant appris. De même, DreamBooth affine l’ensemble du modèle de diffusion pour apprendre des concepts personnalisés. En utilisant des images de super-classes pour régulariser le processus et maintenir les priorités spécifiques à la classe.

Custom diffusion

Une autre méthode, Custom Diffusion, améliore l’efficacité computationnelle en ajustant les paramètres des clés dans chaque couche d’attention croisée. Cependant, ces méthodes basées sur la diffusion reposent souvent sur un objectif de reconstruction simple. Ce qui peut avoir du mal à maintenir une cohérence visuelle appropriée entre les images générées et les images de référence. Les avancées des modèles de génération d’images personnalisée à partir de texte

Personne générant une image via une IA à partir d’une commande textuelle (génération d’images par IA, texte-en-image).

Les modèles de génération d’images basés sur la diffusion ont récemment connu des avancées rapides et impressionnantes. Initialement, DDPM a introduit un processus de diffusion du bruit pendant la passe avant et a utilisé un processus de débruitage dans un processus de Markov. Par la suite, DDIM a amélioré cela en adoptant une estimation implicite pour accélérer l’échantillonnage dans la génération d’images.

Des progrès significatifs ont également été réalisés dans la génération d’images à partir de texte, avec des modèles tels que : Imagen, GLIDE, Parti, Stable Diffusion et DALL·E. Obtenant des résultats remarquables lors de la génération d’images à partir de descriptions textuelles. Notamment, Stable Diffusion améliore l’efficacité de l’entraînement et de l’échantillonnage en effectuant le processus de diffusion dans l’espace latent.

Les techniques de personnalisation

La génération d’images personnalisées à partir de texte se concentre sur l’adaptation de modèles pré-entraînés pour apprendre des concepts personnalisés à partir d’un petit ensemble d’images, généralement 4 à 6, permettant des modifications de pose, de style ou de contexte.

Le Text Inversion personnalise la génération d’images en apprenant un identifiant textuel unique à partir des images fournies pendant le réglage. Permettant ainsi au modèle de générer de nouvelles variations en utilisant des instructions qui incluent l’identifiant appris.

P+ améliore cette méthode d’inversion en injectant l’identifiant appris dans chaque couche d’attention du U-Net de débruitage. Tandis que NeTI renforce cela en introduisant un cartographe neuronal pour fusionner le temps d’étape du processus de débruitage.

En revanche, DreamBooth ajuste l’ensemble du modèle de diffusion pour apprendre des concepts personnalisés. Ce modèle est régularisé par des images de super-classes pour préserver les priorités spécifiques à la classe. Custom-Diffusion augmente l’efficacité computationnelle en ajustant uniquement les paramètres clés et de valeur dans les couches d’attention croisée. ELITE mappe directement les concepts visuels dans les embeddings textuels via un encodeur apprenable. De plus, certaines approches visent à créer des générateurs texte-en-image spécifiques à un domaine en utilisant un encodeur de personnalisation.

Ces modèles génèrent des images dans un domaine de classe spécifique à partir d’une seule image et d’une instruction. Et ce, sans avoir besoin de régler les paramètres sur de nouvelles entrées. Dans ce contexte, la tâche de la génération d’images personnalisées à partir de texte est revisitée en utilisant l’apprentissage par renforcement. Reformant le paradigme d’apprentissage dans un cadre de gradient de politique déterministe (DPG).

Génération d’image par IA à partir d’un identifiant textuel

Un nouveau cadre pour la personnalisation

Pour répondre à ce défi, un nouveau cadre est proposé pour la personnalisation texte-en-image utilisant l’apprentissage par renforcement. Ce cadre incorpore divers objectifs, qu’ils soient différentiables ou non différentiables.

Bien que les méthodes de génération d’images à partir de texte existantes aient utilisé l’apprentissage par renforcement avec des retours humains pour améliorer la qualité des images ou l’alignement du texte. Ces approches sont moins efficaces dans des contextes personnalisés, où seul un petit ensemble d’images est disponible pour représenter les concepts personnalisés.

Contrairement à ces méthodes traditionnelles, le nouveau cadre explore plusieurs stratégies de personnalisation texte-en-image. Il fournit un modèle de récompense adapté pour capturer la cohérence visuelle à long terme des sujets personnalisés dans les modèles de diffusion, soutenu par des signaux de supervision riches.

Cette étude introduit un cadre prenant en charge diverses formes de supervision pour la génération d’images personnalisées à partir de texte. Le cadre utilise l’algorithme du gradient de politique déterministe (DPG) pour ajuster les modèles de diffusion. Tout en incorporant une fonction de récompense différentiable spécifique aux concepts personnalisés. De plus, deux nouvelles pertes sont introduites pour assurer une cohérence visuelle à long terme et améliorer la fidélité visuelle des images personnalisées.

Les résultats expérimentaux montrent que cette approche surpasse significativement les méthodes de pointe existantes sur plusieurs benchmarks. Et ce pour la génération d’images personnalisées à partir de texte, en particulier dans la préservation de la fidélité visuelle.

Limites et ajustements possibles de la génération d’images personnalisée à partir de texte

Dans certains cas, le cadre équipé de certains baselines (par exemple, DreamBooth) peut accorder trop d’importance à la fidélité visuelle. Ce problème peut être atténué en utilisant un encodeur de texte plus puissant ou des baselines qui équilibrent l’alignement entre l’image et le texte. De plus, la récompense d’alignement du texte sera encore affinée dans le cadre DPG pour améliorer cet alignement.

Risques et opportunités de la génération d’images personnalisée à partir de texte

Les méthodes développées peuvent synthétiser de fausses images avec des sujets personnalisés. Tels que des visages humains ou des animaux de compagnie privés. Ceci peut augmenter le risque de fuite de données privées et de falsification de portraits. Par conséquent, les utilisateurs souhaitant utiliser cette technique devraient obtenir l’autorisation d’utiliser les images personnalisées concernées. Malgré ces préoccupations, l’approche peut également être utilisée comme un outil pour l’AIGC afin de créer des images imaginatives à des fins de divertissement. Pour les professionnels opérant dans la génération texte-en-image personnalisée, les défis éthiques et techniques peuvent être décourageants.

A Leyton, on soutient les innovateurs en les aidant à optimiser leurs ressources et assurer un crédit d’impot R&D! Leur permettant de se concentrer sur l’avancement des projets innovants.

Discuter avec un expert!