DeepSeek lance Janus-Pro, un nouveau modèle d’IA générative qui rivalise avec DALL-E 3 d’OpenAI.

Janus-Pro est un modèle d’IA générative avancé qui surpasse ses concurrents dans les benchmarks de compréhension multimodale et de génération d’images. Avec 1 et 7 milliards de paramètres, il reste open source, mais présente des limitations de résolution d’image.

Générateur d'images IA
Enregistrer pour plus tard (0)
Please login to bookmark Close

Après le lancement remarqué de DeepSeek-R1, un modèle rivalisant avec le modèle O1 d’OpenAI, l’entreprise élargit son champ d’action avec JanusFlow, un modèle multimodal révolutionnaire dévoilé fin 2024.

Ce dernier intègre des modèles de langage autoregressifs, enrichis par la technique de « rectified flow » pour la modélisation générative, jetant ainsi les bases de l’innovation en génération d’images.

Cette semaine, la start-up a dévoilé Janus-Pro, une version avancée de JanusFlow. L’information nous a été portée par le média l’Usine Digitale.

Il dévoile que selon un article scientifique publié par l’équipe de recherche de DeepSeek, ce modèle est conçu pour « améliorer considérablement la compréhension multimodale et la génération visuelle ».

Janus-Pro n’est pas seulement une mise à jour ; il constitue une avancée stratégique grâce à une optimisation de la méthode d’entraînement, à un élargissement des données d’entraînement et à l’augmentation de la taille du modèle.

Avec ses deux variantes comptant respectivement 1 milliard et 7 milliards de paramètres, Janus-Pro démontre une scalabilité impressionnante. DeepSeek souligne que ces modèles, tout en restant compatibles avec leur engagement en faveur de l’open source, sont disponibles publiquement, facilitant ainsi l’accès à des solutions avancées en matière de génération d’images.

En termes de benchmarks, Janus-Pro se distingue par ses performances. Lors de tests véritablement sélectifs, la version 7B de Janus-Pro a obtenu un score de 79,2 sur le benchmark MMBench de compréhension multimodale, surpassant non seulement les versions précédentes comme Janus (69,4) mais également des concurrents tels que TokenFlow (68,9) et MetaMorph (75,2).

Sur le benchmark GenEval, dédié à l’instruction de texte vers image, le modèle affiche un score impressionnant de 0,80, dépassant d’autres références dans le domaine comme DALL-E 3 (0,67) et Stable Diffusion 3 Medium (0,74).

Malgré ces succès, DeepSeek reconnaît certaines limitations de Janus-Pro. Parmi elles, la résolution d’entrée est encore restreinte à 384×384 pixels, une contrainte qui affecte la précision dans des tâches comme la reconnaissance optique de caractères.

Les chercheurs mettent aussi en lumière les pertes détaillées dans les images produites par le modèle, conséquence de la faible résolution actuelle et des pertes de reconstruction induites par le tokenizer visuel.

Ils estiment qu’en augmentant la résolution des images, ces obstacles pourraient être réduits, augmentant ainsi la qualité des visualisations générées.

En plaçant l’innovation technologique au cœur de ses stratégies, DeepSeek confirme sa place parmi les acteurs clés de l’industrie.

En bref

– DeepSeek a lancé Janus-Pro, un nouveau modèle d’IA générative pour la génération d’images.

– Ce modèle est une version avancée de JanusFlow, intégrant des modèles de langage autoregressifs.

– Janus-Pro propose deux variantes avec respectivement 1 milliard et 7 milliards de paramètres, offrant une scalabilité impressionnante.

– Il a surpassé des concurrents sur des benchmarks de compréhension multimodale et d’instruction de texte vers image.

– Malgré ses succès, des limitations subsistent, notamment une résolution d’entrée de 384×384 pixels.

Vous appréciez nos contenus ?

Enjoy Unlimited Digital Access

Read trusted, award-winning journalism. Just $2 for 6 months.
Already a subscriber?
Partager l'article

Quel est votre avis sur le sujet ?

Commenter

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *