DeepSeek présente un nouveau LLM à 685 milliards de paramètres pour défier ChatGPT

DeepSeek a lancé DeepSeek-V3-0324, un modèle de langage ouvert avec 685 milliards de paramètres, rivalisant avec GPT-4o et GPT-4.5. Ce modèle est 27 fois moins coûteux par question que ChatGPT et utilise l’architecture Mixture-of-Experts, nécessitant une infrastructure de calcul puissante. La technologie chinoise continue de représenter un défi pour l’industrie de l’IA aux États-Unis.

Modèle de langage DeepSeek-V3-0324 avec 685 milliards de paramètres, rival des références comme GPT-4.
Enregistrer pour plus tard (0)
Please login to bookmark Close

En ce début d’année 2025, la scène de l’intelligence artificielle connaît une nouvelle avancée majeure en provenance de Chine. DeepSeek, déjà reconnu pour ses prouesses technologiques, vient de dévoiler DeepSeek-V3-0324, un modèle de langage ouvert qui rivalise avec les références du secteur comme GPT-4o et GPT-4.5. Avec ses 685 milliards de paramètres, ce modèle pourrait bien renforcer l’emprise chinoise sur le marché de l’IA.

DeepSeek, souvent décrit comme une pépite dans le domaine de l’IA, avait déjà marqué les esprits au début de l’année avec ses modèles performants proposés à des coûts bien inférieurs par rapport à leurs homologues américains. Par exemple, DeepSeek-R1, son modèle de réflexion, s’est révélé 27 fois moins coûteux par question que ChatGPT, un argument de poids face aux solutions offertes par Google ou OpenAI. Le caractère open source de R1 a permis à de nombreuses entreprises, y compris aux États-Unis, d’exploiter ce modèle pour développer leurs propres services.

Précédemment, DeepSeek avait déjà impressionné avec sa version V3, un modèle rivalisant avec GPT-4o ou Google Gemini. La mise à jour récente du 24 mars 2025 intervient sans grande communication de la part de l’entreprise, visant probablement à créer un effet de surprise.

Ce nouveau modèle, disponible sur la plateforme Hugging Face, demande une infrastructure de calcul puissante, raisonnablement disponible sur des machines professionnelles telles que le Mac Studio d’Apple. En utilisant l’architecture Mixture-of-Experts (MoE), ce modèle peut exploiter efficacement les ressources informatiques tout en allégeant la charge complète initiale.

Malgré le peu d’informations sur les caractéristiques techniques de DeepSeek-V3-0324, il est clair que ses performances promettent des améliorations significatives, notamment dans le domaine des mathématiques, d’après les premiers testeurs. Bien que DeepSeek ne détaille pas encore les avancées de cette version, l’industrie observe de près ces évolutions. Les modèles révisés sortent fréquemment dans le secteur, mais cette fois, l’attente pour des communications officielles demeure, car la technologie chinoise continue de représenter un défi de taille pour les États-Unis.

DeepSeek continue donc de faire parler de lui en tant qu’acteur majeur de l’intelligence artificielle mondiale. Avec une stratégie qui mise sur l’accessibilité open source et des coûts réduits, l’entreprise chinoise semble bien positionnée pour influencer durablement le marché.

📌 Source(s) et inspiration(s) : Numerama – DeepSeek publie un nouveau modèle avec 685 milliards de paramètres

En Bref

  • DeepSeek a lancé DeepSeek-V3-0324, un modèle de langage ouvert avec 685 milliards de paramètres.
  • Ce modèle rivalise avec des références du secteur comme GPT-4o et GPT-4.5.
  • DeepSeek-R1, un modèle précédent, est 27 fois moins coûteux par question que ChatGPT.
  • DeepSeek-V3-0324 utilise l’architecture Mixture-of-Experts et nécessite une infrastructure de calcul puissante.
  • La technologie chinoise continue de représenter un défi important pour l’industrie de l’IA aux États-Unis.
Vous appréciez nos contenus ?

Enjoy Unlimited Digital Access

Read trusted, award-winning journalism. Just $2 for 6 months.
Already a subscriber?
Partager l'article

Quel est votre avis sur le sujet ?

Commenter

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *