Hello AiDDICTS 👋
Google a dévoilé hier son modèle d’IA Gemini, capable de faire des choses vraiment spectaculaires dont certaines n’étaient encore réalisées par aucune autre intelligence artificielle.
Dans cet article, on va voir les capacités de Gemini démontrées par Google, expliquer en quoi il peut être un sérieux concurrent à Chat GPT et surtout, vous montrer comment vous pourrez tirer profit de Gemini ?
Gemini, des capacités (sur)humaines :
D’abord, Gemini est un modèle d’IA générative multimodal. Autrement dit, il est capable de générer des données dans plusieurs modalités : texte, image, audio, vidéo ou encore code. Comme toutes les les IA génératives multimodaux, il est entraîné sur des ensembles de données différents et massifs. Ce qui lui permet d’apprendre les relations entre les différentes modalités, c’est-à-dire les différents éléments.
D’après l’annonce de Google, il existe trois version de Gemini :
- Gemini Nano : le plus petit, pour la transcription audio et l »écriture des réponses automatiques par messages.
- Gemini Pro : de taille moyenne, il est conçu pour des tâches plus complexes et intègre déjà Bard, le Chat GPT de Google. Cependant, il faudra patienter jusqu’au 13 décembre pour commencer à en bénéficier.
- Gemini Ultra : le plus puissant de tous. Il est une version avancée de Bard. C’est lui qui peut traiter à la fois l’image, le texte, le code, l’audio et la vidéo. Il sera lancé l’année prochaine.
Pour vous donner une petite idée de la puissance de Gemini, voici une liste non exhaustive de choses qu’il est capable de réaliser :
- Générer du code à partir d’un prompt ou à partir d’un modèle.
- Générer une image avec une légende sur l’image. Jusque là, les les modèles IA, générait des images et des textes de manières séparée. Lui est capable de faire les deux simultanément
- Décrire à voix haute (en plusieurs langues) des images ou des dessins que tu lui montre.
- Deviner (oui, oui🙄) ce que tu veux dessiner à partir d’un simple croquis au fur et à mesure que tu le fais (voir vidéo ci-dessous)
- Deviner une scène de films à partir des simples mimiques. Quelqu’un a mimé la séquence de Matrix où Néo esquive les balles et Gemini a deviné avec exactitude de quel film il s’agissait 🤯
- Résoudre des problèmes ultra complexes en maths et en physique. Soit en lui posant la question, soit en lui montrant une simple image de l’énoncé. Ex : tu lui montre un photo de la feuille où est écrit le problème, il l’analyse et te fournit la réponse avec le raisonnement et des explications conceptuelles.
Bref, on est clairement entrés dans une nouvelle phase de l’avancée de l’IA avec Gemini. Ce qui est encore plus impressionnant, c’est sa capacité à raisonner et à deviner. Je pense qu’on n’est pas prêt pour ce qui arrive!
Comment Gemini peut battre Chat GPT ?
Même si Chat GPT fait déjà des choses incroyables, notamment avec la version Plus et le GPT Builder, les tests comparatifs effectués entre GPT-4 et Gemini Ultra ont montré une domination de Gemini Ultra dans la plupart des domaines, notamment en raisonnement, en mathématique et en code. Par exemple, Chat GPT n’est pas capable de deviner la représentation d’un croquis incomplet et encore moins d’interpréter des mimiques à partir d’une scène de film. Sauf si bien sûr, vous prenez une image arrêtée de la mimique et que vous lui poser la question. Encore ce n’est pas sûr qu’il trouve la bonne réponse. Pour faire simple, voici le résultat des tests comparatifs entre GPT-4 et Gemini dans plusieurs domaines.
L’autre raison pour laquelle je pense que Gemini (ou Google) devrait inquiéter Open AI, est la dispersion des outils chez ces derniers. Il faut utiliser Dall-E pour la génération d’images, Chat GPT pour la génération de texte, Vision API pour la description image et Whisper pour la reconnaissance vocale. En gros, tout ce que Gemini peut faire en un seul et même endroit. C’est comme si Gemini était une forme de supermodèle parmi les modèles, un peu comme WeChat en Chine.
5 idées de business à créer avec Gemini ?
- Créateur de contenus : Ce que je fais même si je n’en vis pas encore. Vous pouvez utiliser Gemini pour écrire des articles, créer des images et des vidéos. Une fois que vous aurez développé votre audience, vous pourrez monétiser votre blog, newsletter ou chaine YouTube.
- Développeur SaaS ou projets Python avec Gemini : Il suffit de saisir un prompt pour obtenir ce que vous voulez. Maitrisez quelques techniques de prompts fondamentaux sont indispensable pour cette tâche. J’ai un article en brouillon à ce sujet, alors restez à l’affut 😏
- Consultant en IA avec Gemini : Oui, le métier existe déjà et il est dominé par les Data Scientists, mais vous pouvez créer une entreprise de conseil en intelligence artificielle, qui utilise Gemini pour aider vos clients à intégrer et à optimiser l’IA dans leurs activités. Gemini peut vous aider à identifier les opportunités, les risques, les besoins, les contraintes, etc. et à proposer des solutions adaptées. Pas besoin d’être Data Scientists, il suffit juste d’être bon en prompt et en Marketing pour la partie commerciale.
- Plateforme ludique et collaboratif : Vous pouvez créer une plateforme de divertissement interactif, qui utilise Gemini pour proposer des expériences ludiques et immersives. Gemini peut vous aider à créer des scénarios, des personnages, des dialogues, des effets sonores, des graphismes, etc. Vous pouvez ainsi offrir des contenus variés, originaux, et personnalisables, qui captivent et engagent votre audience.
- Plateforme d’Assistance Virtuelle Avancée : Lancer une plateforme d’assistance virtuelle qui utilise Gemini pour fournir des réponses et des solutions multimodales (comme des explications vidéo ou audio) aux questions des utilisateurs dans des domaines spécifiques comme le support technique, le conseil juridique ou la planification financière.
Enfin, Gemini sera intégré dans les Android et les Google Pixel pour ceux que ça intéressent. Sinon d’ici là, on se dit à la semaine prochaine pour un nouvel article. Portez-vous bien et n’oubliez pas le plus important : Vous ne serez pas remplacés par une IA, mais par quelqu’un qui maîtrise l’IA🤖