À quelle distance sommes-nous de l'intelligence artificielle générale ?

Aujourd'hui, l'intelligence artificielle générale (IAG) est devenue un mot-clé central dans les communautés scientifiques et industrielles. Il y a quelques années à peine, nombreux étaient ceux qui pensaient que l'IAG prendrait au moins 10 à 50 ans, voire pensaient que c'était impossible. Aujourd'hui, de tels pessimismes sont rares. Cependant, comparé à l'enthousiasme du public pour cette vague de changement technologique, de nombreux chercheurs et leaders de l'industrie dans le domaine de l'IA estiment qu'il reste encore un long chemin à parcourir pour que l'IA actuelle se transforme en IAG.

Selon Qi Yuan, professeur émérite à l'université Fudan, directeur de l'Institut de recherche sur l'intelligence artificielle de Shanghai (SAIRI) et fondateur de la société Trustworthy Large Model « Infinite Lightyear », « l'une des plus grandes manifestations de l'IA générale est la découverte de lois inconnues dans le monde complexe. En termes simples, il devrait s'agir d'un « Einstein de l'IA ». Cela nous oblige à créer de grands modèles fiables de type « boîte grise » qui combinent des prédictions probabilistes de type « boîte noire » avec un raisonnement logique de type « boîte blanche » ; et à promouvoir la recherche fondamentale, la culture des talents et les applications pratiques grâce à l'intégration profonde de la technologie et de l'industrie, construisant ainsi un écosystème innovant pour l'intelligence scientifique. »

Français Lors de la récente Conférence mondiale sur l'intelligence artificielle 2024 (WAIC) et de la Réunion de haut niveau sur la gouvernance mondiale de l'intelligence artificielle, SAIRI a organisé avec succès un forum thématique intitulé « Intelligence artificielle : changement de paradigme dans la recherche scientifique et le développement industriel ». Il s'agissait de la première apparition de cette nouvelle institution de recherche au WAIC. SAIRI peut être considérée comme un modèle pour l'exploration par Shanghai d'un écosystème d'intelligence scientifique « N » axé sur l'innovation. Ce modèle implique SAIRI comme plaque tournante centrale responsable de la planification stratégique globale, de l'intégration des ressources et de la recherche et de l'innovation technologiques clés, en collaboration avec une autre université Fudan « 1 » et plusieurs universités « N », instituts de recherche, entreprises technologiques, équipes d'innovation et institutions d'investissement, pour promouvoir conjointement la recherche scientifique, la culture des talents, le transfert de technologie et l'innovation et la modernisation industrielles.

La norme pour l’AGI devrait être de créer un « Einstein de l’IA ».

D'un point de vue technique, des modèles de plus en plus grands et dotés de plus de paramètres conduiront-ils à l'IA générale ? Jusqu'à présent, ni du point de vue de la technologie de l'IA elle-même ni du point de vue de la consommation d'énergie, les grands modèles basés sur l'architecture autorégressive Transformer ne suffisent à conduire à l'IA générale. L'IA doit développer de nouveaux grands modèles dignes de confiance, de type « boîte grise ». Cette conclusion est basée sur les années d'expérience pratique de Qi Yuan, tant dans le milieu universitaire que dans l'industrie.

Il y a dix ans, avec l'idée de « rendre l'IA utile », Qi Yuan a dirigé une équipe pour augmenter pour la première fois le système d'apprentissage automatique de base d'Alibaba de 2 millions de paramètres à plusieurs centaines de millions de paramètres, ce qui a permis d'améliorer considérablement les performances commerciales et de démontrer la transformation intégrée des données, des algorithmes et des capacités d'ingénierie. C'est précisément la manifestation de la loi de mise à l'échelle, qui fait l'objet de nombreuses discussions au sein de la communauté de l'IA aujourd'hui.

Qi Yuan se souvient que l'équipe a effectivement goûté à la douceur de la loi d'échelle : après avoir multiplié par cent les paramètres du modèle, l'effet global s'est considérablement amélioré. « Mais maintenant, je me demande : pourquoi n'avons-nous pas créé des modèles d'IA encore plus grands à l'époque ? Pourquoi avons-nous arrêté alors que nous aurions pu aller plus loin ? », a-t-il déclaré. « Même des milliards de paramètres dans de grands modèles ne suffisent pas ; nous devons nous orienter vers des centaines de milliards, des trillions, voire plus. À cette époque, le monde universitaire et l'industrie manquaient de puissance de calcul, et même dans le secteur industriel, atteindre une puissance de calcul aussi élevée nécessitait des coûts très élevés, sans parler du monde universitaire. »

Selon Qi Yuan, la raison pour laquelle l’IA générale doit être conçue comme un « Einstein de l’IA » est qu’elle doit être à la fois efficace et intelligente. Tout d’abord, Einstein a découvert les « nuages de la physique du début du XXe siècle » grâce à quelques données clés. L’IA générale doit également être capable de découvrir et de comprendre les lois inconnues du monde complexe. Cependant, les grands modèles actuels ne peuvent pas y parvenir. Par exemple, bien que le grand modèle visuel SORA simule le monde physique à un degré sans précédent, il construit toujours le monde tridimensionnel sur la base de la simulation du monde bidimensionnel et est loin de comprendre complètement le monde physique. Deuxièmement, il y a le problème de la consommation d’énergie. Le cerveau humain fonctionne à environ 15 watts, alors qu’un seul GPU peut atteindre plusieurs centaines de watts, sans parler des grappes de milliers ou de dizaines de milliers de GPU nécessaires pour entraîner les grands modèles généraux. À l’heure actuelle, si nous continuons à utiliser les architectures existantes, la consommation d’énergie requise serait astronomique, ce qui rend difficile d’atteindre l’objectif d’efficacité et d’intelligence.

L'« Einstein de l'IA » est également un objectif clé de l'IA pour la science (AI4S). L'intelligence scientifique a joué un rôle important dans l'accélération de la résolution d'équations physiques connues, mais elle doit également combiner des règles connues avec des données pour réduire la forte dépendance aux données et à la puissance de calcul, améliorer la précision du raisonnement et des prévisions, et proposer de nouvelles théories scientifiques basées sur des règles de connaissance ajustées aux données. Cela correspond à l'objectif à long terme de Qi Yuan à l'Université Fudan et à SAIRI : utiliser l'intelligence artificielle pour comprendre le monde complexe et découvrir des lois inconnues.

Les grands modèles de domaine vertical dignes de confiance de la « boîte grise » renforcent diverses industries.

Quels problèmes doivent être résolus pour que les grands modèles deviennent de nouvelles forces productives à partir des outils d'IA ? Selon Qi Yuan, le secteur des grands modèles est confronté à de nombreux défis communs, ce qui rend difficile l'alignement de la technologie, des produits et des besoins du marché.

« Le plus gros problème avec la mise en œuvre de grands modèles aujourd'hui est qu'ils semblent utiles à première vue, mais échouent dans la pratique », explique Qi Yuan. Les grands modèles de langage actuels prédisent principalement le mot suivant en fonction de plusieurs mots précédents, mais cette approche n'est pas adaptée au raisonnement rigoureux en plusieurs étapes. « Le langage est un outil de communication, pas de réflexion. » Récemment, un article publié par des institutions, dont le MIT, dans la revue universitaire de premier planNatureIl a souligné que la langue est un outil puissant de transmission des connaissances culturelles et qu'elle a peut-être évolué en même temps que nos capacités de réflexion et de raisonnement, reflétant ainsi la complexité de la cognition humaine. Cependant, la langue ne génère pas la complexité du raisonnement.

Pour remédier au manque de fiabilité, à la faible interprétabilité et aux coûts élevés des grands modèles existants, une solution efficace consiste à combiner le raisonnement probabiliste des réseaux neuronaux avec le calcul symbolique logique, semblable à la combinaison de la pensée rapide basée sur l'instinct et de la pensée lente basée sur le raisonnement logique décrite dans le livre du lauréat du prix Nobel Daniel Kahneman.Penser, vite et lentement« On peut appeler cela un grand modèle de type « boîte grise » », estime Qi Yuan. La combinaison du calcul symbolique et des réseaux neuronaux dans un grand modèle fiable de type « boîte grise » peut réduire les « hallucinations » de l'IA et résoudre les problèmes professionnels dans les domaines verticaux, donnant ainsi du pouvoir à diverses industries et libérant la productivité des grands modèles.

Qu'est-ce qu'un grand modèle digne de confiance de type « boîte grise » ? « À l'origine, l'apprentissage profond était considéré comme une « boîte noire ». Aujourd'hui, en combinant le raisonnement logique et l'apprentissage profond, nous avons une « boîte grise » », explique Qi Yuan. « La « boîte noire » d'origine laissait les gens inconscients du processus par lequel les données produisaient des résultats, alors que le grand modèle de la « boîte grise », aidé par le raisonnement logique, permet aux gens de « connaître à la fois les résultats et les raisons qui les sous-tendent ». D'un autre point de vue, les grands modèles de la « boîte grise » peuvent utiliser l'apprentissage profond pour réduire les règles qui ne sont pas conformes aux données observées dans le monde réel. »

Selon Qi Yuan, pour que l’IA joue un rôle essentiel dans des scénarios complexes dans divers secteurs – que ce soit dans la finance et l’assurance, l’énergie éolienne ou le transport maritime et pharmaceutique –, il est nécessaire de combiner des connaissances systématiques du secteur, une logique de raisonnement et des mécanismes de prise de décision avec de grands modèles. Le grand modèle « boîte grise » n’est pas seulement la direction de l’IAG, mais aussi un outil puissant pour pénétrer en profondeur les domaines verticaux et résoudre véritablement les problèmes du monde réel. « D’un point de vue industriel, cette compréhension est très intuitive », illustre Qi Yuan. Les médecins n’ont pas besoin de devenir avocats, ni les avocats de devenir des experts en investissement. Chaque rôle professionnel doit se concentrer sur son domaine et améliorer ses outils de productivité. D’un point de vue technique, si un grand modèle surapprend des tâches non pertinentes, il peut connaître un « oubli catastrophique ». Par exemple, si Li Bai devait passer tout son temps à faire de la comptabilité au lieu d’écrire de la poésie, son inspiration poétique pourrait progressivement s’estomper. « Nous avons déjà observé que lors de la formation de grands modèles pour des domaines verticaux, si le modèle apprend trop de fonctions sans rapport, cela peut interférer avec ses capacités d'origine. Par conséquent, le développement de grands modèles efficaces de type « boîte grise » pour les domaines verticaux est d'une grande valeur dans la mise en œuvre industrielle. »

« Je pense que les grands modèles de type « boîte grise » joueront un rôle de plus en plus important sur la voie de l’IA générale et dans la mise en œuvre d’industries à domaine vertical. D’un point de vue méthodologique bayésien, ils combinent nos connaissances connues avec des informations cachées dans les données pour découvrir de nouvelles lois et résoudre des problèmes scientifiques et industriels », déclare Qi Yuan. À l’avenir, « l’IA Einstein » pourrait également être « l’IA Buffett ».

Connecter la chaîne d'innovation et construire un écosystème d'innovation en intelligence scientifique.

Lors de la Conférence mondiale sur l'intelligence artificielle de cette année, l'équipe de Qi Yuan a lancé des modèles financiers et médicaux fiables avec des centaines de milliards de paramètres. Ces grands modèles de domaine vertical ont surpassé le modèle à mille milliards de paramètres GPT-4 Turbo d'OpenAI lors des tests, attirant une fois de plus l'attention de l'industrie sur la mise en œuvre de grands modèles.

« Les avancées technologiques actuelles en matière d’IA sont motivées non seulement par des innovations dans les principes sous-jacents, mais aussi par des approches axées sur les produits qui répondent aux besoins de la société. La société a besoin non seulement de la publication d’articles théoriques ou d’innovations en matière de modèles commerciaux, mais aussi de l’intégration profonde d’innovations technologiques et industrielles basées sur des principes fondamentaux. Une fois ces deux éléments combinés, nous pouvons atteindre des eaux plus bleues », explique Qi Yuan.

Les universités et l’industrie ont des missions différentes. Les universités explorent de nouveaux phénomènes, tandis que l’industrie résout principalement des problèmes pratiques. Un problème commun à tous les pays est que les institutions de recherche doivent résoudre de nombreux problèmes d’innovation technologique, mais si elles négligent la productisation et les besoins sociétaux, elles sont confrontées à deux lacunes : un manque de pression concurrentielle réelle, qui freine le perfectionnement des technologies innovantes, et l’absence de retour d’information efficace du marché pour guider la recherche technologique.

À cette fin, Qi Yuan cherche depuis longtemps à relier la chaîne d'innovation « universités-instituts de recherche-start-ups » pour créer un bon écosystème d'innovation qui tienne compte à la fois de la technologie sous-jacente et des besoins du marché. L'orientation du produit doit être guidée par la demande et les scénarios du marché, en renforçant la compétitivité du produit grâce à l'innovation fondamentale.

Fondée en 2023, SAIRI s'engage à innover en matière d'IA pour la science, en combinant les connaissances et les données. Récemment, SAIRI a lancé la série Fuxi de grands modèles météorologiques 2.0 pour des applications dans les domaines de la nouvelle énergie, de l'assurance, de la gestion urbaine, et a lancé la Smart Meteorological Innovation Ecosystem Alliance. Cette alliance vise à promouvoir progressivement l'application industrielle des grands modèles météorologiques de la série Fuxi 2.0. Les grands modèles dignes de confiance de la « boîte grise » progressent également dans la mise en œuvre des produits, avec Infinite Lightyear, la société de grands modèles dignes de confiance fondée par Qi Yuan, déjà établie.

Afin de promouvoir davantage l'écosystème d'innovation en intelligence scientifique, le deuxième Concours mondial d'intelligence scientifique, organisé conjointement par SAIRI et l'Université Fudan, et guidé par plusieurs départements, dont le Comité des sciences et technologies de Shanghai, la Commission du développement et de la réforme de Shanghai, le Comité économique et des technologies de l'information de Shanghai et le Comité de l'éducation de Shanghai, a été lancé. Le concours offre des millions de dollars en prix pour recruter des participants du monde entier afin d'explorer les domaines de pointe de l'intelligence scientifique. En outre, SAIRI a développé une plateforme de données scientifiques couvrant les données scientifiques multimodales, qui prend en charge l'ensemble de la chaîne depuis la collecte et le traitement des données jusqu'à la gestion et la modélisation, garantissant un traitement efficace des données, la fiabilité et une communication sécurisée. Sur la base de cette plateforme, SAIRI et ses partenaires ont construit plusieurs ensembles de données scientifiques de haute qualité pour les sciences de la vie, les sciences des matériaux, les sciences de l'atmosphère et d'autres domaines, fournissant des ressources précieuses pour la recherche en intelligence scientifique. En outre, SAIRI a lancé l'Alliance mondiale pour l'écosystème des données scientifiques, dont les membres initiaux incluent China Telecom Corporation, COSCO Shipping Insurance Captive, Shanghai Lingang New Area Cross-Border Data Technology et plus de dix autres entités. L'alliance vise à construire une plate-forme ouverte et de partage de ressources de Big Data de recherche mondiale et multi-domaines grâce à la collaboration entre les gouvernements, les entreprises, les universités et les instituts de recherche.

« Que ce soit dans la recherche scientifique ou dans l'industrie, nous ne devons pas innover pour le simple plaisir d'innover. Nous espérons créer de futures AGI et des applications qui résolvent des problèmes du monde réel », explique Qi Yuan.

À quelle distance sommes-nous de l’intelligence artificielle générale ?