Comprendre l’infrastructure IA

Retour de conférence SXSW

11 min readMar 19, 2024

Projection (non strictement exacte) d’une infrastructure IA proposée par Dall-e

SXSW (South By South West) est LA conférence américaine dédiée à tous les sujets qui concernent les industries culturelles et créatives depuis plus de 35 ans. Elle se déroule à Austin, Texas, sur plus de 15 jours, avec un premier volet consacré spécifiquement à l’éducation (SXSW EDU) où de nombreux musées interviennent très régulièrement (Le Dali Museum et le New Museum étaient à l’honneur cette année). Mais les cinq jours centraux de la quinzaine restent la part la plus active, en proposant une série de conférences autour de sujets technologiques, sociologiques ou relevant de la créativité dont l’UX design (prochain article!).

Cette année, l’intelligence artificielle générative occupait logiquement une place prépondérante, laissant le Web3 et la blockchain dans l’oubli. Si les grands acteurs ne manquaient pas de se prêter à l’interview (cf. Peter Deng d’Open AI), il était souvent plus intéressant de se glisser dans les conférences moins mises en avant, pour capter plus en profondeur les bouleversements en cours. C’est une de ces conférences qui a attiré mon attention, Le futur de l’infrastructure de l’IA. Mon objectif était de mieux comprendre ce qui se cache sous le capot des applications à base d’intelligences artificielles génératives et potentiellement de mieux évaluer les startups que je pourrais avoir à auditionner dans les comités de sélection au 104Factory ou au Collège Numérique.

Les points abordés dans cet article seront :

Que désigne-t-on par « infrastructure IA » ?
Quelles sont les spécificités de cette infrastructure IA ?
Quels sont les besoins de cette infrastructure IA ?
Comment répartir la valeur entre acteurs établis et startups émergentes ?
Quels sont les cas d’usage les plus performants et prometteurs actuellement ?
Mise à jour

Que désigne-t-on par « infrastructure IA » ?

Pour répondre à cette question, quatre VC, respectivement JD Weinstein pour Oracle, Saanya Ojha pour Bain Capital Ventures, Ishani Thakur pour Index Ventures et Eleanor Haglund pour NVIDIA, se sont prêtés au jeu de l’interview.

De gauche à droite, Eleanor Haglund pour NVIDIA, Ishani Thakur pour Index Ventures, Saanya Ojha pour Bain Capital Ventures, JD Weinstein pour Oracle

Mais avant de vous donner leur vision respective, et afin de mieux retranscrire leurs propos, j’ai demandé à ChatGPT de m’en donner une définition. Voici sa réponse :

Les différents intervenants ont repris à peu près la même répartition, pas dans le même ordre, en s’attardant peu sur la partie réseaux et en soulignant le développement exponentiel de la chaine depuis environ deux ans. Voici leur version :

1. La couche de fondation : le développement des applications à base d’intelligence artificielle commence au silicium avec les usines qui fabriquent les puces comme NVIDIA, AMD et Intel, qui essaient de fournir ces CPU et GPU au rythme où le monde les consomme actuellement. C’est à l’entreprise qui aura non seulement la capacité de fabriquer ces puces, mais également d’en optimiser la conception, tant du point de vue de la puissance que de la consommation énergétique. C’est très clairement à ce niveau qu’il y a actuellement un goulet d’étranglement.

2. Les centres de données : une fois produites, ces puces sont mises à disposition dans des centres de données tels que ceux d’Oracle, qui les mettent à disposition des entreprises.

3. Les bibliothèques et les frame works : ils servent à construire les modèles grâce à des briques en open source. C’est à ce niveau que l’on trouve les PyTorch ou TensorFlow.

4. Les MLOps (Machine Learning Operations) : une fois que le modèle de base est créé, il s’agit de le déployer au sein des produits/applications IA, en mettant en place des pipelines d’apprentissage combinés à des outils de surveillance de ce modèle. Ces MLOps ont pour but de faciliter le test, l’observabilité et l’évaluation des modèles, une fois aux mains des consommateurs.

5. Les « agents » de sécurité : la sécurité est un point crucial du développement des applications, car tout se déroule à un rythme sans précédent, ce qui entrave la capacité des entreprises à se mettre rapidement au niveau.

Quelles sont les spécificités de cette infrastructure IA ?

Plusieurs points majeurs ont été soulignés par les VC présents :

Une inversion du mode de développement par rapport à la période de développement des applications pour mobile : les produits/applications IA sont mis dans les mains des consommateurs, grand public comme entreprises, alors que l’infrastructure sous-jacente est très imparfaite (modèles de fondation ou couches plateforme).
Un développement chaotique et sans précédent des acteurs fournissant cette même infrastructure, qualifiée de « messy middle » par Ishani Thakur, ce qui rend les choix de technologies et de partenaires difficiles et incertains pour les entreprises souhaitant investir le sujet.

“There are game-changing announcements every week at each layer of the stack and everyone else must respond immediately and change their direction and rethink their business model […] Now more than ever, it’s about thinking through how every other part of this ever-changing jigsaw level is going to impact your little piece, and how you’re going to be able to capitalize on that.” Saanya Ojha, Bain Capital Ventures

3. La nécessité d’une agilité de la part des différents acteurs et tout particulièrement des startups souhaitant se lancer sur le sujet.

“AI is moving at an unprecedented pace, and now it requires founders and entrepreneurs who can live and thrive in the chaos.” Ishani Thakur, Index Ventures

Quels sont les besoins de cette infrastructure IA ?

Les différents intervenants en identifient trois :

Le besoin en capital pour les modèles de base
Le besoin en données et leur traitement pour le déploiement des modèles
Le besoin en talents rares émanant essentiellement des laboratoires industriels, comme un Deep-Mind, OpenAI, ou Anthropic, pour piloter le tout.

La construction d’un modèle de base est très difficile, gourmand en capacités de calcul, et seulement réalisable si l’on dispose des puces de la qualité proposée par NVIDIA et d’hyper scalers de type Oracle. D’où l’intérêt pour les entreprises développant des modèles de base de s’attacher à des vaches à lait comme Google ou Microsoft qui disposent du capital nécessaire pour faire face. [cf. le choix de Mistral CQFD].

Quant aux données, il s’agit autant de les sourcer que de s’assurer qu’elles sont correctement configurées de manière à pouvoir entraîner un modèle avec. C’est à ce niveau qu’intervient toute une catégorie d’entreprises de prétraitement et de post-traitement des données (au moins 6 à 7 niveaux), qui aident les entreprises à les façonner selon leurs besoins, en tentant, entre autres, de répondre aux problématiques de biais si souvent dénoncées.

On trouve ainsi des entreprises qui interviennent pour construire des modèles spécifiques, comme Mosaic ML ou Together AI, puis des entreprises de type Oracle, Azure ou AWS qui déploient le modèle sur le cloud pour le faire fonctionner à grande échelle et servir des requêtes à haut débit et à faible latence. Se rajoutent à cela des entreprises spécialisées dans le prompt engineering ou encore l’observabilité du modèle, afin de comprendre comment il se comporte au fur et à mesure qu’il progresse dans le cycle de vie d’un client. Et pour complexifier l’offre, dans chaque catégorie, on peut identifier au bas mot une dizaine d'entreprises, ce qui rend la tâche de sélection quasi impossible.

“Enterprises need consolidation. You don’t want to pay for twenty tools just to deploy one LLM ! […] It is really messy and by far the biggest pain point at the moment. […] If we want every company to be able to deploy a ChatGPT-like experience, we need much more attention and a robust infrastructure being built and deployed for enterprises.” Ishani Thakur, Index Ventures

La recommandation des intervenants pour absorber cette chaine complexe est de commencer par se focaliser sur un point de douleur, de le régler, puis de progresser ensuite vers une autre partie de la chaine.

Comment peut se répartir la valeur entre acteurs établis et startups émergentes ?

Là encore, plusieurs points ont été soulignés par les VC présents :

L’impact de l’IA générative est d’abord un changement technologique et non un changement de plateforme. Ainsi, il s’agit d’améliorer les capacités actuelles des plateformes existantes et non de les disrupter, ce qui donne largement l’avantage aux leaders déjà présents s’ils savent prendre le tournant de l’IA. Mais il est en revanche nécessaire pour ces grands leaders d’adopter l’agilité des startups pour remporter la mise, d’où les milliards de dollars injectés sans compter ces derniers mois. L’IA générative devient donc un avantage concurrentiel significatif pour toute entreprise qui l’intègre efficacement. Elle permet d’analyser très rapidement les réactions de ses communautés ou usagers et d’adapter les produits ou services en conséquence, tout aussi rapidement.

“Generative AI as it is today, is not a platform shift, it’s a technological shift. If incumbents are moving fast and adopting it, it helps them capitalize on established distributions in a way that really intentions them with the demographic that they’re going after[…] Generative AI is currently a way for incumbents to consolidate power, when it comes to hardware. Right now, we’re seeing a lot of breadth opening. I think the disruption is going to come when we get to the point of reimagining workflows.” Saanya Ojha, Bain Capital Ventures

2. Il est préférable de chercher à capter de la valeur côté application plutôt que côté infrastructure sous-jacente, secteur mature et très compétitif. L’exemple le plus frappant étant dans le développement des applications qui transforment les flux de travail, comme dans le domaine des industries culturelles et créatives qui vont profondément modifier les chaines de production de jeux vidéo, de cinéma, de la publicité, de la presse, de la musique. Néanmoins, il existe des outsiders ultra performants dans l’infrastructure IA qui sont obsédés par un sujet (l’entraînement des modèles par exemple), qui le traitent depuis ChatGPT1, et qui ont un avantage concurrentiel réel, ayant su capter les talents adéquats et rares pour développer leur solution.

3. Il y aura à terme une captation de valeur possible par des acteurs de l’infrastructure IA qui aideront à la mise en place de briques personnalisées pour les entreprises.

“A large majority of the enterprises in the world aren’t going to want to build with the Lego blocks themselves. They’re going to want to have a fairly built product and deliver it to them.” Saanya Ojha, Bain Capital Ventures

Quels sont les points de douleur identifiés dans le développement de l’infrastructure IA ?

Alors que les gains de productivité apportés par l’IA n’ont pas encore été prouvés (même s’ils sont largement anticipés), de nombreuses améliorations sont encore à effectuer pour répondre aux besoins de développement.

La quantité d’énergie consommée est hors normes. Les réseaux actuels de transmission sont insuffisants, tout comme les capacités de refroidissement.

“ The sheer computes that is required to train an LLM is just staggering. […] We need to be able to build our own models. We need to be able to do the compute that is necessary to advance and to innovate.” Eleanor Haglund, NVIDIA

2. L’accès aux GPU, la sécurisation de cet accès dans le temps et la montée en puissance de leur quantité rendent le coût du calcul pour l’entraînement des modèles LLM extrêmement prohibitif pour les fondateurs.

“If you haven’t raised like a two hundred-million-dollar initial seed, how are you ever going to be taken seriously by these hyperscalers where GPUs are flying off the shelves and access is out for like six months to a yea, to two years in some cases? […] And it’s not just the chip side, it’s also the data center side.” Ishani Thakur, Index Ventures

3. La souveraineté des solutions est fortement souhaitée et encouragée par les différents États.

“While there will be global consumer applications that come up, there’s also going to be a very fierce focus nationally on maintaining that safety, security, integrity of each nation. And then there are going to be cross-borders consumer apps that everyone uses like Tik Tok, as you can’t change consumer behavior, but countries will be beginning to be super aggressive about curating and protecting that talent domestically.” Ishani Thakur, Index Ventures

4. OpenAI Killed My Startup : il y a beaucoup d'appelés, mais peu d'élus.

Seule solution envisagée par les VC pour contrer les géants : être sur une niche où la valeur ajoutée est tellement spécifique et démontrée que la solution généraliste ne pourra pas être satisfaisante pour le consommateur final qui pivotera.

“Every couple of weeks, OpenAI announces that they are getting into a new modality that is ten-X cheaper than other companies are building directly for that space. And then there’s a wave of panic that ensues on social media. People printed out shirts that said, “OpenAI killed my startup” as a joke. So we have this sense of defusing between optimism and panic.” Ishani Thakur, Index Ventures

Quels sont les cas d’usage les plus performants et prometteurs actuellement ?

D’après les VC présents, les domaines les plus prometteurs sont ceux qui ont accumulé certaines composantes propres aux développements des IA génératives : des images et des publications (texte) disponibles en grande quantité couplées à des problèmes mathématiques simples. C’est ainsi que l’on trouve :

La médecine personnalisée avec une augmentation de l’efficacité opérationnelle et l’accélération de la découverte de médicaments, l’amélioration de la santé mentale avec la création de compagnons de vie, même s’il peut y avoir un versant négatif à ceux-ci.

“The interesting aspect of AI, that makes it simultaneously really powerful and potentially really harmful, is something that investors need to continue to keep in mind as they pick and choose investments, all the more that it’s an area that we’ve significantly underinvested in. When we’re looking at a company, it is paramount for us to understand what the potential negative externalities are, to make sure that these models don’t get into the wrong hands, that they say the proper things at the right time, that they don’t go off the rails and encourage people towards certain types of behavior.” Ishani Thakur, Index Ventures

2. La découverte de nouveaux matériaux (comme par hasard permettant d’améliorer la production des puces ou la captation énergétique par les panneaux solaires !) qui vont impacter des secteurs industriels qui n’avaient pas évolué depuis longtemps.

3. L’ingénierie et l’ingénierie logicielle en particulier, en raison de la facilité à coder, pas seulement au niveau individuel, mais au niveau de l’impact organisationnel d’une entreprise avec des gains de productivité.

4. Les installations industrielles grâce aux jumeaux numériques qui vont permettre d’optimiser les processus industriels et les chaines d’approvisionnement, en facilitant les tests grâce à l’apprentissage par renforcement (RL). Le développement de l’edge computing couplé à des capteurs ou robots qui collectent et agrègent de la donnée en périphérie constitue les briques complémentaires à la création de grands modèles de base.

5. L’éducation et les secteurs impliquants de la créativité

“I just advise everyone raising that next generation, don’t teach to stay away from the tools, obviously, you’re here to be an artist, but teach how to engage and utilize them !” J.D. Weinstein, Oracle

Mise à jour

En écho au « Messy middle » d’Ishina Thakur, je mentionnerai seulement les toutes dernières grandes annonces faites depuis le SXSW :

La newsletter du site Deeplearning.ai d’Andrew Ng rappelle encore cette semaine : The gap between AI research papers and applications is shrinking. How can teams bridge this gap efficiently?

NVIDIA vient juste d’annoncer la mise sur le marché de ses nouvelles puces Black Well, qui promettent une augmentation des performances jusqu’à 30 fois supérieure pour les charges de travail d’inférence LLM par rapport aux itérations précédentes.

Elon Musk a mis en accès public le modèle de base et l’architecture de Grok-1.

Partenariat d’Apple et Google sur Gemini .

Enfin, en conseil final pour intégrer efficacement les intelligences génératives, je recommande de lire les préconisations d’un article du HBR sur “La conception par le dialogue”, qui nécessite un transfert des capacités humaines à la machine en la considérant comme un collègue, dans un processus symbiotique responsable, qui ne pourra aller qu’en s’améliorant de manière organique au fur et à mesure des usages.

Nota Bene : je tiens à rappeler ici que si je me suis particulièrement appliquée à rendre fidèlement les propos entendus, je n’ai pour autant pas de compétences dans le développement de LLM. Je m’emploie seulement à essayer de comprendre au mieux la révolution en cours. Si la retranscription de cette conférence comportait une erreur de compréhension, n’hésitez pas à me la signaler pour que je la corrige. Ce sera avec grand plaisir !