『L'IA aujourd'hui épisode du 2025-11-12』のカバーアート

L'IA aujourd'hui épisode du 2025-11-12

L'IA aujourd'hui épisode du 2025-11-12

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : l’IA au bord des données avec le “lakeside AI”, un bug de ChatGPT qui a fuité jusque dans Google Search Console, Bluesky et un débat neurosymbolique, Meta qui dote sa pub d’un modèle géant, et les pertes record d’OpenAI.D’abord, un rappel qui bouscule les idées reçues : la réussite de l’IA dépend moins de la quantité de données que de leur qualité et de leur gouvernance. Beaucoup d’entreprises fonctionnent encore avec des architectures héritées — entrepôts et lacs de données séparés — difficiles à faire collaborer pour des usages d’IA qui exigent mises à jour rapides, traçabilité et contrôle d’accès. Le “lakehouse” a tenté d’unifier ces mondes en mêlant données brutes et structurées, mais une migration intégrale est souvent hors de portée, surtout en banque-assurance. D’où une approche dite “lakeside AI” : apporter les bénéfices d’un lakehouse au plus près des systèmes existants, sans tout déplacer. À la clé : délais réduits, pas de duplication inutile, et maîtrise des données sensibles. L’objectif est opérationnel et concret : fournir aux modèles un flux fiable et contextualisé, pour des prédictions utiles, sans reconstruire toute la tuyauterie.Changement de décor avec un incident de confidentialité autour de ChatGPT. Des consultants ont repéré dans Google Search Console environ 200 entrées qui ressemblaient fortement à des prompts d’utilisateurs, parfois très personnels, précédés d’une URL de ChatGPT. Après analyse, ils pointent un bug dans un champ de saisie de ChatGPT : chaque prompt déclenchait une recherche web, en y ajoutant une URL ChatGPT au début. Signe que Google aurait été sollicité non via API privée mais en clair, ces requêtes apparaissant dans la Search Console de sites jugés pertinents par l’algorithme. OpenAI n’a pas confirmé ce déroulé, mais indique avoir corrigé une “erreur” temporaire qui a touché “un petit nombre de requêtes de recherche” et affecté leur transmission. L’hypothèse avancée : au lieu d’extraire quelques termes, la couche de conversion envoyait le prompt complet. En pratique, ces prompts n’étaient donc pas privés : ils pouvaient se retrouver chez Google, dans les consoles des éditeurs concernés, voire chez l’entité pilotant ces recherches. Ce n’est pas la première alerte : l’été dernier, une fonction mal comprise avait rendu publics des échanges, avec des noms dans certains cas.Plus léger, mais révélateur du web actuel : Bluesky rappelle que JavaScript est indispensable pour son application, fortement interactive. Ici, une simple page HTML ne suffit pas, les interactions temps réel et l’expérience exigent ce langage côté navigateur. Par ailleurs, lors d’un séminaire Turing sur l’IA neurosymbolique, Moshe Vardi a confronté deux approches : axée données, qui apprend à partir de grands volumes, et axée modèles, guidée par des structures théoriques. Il a illustré le raisonnement discret via le “comptage de modèles”, une technique qui évalue le nombre de solutions satisfaisant des contraintes, utile pour quantifier la difficulté de problèmes. Une vidéo doit être mise en ligne prochainement. De quoi nourrir les débats sur la complémentarité entre statistiques et logique.Côté industrie publicitaire, Meta déploie GEM, un “Generative Ads Model” inspiré des grands modèles de langage et entraîné sur des milliers de GPU. Présenté comme le plus grand modèle de fondation pour la recommandation publicitaire, il repose sur trois leviers. Un, la mise à l’échelle du modèle avec une architecture qui gagne en performance à mesure que croissent données et calcul. Deux, des techniques post‑entraînement de transfert de connaissances pour améliorer toute la pile publicitaire, avec distillation, apprentissage de représentations et partage de paramètres. Trois, une infrastructure d’entraînement optimisée : parallélisme multidimensionnel, noyaux GPU sur mesure, et optimisations mémoire pour réduire les coûts de communication entre milliers de GPU. Résultat annoncé depuis le lancement : +5 % de conversions sur Instagram et +3 % sur le fil Facebook. GEM apprend sur des données issues des publicités et des interactions organiques, applique des mécanismes d’attention spécifiques selon les groupes de caractéristiques, et modélise les séquences de comportements pour capter des motifs inter‑caractéristiques, avec une meilleure lecture du parcours d’achat.Terminons par la santé financière d’OpenAI en 2025 : la société aurait enregistré une perte de 12 milliards de dollars au troisième trimestre. Les coûts d’inférence par requête pèsent lourd, d’autant que la majorité des usages de ChatGPT restent gratuits. S’ajoutent des engagements avec des ...
まだレビューはありません