『L'IA aujourd'hui épisode du 2026-01-24』のカバーアート

L'IA aujourd'hui épisode du 2026-01-24

L'IA aujourd'hui épisode du 2026-01-24

無料で聴く

ポッドキャストの詳細を見る

概要

Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : des modèles capables de lire plus de 10 millions de mots, la nouvelle Intelligence Personnelle de Google, la mémoire des IA et le droit d’auteur, la sécurité face aux injections de prompts, la détection de textes générés sur Wikipedia, et l’avenir du code selon le créateur de NodeJS.On commence au MIT CSAIL, où un “modèle récursif” ou RLM a analysé des documents de 6 à 11 millions de jetons sans perdre le fil. Plutôt que d’avaler tout le texte, le RLM garde le document hors du modèle et n’envoie au grand modèle central — typiquement un GPT-5 complet — que les fragments utiles, étape par étape. Résultat: sur BrowseComp-Plus, il récupère correctement 91 % des réponses attendues; sur OOLONG-Pairs, pensé pour le raisonnement multi-étapes, 58 % de bonnes réponses contre 0,04 % pour le modèle de base; et sur CodeQA, il double le score d’un GPT-5 classique, jusqu’à 62 %. Concrètement, il lit d’abord des consignes générales, écrit du code pour localiser les passages clés, analyse chaque extrait, puis assemble. Il peut s’appuyer sur du RAG pour retrouver vite des segments précis. Le code est disponible sur GitHub, et malgré des étapes supplémentaires, les coûts restent comparables aux approches standards.Transition avec Google, qui déploie l’Intelligence Personnelle de Gemini dans le Mode IA de la recherche. Pour l’instant, c’est réservé aux abonnés AI Pro et AI Ultra aux États-Unis, sur comptes personnels, et entièrement optionnel. L’outil peut utiliser Gmail, Google Photos, YouTube et l’historique de recherche afin d’ajuster ses réponses. On peut connecter Gmail et/ou Photos, et débrancher quand on veut. Exemple concret: le Mode IA peut croiser une réservation d’hôtel trouvée dans Gmail avec des souvenirs dans Photos pour proposer un itinéraire adapté, comme un musée interactif pour enfants ou un salon de crème glacée rétro si vos images regorgent de selfies glacés. Google précise ne pas entraîner directement ses modèles sur votre boîte mail ou vos photos; l’entreprise parle de “prompts spécifiques” pour améliorer les réponses. Elle prévient aussi des risques de mauvaises connexions entre des sujets ou de contexte mal saisi; on peut clarifier en suivi et signaler avec le pouce vers le bas. Une extension à d’autres pays et à des utilisateurs non payants est prévue.Passons aux données d’entraînement et au droit d’auteur. Les LLM apprennent sur des corpus massifs, incluant souvent Wikipédia et Books3, une collection d’environ 200 000 livres réunis sans l’accord des auteurs. Certains soutiennent que ces données forment un “savoir universel” et que les modèles ne mémorisent pas les œuvres mot à mot. Or, une étude récente de Stanford et Yale, menée par Ahmed Ahmed et ses collègues, a obtenu de quatre IA grand public déconnectées d’Internet qu’elles récitent des pages entières. Gemini 2.5 Pro a restitué 77 % du texte de “Harry Potter à l’école des sorciers”, pourtant protégé. La méthode: compléter la première phrase, puis poursuivre par petits morceaux. Dans un autre test, Le Monde a pu faire reproduire le premier paragraphe de “Du côté de chez Swann” et des œuvres anglaises du domaine public ; pour les œuvres protégées, les réponses se sont limitées à des résumés. Le débat sur la mémoire des modèles et l’usage d’œuvres protégées se poursuit.Côté sécurité, les LLM restent vulnérables aux injections de prompt, des demandes formulées pour contourner les garde-fous et obtenir des actions indésirables. Ces modèles s’appuient sur des similitudes textuelles sans compréhension des intentions ou des hiérarchies, et privilégient la production d’une réponse plutôt que l’expression d’incertitude. Leur entraînement sur des cas moyens les met en difficulté face aux situations extrêmes. Des pistes émergent: renforcer la compréhension du contexte, intégrer des modèles du monde physique, et doter les systèmes de signaux de confiance et de normes sociales. Des progrès de fond restent nécessaires.Sur Wikipedia, le guide visant à identifier les contenus générés par IA est désormais détourné pour les masquer. Les critères de détection, pensés pour repérer des textes peu profonds ou trop rigides, servent à “ajuster” des algorithmes afin de rendre les productions plus difficiles à distinguer des écrits humains. Cette course aux armements fragilise la fiabilité de plateformes collaboratives et relance le débat sur transparence et authenticité. Certains experts appellent à interdire légalement le fait de cacher l’origine non humaine d’un contenu, tout en reconnaissant la difficulté d’appliquer de telles règles au rythme des évolutions techniques.Enfin, l’avenir du code avec Ryan Dahl, ...
まだレビューはありません