エピソード

  • Exzellenz in KI-Projekten
    2026/03/02
    Die Episode argumentiert, dass im KI-Zeitalter „gut“ als Qualitätsmaßstab häufig nicht mehr ausreicht, weil exzellente Entwickler und Partner nicht nur schneller liefern, sondern Probleme grundsätzlich anders schneiden: Sie starten nicht bei der erstbesten KI-Idee, sondern analysieren End-to-End-Prozesse, Datenflüsse, Systemlandschaften, Verantwortlichkeiten und Reibungsverluste. Daraus ergibt sich oft, dass die größten Hebel nicht in einem zusätzlichen KI-Feature liegen, sondern in der Modernisierung der Basis: fehlende CRM- und PM-Strukturen, schwache Dashboards oder manuelle Auslastungsplanung verhindern Wirkung und Tempo. Exzellenz bedeutet dann, zuerst die operative Plattform zu stabilisieren und zu integrieren, statt „KI obendrauf“ zu setzen, und dadurch Lösungen zu bauen, die Planung, Steuerung, Transparenz und Betriebssicherheit zusammenführen. Der Text überträgt das Prinzip der starken Leistungsstreuung (Top-Performer erzeugen überproportionalen Output) auf KI-Projekte und betont, dass sich dieser Effekt durch KI verstärkt, weil Architektur, Datenstrategie, Tooling und Automatisierung sich gegenseitig multiplizieren und exzellente Teams Synergien erzeugen, die über reine Addition hinausgehen. Für Unternehmer folgt daraus eine klare Konsequenz im Recruiting und in der Dienstleisterauswahl: Gespräche, Schlagworte und klassische Referenzen reichen als Signal nicht, entscheidend ist die Lieferfähigkeit unter realen Bedingungen. Als robustester Filter werden praxisnahe Testaufgaben beschrieben, die Scoping, Priorisierung, Debugging, begründete Entscheidungen, Umsetzungstempo mit KI-Werkzeugen sowie stabile Betriebsreife abprüfen. Gleichzeitig wird ein Realitätscheck impliziert: Produktivitätsgewinne durch KI sind kontextabhängig; besonders bei agentischen Workflows, großen Bestands-Systemen und hohen Qualitätsanforderungen entscheidet nicht „Tool-Nutzung“, sondern die Fähigkeit, Integration, Datenqualität, Sicherheit, Wartbarkeit, Change-Management und Übergabe in den Betrieb zu beherrschen. Der strategische Schlusspunkt: Weil sich KI schnell verändert und Insellösungen rasch altern, ist Exzellenz auch die Fähigkeit, modular und mit einem Horizont von zwei bis drei Jahren zu bauen, um ohne ständige Neustarts auf neue Tool-Wellen reagieren zu können. Quellen: Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Consulting, Data Analyst, and Management Tasks (arXiv) https://arxiv.org/abs/2512.21316 Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity (METR) https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/ We are Changing our Developer Productivity Experiment Design (METR) https://metr.org/blog/2026-02-24-uplift-update/ AI Risk Management Framework (NIST) https://www.nist.gov/itl/ai-risk-management-framework How We Measured AI Tooling Productivity Gain Across 250+ Engineers at Apollo.io (Apollo.io) https://www.apollo.io/tech-blog/how-we-measured-ai-tooling-productivity-gain-across-250-engineers-at-apolloio
    続きを読む 一部表示
    8 分
  • Claude Code und die Agentenrevolution
    2026/02/28
    Der Podcast beschreibt einen zweistufigen Markt- und Technologiewechsel, ausgelöst durch agentische Coding-Fähigkeiten rund um Anthropic “Claude Code”. In Phase 1 (Ende Januar) kippt an der Wall Street die Erwartung, dass teure Spezialsoftware-Lizenzen an Preissetzungsmacht verlieren, weil KI-gestützte Workflows ähnliche Ergebnisse mit Open-Source-Stacks liefern können. In Phase 2 (rund drei Wochen später) springt der Fokus auf Cybersecurity: Wenn KI nicht nur Code schreibt, sondern Schwachstellen großflächig erkennt, priorisiert und Patch-Vorschläge erzeugt, geraten Geschäftsmodelle unter Druck, die stark an knappe Expertenzeit gekoppelt sind. Zentral ist die Behauptung, dass “Claude Code Security” ganze Codebasen autonom analysieren kann und in internen Tests mehr als 500 zuvor unbekannte, hochschwere Schwachstellen in verbreiteten Open-Source-Projekten gefunden haben soll; diese Leistungsfähigkeit war ein unmittelbarer Auslöser für die Nervosität im Security-Sektor. Als Messlatte für den Fortschritt dient die “autonome Arbeitszeit bis zum Scheitern”. Hier wird METR (Model Evaluation and Threat Research) mit dem Time-Horizon-Ansatz eingeordnet, der modelliert, wie lange Aufgaben dauern dürfen (gemessen in menschlicher Bearbeitungszeit), damit ein Agent sie mit einer Zielwahrscheinlichkeit schafft. Der Podcast leitet daraus eine Dynamik ab: Wenn sich dieser Zeithorizont weiter in Richtung “ganzer Arbeitstag” verschiebt, ändert sich die Rolle des Menschen von der Ausführung hin zu Architektur, Review und Qualitätskontrolle. Ergänzend wird betont, dass Capability-Sprünge oft korrelieren: Fortschritte in Mathematik und Reasoning gehen häufig mit besseren Coding-Leistungen einher, wodurch als nächste Automatisierungsfelder Legal, Finance und Datenanalyse plausibel werden. Operativ rückt eine neue Arbeitsform in den Mittelpunkt: Agenten, Subagents und Agent Teams. Das Kernproblem bleibt Kontext-Management, weil Leistung und Zuverlässigkeit mit vollem Kontextfenster abnehmen und sehr große Fenster teuer werden. Subagents lösen das teilweise durch parallele, kurzlebige Spezialkontexte, während persistente Agent Teams mehr Flexibilität liefern, aber Rechen- und Kostenaufwand multiplizieren. Der Podcast nutzt dazu das Muster “Planer/Produzent/Kritiker” als Blaupause: Iteration zwischen Erzeugung und Kritik steigert die Qualität sichtbar, ist aber nur dann wirtschaftlich, wenn Modelle gezielt nach Kosten und Rolle gewählt werden. Für Unternehmen werden daraus drei Folgen abgeleitet: UI wird weniger wichtig als API- und Terminal-Zugänglichkeit, Integrationsfähigkeit der Infrastruktur wird zum Wettbewerbsvorteil, und Tätigkeiten, die heute über SOPs gelehrt werden, lassen sich schrittweise in agentische Prozesse übersetzen. Im Ausblick geht es über reine Entwickler-Tools hinaus zu Agenten, die innerhalb klarer Regeln handeln und Transaktionen auslösen können, sowie zu mehr Bedeutung von Open-Source-Modellen wegen Kosten und Hosting/Compliance. Das Zielbild ist ein “Hive Mind” aus koordinierten Agententeams, in dem Spezifikation und Kontextsteuerung die neue Engpassressource sind. Quellen: Measuring AI Ability to Complete Long Tasks (arXiv) https://arxiv.org/abs/2503.14499 Details about METR’s preliminary evaluation of Claude 3.7 (METR) https://evaluations.metr.org/claude-3-7-report/ METR: Measuring AI Ability to Complete Long Tasks (METR) https://metr.org/index.html CrowdStrike Dived. Why a New AI Tool Crushed Cybersecurity Stocks. (Barron’s) https://www.barrons.com/articles/crowdstrike-stock-price-cybersecurity-zscaler-3efb4a93 Claude Opus 4.6 Finds 500+ High-Severity Flaws Across Major Open-Source Libraries (The Hacker News) https://thehackernews.com/2026/02/claude-opus-46-finds-500-high-severity.html Anthropic’s Claude Code Security is available now after finding 500+ vulnerabilities (VentureBeat) https://venturebeat.com/security/anthropic-claude-code-security-reasoning-vulnerability-hunting/
    続きを読む 一部表示
    8 分
  • Dein Product Operating Model ist eine Zeitkapsel
    2026/02/24
    Unternehmen, die in den letzten Jahren konsequent auf evidenzbasiertes Arbeiten gesetzt haben, können jetzt KI als Beschleuniger auf ein funktionierendes Fundament setzen. Prototypen, die früher Wochen brauchten, entstehen in Stunden. Hypothesen lassen sich in Tagen validieren. Die Kosten, falsch zu liegen, sind dramatisch gesunken – aber nur, wenn man ein System hat, das darauf ausgelegt ist, schnell zu lernen. In dieser Folge geht es um die zwei Wege, die etablierte Unternehmen gerade einschlagen: KI als Kosmetik auf eine Feature-Factory, oder den echten Umbau von innen durch crossfunktionale Builder-Teams. Und um die eine Frage, die den Unterschied zwischen Fundament und Ausrede markiert.
    続きを読む 一部表示
    8 分
  • Die Ära der Vertikalen KI
    2026/02/23
    2026 verschiebt sich der Wettbewerb in der KI-Welt weg vom bloßen Einsatz allgemeiner Tools hin zur Fähigkeit, vertikale KI zu verstehen und umzusetzen. Gemeint sind spezialisierte Systeme, die ein klar abgegrenztes Problem in einer konkreten Branche lösen, statt als generalistische „horizontale“ Modelle viele Aufgaben nur oberflächlich abzudecken. Der Kernpunkt ist: Relevante KI-Use-Cases wurden in vielen Branchen bereits mehrfach realisiert; Differenzierung entsteht weniger durch „noch ein weiteres KI-Projekt“, sondern durch saubere Prozessdefinition, passende Daten, Integration in bestehende Systeme und messbaren Business-Impact. Gleichzeitig steigt der Druck, weil Wettbewerber in nahezu allen Märkten aufrüsten und KI vom Orientierungsthema zur operativen Pflicht wird. Der Inhalt ordnet die Marktdynamik über Nutzungs- und Stimmungsdaten ein: Generative KI ist in Deutschland breit angekommen, besonders stark bei Jüngeren, zugleich wächst Skepsis gegenüber Risiken und möglichen Jobfolgen. Daraus folgt eine kommunikative und organisatorische Herausforderung für alle, die KI-Lösungen verkaufen oder einführen: Akzeptanz, Governance und verantwortlicher Einsatz werden zum Erfolgsfaktor neben Technik und ROI. Strategisch wird betont, dass Unternehmen 2026 vor allem dort gewinnen, wo KI in Fachdomänen konkret implementiert wird, etwa in Legal, Healthcare oder Financial Services, und wo Agenten-Ansätze als nächste Integrationsstufe in Enterprise-Software an Bedeutung gewinnen. Als pragmatisches Umsetzungsmodell dient „Learn the Thing, Build the Thing, Sell the Thing“: Zuerst Zielgruppe, Pain Points und Branchenwissen systematisch erarbeiten, dann aus dem Wissen eine klar zugeschnittene Lösung bauen und schließlich in Output und Vermarktung überführen. Für die Lernphase werden Recherche- und Texttools genannt (NotebookLM, Perplexity, Claude), für die Build-Phase Automatisierung, Prototyping und Entwicklung (n8n, Google AI Studio, Cursor, Ollama) und für Output/Go-to-Market vor allem Voice und Content-Produktion (ElevenLabs, Google Flow, Gamma). Der rote Faden bleibt durchgehend: Der Hebel entsteht nicht durch Tool-Nutzung an sich, sondern durch vertikale Zuschnitte auf Prozesse mit klaren Schritten, klaren Ergebnissen und nachweisbarer Zeit- oder Umsatzwirkung. Quellen: Drei Jahre ChatGPT: Zwei von drei nutzen KI-Anwendungen (TÜV-Verband) https://www.tuev-verband.de/pressemitteilungen/drei-jahre-chatgpt-zwei-von-drei-nutzen-ki-anwendungen BCG-Studie zeigt: Zwei Drittel der Deutschen nutzen KI am Arbeitsplatz (BCG) https://www.bcg.com/press/26june2025-bcg-studie-zeigt-zwei-drittel-der-deutschen-nutzen-ki-am-arbeitsplatz Zwischen Alltag und Sorge: Zwei Drittel der Deutschen nutzen KI – doch nur wenige vertrauen der Technologie (KPMG) https://kpmg.com/de/de/home/media/press-releases/2025/05/zwischen-alltag-und-sorge-zwei-drittel-der-deutschen-nutzen-ki-doch-nur-wenige-vertrauen-der-technologie.html Gartner Predicts 40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026, Up from Less Than 5% in 2025 (Gartner) https://www.gartner.com/en/newsroom/press-releases/2025-08-26-gartner-predicts-40-percent-of-enterprise-apps-will-feature-task-specific-ai-agents-by-2026-up-from-less-than-5-percent-in-2025
    続きを読む 一部表示
    9 分
  • KW 08 - Opus 4.6, Codex 5.3 und das Ende der Bürojobs
    2026/02/20
    Der 5. Februar 2026 markiert einen Wendepunkt: Anthropic und OpenAI stellen innerhalb von zwanzig Minuten ihre nächste Modellgeneration vor – Claude Opus 4.6 mit einer Million Token Kontextfenster und Agent Teams, OpenAI mit Codex 5.3, das seinen Vorgänger um den Faktor zehn übertrifft. Das Besondere: Beide Systeme wurden maßgeblich von sich selbst weiterentwickelt. Peter Steinberger und OpenClaw (145.000 GitHub-Stars) erhalten Milliarden-Angebote von Zuckerberg und Altman. Anthropic reagiert mit Token-Sperren – während Kimi K2.5 aus China bei fast gleicher Leistung zwanzigmal günstiger ist. Auf dem Arbeitsmarkt zeichnet sich ein Umbruch ab: 60-80% der Bürojobs könnten in 3-6 Monaten unter Druck geraten. Gleichzeitig setzen nur 5-7% der Unternehmen KI strukturiert ein – ein enormes Fenster für Early Adopter. KI-Agenten als autonome Unternehmen, Vibe Coding mit fehlerfreien Programmen, das Sterben von 80-90% der Utility-Apps, massive Datenlecks und Big-Tech-Übernahmen – diese Episode ordnet die dramatischste Woche der KI-Geschichte ein.
    続きを読む 一部表示
    16 分
  • KI im Wettlauf der Großmächte: China, OpenAI und die neue Ära von Agentenarbeit und Robotik
    2026/02/19
    China erhöht den Druck auf die US-KI-Branche entlang mehrerer Fronten: Bei generativer Video-KI, bei günstigen und schnell iterierenden Sprachmodellen sowie bei Robotik-Infrastruktur. ByteDance hat am 12. Februar 2026 Seedance 2.0 offiziell gestartet, ein Audio-Video-Joint-Modell, das multimodale Referenzen und 15‑Sekunden‑Clips mit Ton unterstützt und bereits über Dreamina und Doubao verfügbar ist. Die niedrige Zugangshürde verschärft die Debatte um Urheberrecht, Stilkopien und Deepfakes, nachdem in den USA realistische, an bekannte Filme und Stars angelehnte Beispiele viral gingen. Branchenverbände und Gewerkschaften kritisieren fehlende Schutzmechanismen und drohen mit rechtlichen Schritten, während die Diskussion um Haftung, Trainingdaten und Verbreitung über Plattformen weiter anzieht. Parallel beschleunigt sich der Wettbewerb bei LLMs aus China: Zhipu AI positioniert GLM‑5 als MoE-Ansatz für Coding und agentische Workflows und setzt dabei auf schnelle Iteration und eine Verbreitung über offene Gewichte, um Fähigkeiten rascher in Produkte und Entwickler-Ökosysteme zu bringen. MiniMax rückt mit MiniMax M 2.5 in die preisaggressive Richtung; große Kontextfenster und Tool-Use-Funktionen treffen auf Tokenpreise, die in vielen Benchmarks-nahen Coding-Szenarien die Eintrittsbarrieren deutlich senken. In der Robotik zeigt Peking zugleich Industrialisierungsambitionen: Das Beijing Innovation Center of Humanoid Robotics meldet eine Pilotfertigung mit bis zu 5.000 humanoiden Robotern pro Jahr und eine Infrastruktur, die Test-, Validierungs- und Montagezyklen standardisiert und damit den Übergang von Prototypen zu Pilotserien beschleunigen soll. Dynamische Demo-Clips werden dabei als Signal für Regelung, Balance und Hardware-Policy-Integration gelesen, also genau jene Fähigkeiten, die später in Logistik, Industrie oder Einsatzszenarien zählen. Auf US-Seite kontert OpenAI vor allem mit Geschwindigkeit und Produktisierung. Am 12. Februar 2026 stellte OpenAI GPT‑5.3‑Codex‑Spark als extrem latenzoptimierte Coding-Variante vor, die in Kooperation mit Cerebras auf Nicht‑Nvidia‑Hardware läuft und laut OpenAI mehr als 1.000 Tokens pro Sekunde erreicht. Gleichzeitig betont OpenAI, dass Änderungen an Streaming, Session-Setup und API-Overhead nicht nur dieses Modell betreffen, sondern die Serving-Architektur insgesamt beschleunigen sollen. In Robotik rückt der Datenaspekt wieder in den Vordergrund: Die zentrale Botschaft lautet, dass robuste Robotik-Fähigkeiten weniger an Demos hängen als an skalierbaren Datenpipelines und großen Mengen sauberer Demonstrationsdaten. Bei der Monetarisierung testet OpenAI in den USA Werbung in den günstigsten Tarifen (Free und Go), während höhere Pläne werbefrei bleiben. Das verschiebt die Akzeptanzfrage von klassischer Websuche in den Chat-Kontext, in dem Nutzer typischerweise mehr persönliche Details preisgeben; 2026 wird damit auch ein Test für Vertrauen, Transparenz und „Sponsored“-Grenzziehung in dialogbasierten Interfaces. Anthropic steht parallel für die zweite große Strömung: Agentic Coding wird operationalisiert, indem Entwicklung zunehmend als Orchestrierung spezialisierter Agenten verstanden wird und menschliche Architekturkompetenz sowie QA wichtiger werden. Am 12. Februar 2026 meldete Anthropic zudem eine neue Finanzierung über 30 Milliarden US‑Dollar bei einer Bewertung von 380 Milliarden US‑Dollar, was den Skalierungsdruck im Markt unterstreicht. Ein praktischer Engpass für Agenten-Workflows bleibt Echtzeit-Websuche. Exa wirbt mit „Instant Search“ im Februar 2026 und sub‑200‑ms‑Latenz für agentische Rückkopplungsschleifen, während das Open-Source-Projekt browser-use die Automatisierung von Webseiten für Agents adressiert. Auch Google erhöht den Druck im Reasoning-Segment: Gemini 3 Deep Think bekam am 12. Februar 2026 ein Upgrade und wird als spezialisierter Modus für Wissenschaft und Technik vermarktet; genannt werden 48,4 Prozent auf Humanity’s Last Exam (ohne Tools) und 84,6 Prozent auf ARC‑AGI‑2 (verifiziert). Zum Schluss ordnet die Episode die Super‑Bowl‑Verwirrung ein: Neben realer Codex-Werbung kursierte ein angeblich geleakter OpenAI-Spot zu einem Earbud-/Device‑Konzept, den OpenAI öffentlich als Fälschung zurückwies; Berichte zur OpenAI‑Hardwareentwicklung deuten eher auf einen späteren Zeitplan als auf einen schnellen Kopfhörer-Launch. Quellen: Official Launch of Seedance 2.0 (ByteDance Seed) https://seed.bytedance.com/en/blog/official-launch-of-seedance-2-0 Seedance 2.0 (Produktseite, ByteDance Seed) https://seed.bytedance.com/en/seedance2_0 Viral AI video of Tom Cruise fighting Brad Pitt leaves Hollywood flabbergasted (Entertainment Weekly) https://ew.com/viral-ai-video-tom-cruise-fighting-brad-pitt-leaves-hollywood-flabbergasted-11906898 ‘This is unacceptable’ – SAG-AFTRA reacts to viral Seedance 2.0 clip (TechRadar) https://www.techradar.com/...
    続きを読む 一部表示
    7 分
  • Agentische KI: Zwischen Autonomie und Angriffsfläche
    2026/02/17
    Agentische KI verschiebt den Fokus von Autocomplete zu Autonomie: Moderne Agenten planen Aufgaben, wählen Tools, behalten Kontext und handeln auf Systemen mit echten Rechten. Genau diese Handlungsfähigkeit macht den Nutzen aus, aber sie dreht das Sicherheitsprofil um. Wo KI nicht nur antwortet, sondern Dateien liest, Shell-Befehle ausführt, Prozesse startet oder Konfigurationen ändert, reichen kleine Fehler für großen Schaden. Am Beispiel des Open-Source-Systems OpenClaw wird deutlich, wie schnell Produktivität in Risiko kippt, wenn frühe Entwicklung, schnelles Ökosystem-Wachstum und unvollständige manuelle Prüfungen zusammenkommen. Zentrale Angriffsfläche ist das Gateway mit Control UI, also Web-Oberfläche und API zur Steuerung eines privilegierten Agenten. Analysen berichten von vielen öffentlich erreichbaren Instanzen; hinzu kommen konkrete Schwachstellen, bei denen Tokens über Web-Mechanismen abgegriffen und anschließend Remote-Code-Ausführung ermöglicht werden können (CVE-2026-25253, behoben ab OpenClaw 2026.1.29). Parallel wächst das Supply-Chain-Risiko durch Skills und Plugins aus dem ClawHub-Ökosystem. Sicherheitsberichte dokumentieren hunderte bösartige Skills, die sich als hilfreiche Tools tarnen, Nutzer zu Terminal-Kommandos verleiten und Stealer-Malware nachladen oder Credentials und Wallet-Keys abgreifen. OpenClaw reagiert mit zusätzlichen Prüfmechanismen wie VirusTotal-Scanning, doch selbst solche Maßnahmen gelten nicht als vollständige Lösung, weil verschleierte Payloads und Prompt-Injection-Techniken weiter durchrutschen können. Prompt Injection wird damit zum Kernproblem agentischer Systeme: Externe Inhalte wie Webseiten, E-Mails oder Forenbeiträge sind nicht nur Daten, sondern können als „Anweisung“ in den Handlungsfluss geraten. In Multi-Agent-Setups potenziert sich das, weil Instruktionen über mehrere Knoten weitergegeben werden. Forschung diskutiert Gegenmittel wie Provenance-Tracking, Sanitizer und getrennte Output-Validierung, um Quellen, Vertrauen und erlaubte Aktionen technisch zu erzwingen. Ein aktuelles Beispiel für die praktische Dimension ist Moltbook, ein virales „Agenten-Forum“, bei dem Berichte von schweren Fehlkonfigurationen und frei zugänglichen Daten sprechen; solche Leaks sind besonders brisant, weil sie für Identitätsmissbrauch und Agentenübernahmen reichen können. Aus den Risiken folgen klare Betriebsempfehlungen: Agenten nicht auf dem Hauptrechner betreiben, sondern standardmäßig isolieren (VM, separater Rechner, Server). Die Control UI nicht offen ins Internet stellen, Netzwerkflächen minimieren, Tokens wie Geheimnisse behandeln und Zugriffe über VPN/Zero-Trust absichern. Skills müssen wie ausführbare Programme bewertet werden, inklusive Misstrauen gegenüber „Prerequisites“ und Shell-Downloads. Zusätzlich hilft Least Privilege: eigene Konten, getrennte Postfächer, begrenzte Datenräume statt Vollzugriff auf persönliche Infrastruktur. Bei der Modellwahl kommen Kosten- und Sicherheitsaspekte zusammen; stärkere Modelle können Angriffe besser erkennen, bleiben aber nicht immun, daher sind Budget-Limits, Monitoring und Loop-Erkennung Pflicht. Der Ausblick: Sobald Agenten Smart-Home- oder andere physische Systeme steuern, wird Prompt Injection von digitaler Panne zu realem Sicherheitsrisiko. Quellen: OpenClaw Integrates VirusTotal Scanning to Detect Malicious ClawHub Skills — https://thehackernews.com/2026/02/openclaw-integrates-virustotal-scanning.html OpenClaw Bug Enables One-Click Remote Code Execution via Malicious Link — https://thehackernews.com/2026/02/openclaw-bug-enables-one-click-remote.html CVE-2026-25253: OpenClaw/Clawdbot has 1-Click RCE via Authentication Token Exfiltration From gatewayUrl — https://advisories.gitlab.com/pkg/npm/clawdbot/CVE-2026-25253/ Malicious OpenClaw 'skill' targets crypto users on ClawHub — https://www.tomshardware.com/tech-industry/cyber-security/malicious-moltbot-skill-targets-crypto-users-on-clawhub OpenClaw’s AI ‘skill’ extensions are a security nightmare — https://www.theverge.com/news/874011/openclaw-ai-skill-clawhub-extensions-security-nightmare OpenClaw agents targeted with 341 malicious ClawHub skills — https://www.scworld.com/news/openclaw-agents-targeted-with-341-malicious-clawhub-skills AI agent social media network Moltbook is a security disaster — https://www.techradar.com/pro/security/ai-agent-social-media-network-moltbook-is-a-security-disaster-millions-of-credentials-and-other-details-left-unsecured Security News This Week: Moltbook, the Social Network for AI Agents, Exposed Real Humans' Data — https://www.wired.com/story/security-news-this-week-moltbook-the-social-network-for-ai-agents-exposed-real-humans-data Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks — https://arxiv.org/abs/2512.23557 ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents — https://arxiv.org/abs...
    続きを読む 一部表示
    10 分
  • Opus 4.6: Die KI-Revolution in der Arbeitswelt
    2026/02/16
    Die Episode ordnet einen Marktimpuls rund um Anthropics Release von Claude Opus 4.6 (5. Februar 2026) ein und erklärt, warum nicht ein einzelnes Modell, sondern die Kombination aus Leistungsplus und direkter Andockfähigkeit an reale Arbeitsumgebungen die eigentliche Unruhe im Softwaresektor auslöste. Die zentrale These lautet: KI verlagert sich vom Chatbot zum ausführenden System in der Toolchain. Sobald Modelle zuverlässig in E-Mail, Kalender, Dokumenten, Tabellen, Präsentationen, CRM- und Legal-Workflows arbeiten, geraten SaaS-Kategorien unter Druck, weil Wertschöpfung nicht mehr in separaten Apps, sondern innerhalb der bestehenden Arbeitsoberflächen automatisiert werden kann. Im Fokus steht Opus 4.6 als Flaggschiff mit Verbesserungen bei länger laufenden, mehrstufigen Aufgaben, präziserer Instruktionsbefolgung und höherer Ausdauer in komplexen Projekten, plus einem 1M-Token-Kontextfenster (Beta). Der Inhalt betont dabei das branchenweite Problem von „Kontextverfall“ bei sehr langen Eingaben und verweist auf Long-Context-Tests nach dem Muster „Nadel im Heuhaufen“ als Messrahmen; entscheidend ist nicht die Fenstergröße allein, sondern Stabilität und Genauigkeit, wenn große Dokumentmengen oder Codebasen tatsächlich ausgereizt werden. Als Produktivitätshebel beschreibt die Episode zwei operative Ebenen: erstens Claude Cowork als Datei- und Ordnerzugriff für Nicht-Programmierer, um typische Unternehmensartefakte (PDFs, Tabellen, Slides, Word-Dokumente, Rechnungen, Medien) zu strukturieren, zu vergleichen, umzuschreiben und in neue Outputs zu überführen; zweitens Claude Code als terminalnahes Arbeiten im Projektkontext, inklusive Dateierstellung, Script-Ausführung und parallelen Instanzen. Daraus werden konkrete Praxisfälle abgeleitet, etwa Wettbewerbsanalysen, bei denen der Aufwand von Recherche hin zu Validierung und Entscheidung verschoben wird, sowie Automations-Workflows (z. B. mit n8n) inklusive Guardrails, Routing-Logik, RAG-Anbindung und Qualitätschecks, um typische Agenten-Risiken wie Prompt Injection und Randfall-Instabilität zu adressieren. Skalierung entsteht laut Episode über standardisierte „Skills“ als wiederholbare Rezepte mit klaren Triggern und Prozessschritten, die Streuung reduzieren und Routinearbeit beschleunigen. Darauf bauen Plugins auf, die Skills, Commands und Konnektoren zu funktionsnahen Paketen bündeln (Marketing, Legal, Finance, Support). Besonders relevant sind Integrationen in Office-Umgebungen und Konnektoren in Richtung Google Workspace: Wenn KI Inhalte in Gmail und Kalender auffinden und kontextualisieren kann, sinkt Reibung durch weniger Copy-Paste zwischen Systemen. Ergänzend werden Sub-Agents und Agent-Teams als Parallelisierungsmechanismen beschrieben, die unabhängige Teilrecherchen oder Engineering-Rollen auf mehrere Agenten verteilen, allerdings mit höheren Token- und Kostenbudgets. Zum Abschluss werden Sicherheits- und Governance-Fragen eingeordnet: Demo-Fähigkeiten sind nicht automatisch auditierbare Enterprise-Prozesse; Risikoquellen liegen in Tool-Zugriff, Prompt Injection, Datenhaltung und Kontrollierbarkeit. Einzelne, anthropomorph klingende Modelläußerungen werden als kein Beleg für Bewusstsein bewertet, aber als Signal, dass Alignment, Transparenz, Verantwortung und Nutzerwohlbefinden in der Praxis mitwachsen müssen. Die drei Leittrends: mehr Autonomie von Agenten, „Vibe Coding“ als Standardmodus mit Menschen in Architektur- und Review-Rollen, und eine breite Transformation von Wissensarbeit, sobald KI in die Kernwerkzeuge der Organisation eingebettet ist. Entscheidend ist damit weniger der Benchmark-Sieg als ein sauber definierter Use Case, der mit Skills, Plugins, Konnektoren und Agent-Strukturen wiederholbar in Produktivität übersetzt wird. Quellen: Introducing Claude Opus 4.6 — Anthropic — https://www.anthropic.com/news/claude-opus-4-6 Anthropic wants you to use Claude to ‘Cowork’ in latest AI agent push — The Verge — https://www.theverge.com/ai-artificial-intelligence/860730/anthropic-cowork-feature-ai-agents-claude-code Anthropic debuts new model with hopes to corner the market beyond coding — The Verge — https://www.theverge.com/ai-artificial-intelligence/874440/anthropic-opus-4-6-new-model-claude Claude Code (GitHub repository) — Anthropic — https://github.com/anthropics/claude-code Using the Gmail and Google Calendar Integrations — Claude Help Center — https://support.claude.com/en/articles/11088742-using-the-gmail-and-google-calendar-integrations Anthropic’s Claude can now read your Gmail — TechCrunch — https://techcrunch.com/2025/04/15/anthropics-claude-now-read-your-gmail/ NoLiMa: Long-Context Evaluation Beyond Literal Matching — arXiv — https://arxiv.org/abs/2502.05167
    続きを読む 一部表示
    16 分