> kb/ai-stack-2026.md · STACK · 12 MIN

FIELD MAP

DER AI-STACK — MAI 2026

Die Application-Layer, auf der die meisten Teams shippen, ist heute zehn eigenständige Ebenen tief — umschlossen von zwei Rails, die jede einzelne berühren. Das ist eine Arbeitskarte, kein Buyer's Guide: wo jede Kategorie sitzt, was einige repräsentative Anbieter tun und wie die Teile zusammenhängen.

Lies sie von oben nach unten — von der Oberfläche bis zum Silizium. Die linke Rail, Observability, und die rechte Rail, Governance, sind keine Schritte im Flow; sie sind Concerns, die quer durch alle zehn Ebenen schneiden. Tippe einen Anbieter im Diagramm an, um zu seiner Erklärung und einem ausgehenden Link weiter unten zu springen.

DER AI-STACK — MAI 2026

01
End-User-Oberflächen

Cursor Perplexity ChatGPT Claude
02
Agent-Runtimes

Claude Code Devin Replit Agent Codex Cursor Agent
03
Orchestration Frameworks

LangGraph Microsoft Agent Framework Pydantic AI Mastra Google ADK
04
Protocol Layer NEU

MCP A2A AG-UI
05
Memory NEU

Mem0 Letta Zep
06
Retrieval

Cohere Rerank Voyage AI Neo4j GraphRAG Elastic
07
Storage

pgvector Qdrant Turbopuffer Pinecone neo4j
08
Model Gateway

Portkey LiteLLM OpenRouter
09
Foundation Models

Claude (Anthropic) GPT (OpenAI) Gemini (Google) Meta (Llama) DeepSeek Qwen
10
Inference + Compute

Together AI Fireworks AI vLLM NVIDIA AMD MI400 Google TPU AWS Groq

Element antippen für Details ↓

01End-User-Oberflächen

Cursor

KI-first Code-Editor; agentische Edits und codebasisweite Änderungen aus natürlicher Sprache.

Anbieter besuchen

Perplexity

Answer-Engine: dialogbasierte Suche mit Live-Quellen und Zitaten.

Anbieter besuchen

ChatGPT

OpenAIs Consumer-Assistent für Chat, Reasoning und Tool-Use.

Anbieter besuchen

Claude

Anthropics Assistent für Web, Desktop und Mobile, ausgelegt auf Long-Context-Arbeit.

Anbieter besuchen

02Agent-Runtimes

Claude Code

Terminal-natives agentisches Coding von Anthropic; delegiert mehrstufige Engineering-Tasks.

Anbieter besuchen

Devin

Cognitions autonomer Software-Engineer, der Aufgaben end-to-end plant und ausführt.

Anbieter besuchen

Replit Agent

Baut und deployt komplette Apps aus einem Prompt in Replits Cloud-IDE.

Anbieter besuchen

Codex

OpenAIs Coding-Agent für Cloud und CLI, der Tasks in isolierten Sandboxes ausführt.

Anbieter besuchen

Cursor Agent

Cursors Background-Agent-Modus für parallele, länger laufende Coding-Arbeit.

Anbieter besuchen

03Orchestration Frameworks

LangGraph

Graph-basierte Orchestrierung für zustandsbehaftete, mehrstufige Agent-Workflows (LangChain).

Anbieter besuchen

Microsoft Agent Framework

Microsofts vereinheitlichtes Agent-Framework; konsolidiert Semantic Kernel und AutoGen.

Anbieter besuchen

Pydantic AI

Typsicheres Python-Agent-Framework vom Pydantic-Team.

Anbieter besuchen

Mastra

TypeScript-Framework, das Agents, Workflows, Memory und Evals bündelt.

Anbieter besuchen

Google ADK

Googles Open-Source Agent Development Kit (Python, Java, Go, TypeScript).

Anbieter besuchen

04Protocol Layer

MCP

Model Context Protocol (Anthropic): Standard, um Modelle an Tools und Daten anzubinden.

Anbieter besuchen

A2A

Agent2Agent: vendorübergreifende Agent-Interoperabilität; von Google initiiert, jetzt Linux Foundation.

Anbieter besuchen

AG-UI

Agent-User-Interaction-Protokoll (CopilotKit): Event-Stream zwischen Agent-Backends und Frontends.

Anbieter besuchen

05Memory

Mem0

Drop-in-Memory-API, die Vector-, Graph- und Key-Value-Stores für Personalisierung kombiniert.

Anbieter besuchen

Letta

OS-artiges Agent-Memory mit Paging zwischen Kontext und Archiv-Storage (vormals MemGPT).

Anbieter besuchen

Zep

Temporales Knowledge-Graph-Memory (Graphiti), das Faktenänderungen über die Zeit verfolgt.

Anbieter besuchen

06Retrieval

Cohere Rerank

Reranking-Modelle, die Kandidaten-Passagen nach echter Relevanz neu sortieren.

Anbieter besuchen

Voyage AI

Hochwertige Embedding- und Reranking-Modelle (Teil von MongoDB).

Anbieter besuchen

Neo4j GraphRAG

Graph-basiertes RAG, das Retrieval in einem Knowledge-Graph verankert.

Anbieter besuchen

Elastic

Hybride Keyword- und Vector-Suche auf der Elasticsearch-Engine.

Anbieter besuchen

07Storage

pgvector

Postgres-Erweiterung, die Vector-Similarity-Suche zur bestehenden Datenbank hinzufügt.

Anbieter besuchen

Qdrant

Open-Source-Vector-Datenbank mit Payload-Filterung und Hybrid-Suche.

Anbieter besuchen

Turbopuffer

Serverlose Vector- und Volltextsuche auf Object Storage – günstig bei großem Maßstab.

Anbieter besuchen

Pinecone

Vollständig gemanagte Vector-Datenbank für Production-Retrieval.

Anbieter besuchen

neo4j

Native Graph-Datenbank für stark vernetzte Daten.

Anbieter besuchen

08Model Gateway

Portkey

AI-Gateway mit Routing, Caching, Guardrails und Observability über Provider hinweg.

Anbieter besuchen

LiteLLM

Einheitliches SDK und Proxy, das 100+ Model-Provider hinter einer OpenAI-artigen API bündelt.

Anbieter besuchen

OpenRouter

Eine API, die Requests über viele Modelle und Provider routet.

Anbieter besuchen

09Foundation Models

Claude (Anthropic)

Anthropics Claude-Modellfamilie, ausgelegt auf Reasoning, Coding und Long Context.

Anbieter besuchen

GPT (OpenAI)

OpenAIs GPT-Familie universeller Frontier-Modelle.

Anbieter besuchen

Gemini (Google)

Die multimodale Gemini-Modellfamilie von Google DeepMind.

Anbieter besuchen

Meta (Llama)

Metas Open-Weight-Llama-Modelle für Self-Hosting und Fine-Tuning.

Anbieter besuchen

DeepSeek

Open-Weight-Modelle, bekannt für starkes Reasoning zu niedrigen Kosten.

Anbieter besuchen

Qwen

Alibabas Open-Weight-Qwen-Modellfamilie über Größen und Modalitäten hinweg.

Anbieter besuchen

10Inference + Compute

Together AI

Inference-Cloud zum Betrieb und Fine-Tuning offener Modelle im großen Maßstab.

Anbieter besuchen

Fireworks AI

Schnelles, kosteneffizientes Inference-Serving für offene Modelle.

Anbieter besuchen

vLLM

Open-Source-Inference-Engine mit hohem Durchsatz für LLM-Serving.

Anbieter besuchen

NVIDIA

Data-Center-GPUs, die AI-Training und -Inference dominieren.

Anbieter besuchen

AMD MI400

AMDs Instinct-MI400-Serie an AI-Beschleunigern; AMDs Angriff auf NVIDIA im Rechenzentrum.

Anbieter besuchen

Google TPU

Googles Tensor Processing Units für Training und Serving auf Google Cloud.

Anbieter besuchen

AWS

Cloud plus eigene Trainium- und Inferentia-Chips für AI-Workloads.

Anbieter besuchen

Groq

LPU-basierte Inference mit sehr geringer Latenz bei der Token-Generierung.

Anbieter besuchen

MEMBER · KOSTENLOS

Volltext lesen oder als PDF herunterladen

Der vollständige Artikel und das PDF sind Member-Inhalte. Magic-Link-Login, keine Kreditkarte, kein Risiko — und beides ist sofort verfügbar.

Jetzt kostenlos anmelden → PDF herunterladen (Login) Schon Member? Login