Secure Model Serving: Air-Gap LLM für regulierte Umgebungen

Unternehmen in regulierten Branchen stehen vor einem Dilemma: Die Fachabteilungen fordern moderne LLM-Fähigkeiten, während Compliance und IT-Security externe Cloud-APIs ausschließen. Die Lösung: Self-Hosted Large Language Models in einer vollständig isolierten Infrastruktur.

Dieser Leitfaden zeigt, wie ein 100B+-Parameter-Modell sicher im eigenen Sicherheits-Perimeter betrieben wird – von der Hardware-Dimensionierung bis zum laufenden Betrieb.

How Do Air-Gapped Networks Work? - Physical Isolation & Unidirectional Data Flow — Bildquelle: OPSWAT: How Do Air-Gapped Networks Work?

Wann ist ein Air-Gap LLM sinnvoll?

Ein vollständig isoliertes LLM-Setup ist der richtige Ansatz, wenn folgende Anforderungen vorliegen:

Keine Daten dürfen das Unternehmensnetzwerk verlassen (Data Residency)
Vollständige Nachvollziehbarkeit aller KI-Interaktionen für Audit-Zwecke
Integration in bestehende Identity- und Access-Management-Systeme erforderlich
Regulatorische Vorgaben (EU AI Act, DSGVO, branchenspezifische Compliance)
Verarbeitung von Daten mit hoher Klassifizierungsstufe

Wenn diese Kriterien nicht zutreffen, sind Cloud-APIs oft die kosteneffizientere Wahl.

Regulated Industries Are Locked Out of the AI Revolution - Data Sovereignty, Security & Compliance — Regulated industries face non-negotiable requirements that make cloud APIs impractical for critical AI workloads

Hardware-Dimensionierung

Für ein 100B+ Parameter-Modell (z.B. Llama 3.1 405B quantisiert oder Llama 3.1 70B in FP16) gelten folgende Richtwerte:

Komponente	Empfehlung
GPU	4–8x NVIDIA H100/A100 (80GB VRAM) mit NVLink
System-RAM	256–512 GB DDR5 für KV-Cache und Batching
Storage	NVMe-Array, 2–5× Modellgröße (für Checkpoints, Quantisierungen)
Netzwerk	Dediziertes VLAN, kein Internet-Egress

💡 Best Practice: GPU-Beschaffung hat Lead-Times von 12+ Wochen. Frühzeitig in den Procurement-Prozess einsteigen und Quantisierungsoptionen (FP8/INT8) evaluieren, denn sie reduzieren Hardware-Anforderungen bei akzeptablem Qualitätsverlust erheblich.

Software-Stack

Ein produktionsreifer LLM-Stack besteht aus mehreren Schichten:

Model Serving Layer

•vLLM oder TGI als Inference-Engine mit Tensor-Parallelismus
•OpenAI-kompatible API für einfache Integration bestehender Tools
•Batching und KV-Cache-Optimierung für maximalen Durchsatz

RAG-Pipeline

•Vektor-Datenbank: Milvus, pgvector oder Qdrant
•Embedding-Service: E5-Large, BGE oder sentence-transformers
•Document Loader: Anbindung an DMS, SharePoint, Confluence etc.

Gateway & Observability

•API Gateway: Kong, NGINX oder Envoy mit OIDC-Integration
•Monitoring: Prometheus/Grafana für GPU-Utilization, Latenz, Throughput
•Logging: Strukturiertes Request-Logging, SIEM-Integration

Guardrails

•Content-Filter: Toxicity-Detection, PII-Masking
•Prompt-Injection-Detection: Llama Guard oder regelbasierte Filter
•Output-Validation: Schema-Checks für strukturierte Responses

Security muss von Anfang an designbestimmend sein:

The Air-Gap Imperative - Public Cloud vs Air-Gapped Environment Comparison — Air-gapped systems provide 100% data control, IP security, full audit trails, and dedicated infrastructure

Netzwerk-Isolation

•Air-Gap: Kein Egress vom LLM-Segment ins Internet
•Dediziertes VLAN: Nur definierte interne Subnets dürfen zugreifen
•Modell-Updates: Manueller, geprüfter Transfer über Bastion-Host

Identity & Access

•Zero-Trust: Jeder API-Call authentifiziert über unternehmensweites IdP
•Service-to-Service: mTLS zwischen allen Komponenten
•RBAC: Feingranulare Berechtigungen pro Endpoint und Modell

Audit & Compliance

•Audit-Trail: Vollständiges Logging aller Prompts/Responses (ggf. anonymisiert)
•Retention: Konfigurierbar nach Compliance-Vorgaben (z.B. 90 Tage)
•Container-Hardening: Non-Root, Read-Only-FS, regelmäßige CVE-Scans

Implementierung in 5 Phasen

Full-Stack On-Premises AI Architecture - From Hardware to Application Layer — A comprehensive blueprint showing the full stack from hardware foundation to application integrations

Phase 1: Discovery & Requirements

Use Cases priorisieren, Success Metrics definieren (Latenz, Verfügbarkeit, Durchsatz). Infrastruktur-Assessment: Welche GPU/CPU-Ressourcen sind verfügbar? Wie sieht die Netzwerk- und Security-Architektur aus?

Phase 2: Solution Design

Zielarchitektur mit Plattform-Team abstimmen. Hardware-Sizing basierend auf Concurrency-Annahmen. Bill of Materials erstellen: Hardware-SKUs, Container-Stack, Observability-Tools.

Phase 3: Implementation

Infrastruktur im Dev/Test-Environment aufbauen. Integration mit Identity-Stack, Logging, Monitoring. LLM-Serving-Layer und RAG-Pipeline deployen.

Phase 4: Testing & Hardening

Load-Tests bis 2× erwartete Peak-Last. Security-Assessment inkl. Penetration-Test. Red-Teaming für Prompt-Injection und Jailbreak-Versuche.

Phase 5: Rollout & Operations

Pilotierung mit Power-Usern, iterative Erweiterung. Runbook-Dokumentation und Wissenstransfer. Continuous Improvement: Modell-Updates, Prompt-Tuning, neue Use Cases.

Praxis-Tipps

Häufiger Fehler: Blind das größte Modell deployen. Nicht jeder Use Case braucht 100B Parameter. Ein Routing-Layer zu kleineren spezialisierten Modellen (7B–70B) optimiert Kosten und Latenz erheblich.

•Quantisierung evaluieren: FP8/INT8 reduziert VRAM-Bedarf um 50%+ bei oft <5% Qualitätsverlust. Für jeden Use Case separat testen.
•RAG früh testen: Chunking-Strategie und Embedding-Modell haben massiven Einfluss auf Antwortqualität. Iteratives Tuning einplanen.
•Ops-Ownership klären: Vor Go-Live festlegen, wer den Stack betreibt. Knowledge Transfer ist kritisch für nachhaltige Adoption.
•Latenz-Budget verstehen: Token-Generation ist sequenziell. Bei langen Outputs (>500 Tokens) wird Streaming zur UX-Pflicht.
•Failover planen: GPU-Ausfälle passieren. Redundanz oder klare RTO/RPO-Definitionen sind Pflicht für produktionskritische Systeme.

Zielmetriken

Realistische Benchmarks für ein gut konfiguriertes On-Prem-Setup:

Metrik	Zielwert
Time to First Token (p95)	< 500ms
End-to-End Latenz (p95)	< 3 Sekunden (bei ~200 Output-Tokens)
Verfügbarkeit	99.5%+ (mit Redundanz: 99.9%)
Concurrent Users	50–200 (je nach Hardware-Sizing)

Fazit

Self-Hosted LLMs im Air-Gap-Modus sind keine Rocket Science mehr. Mit den richtigen Architekturentscheidungen und einem strukturierten Vorgehen lässt sich ein Enterprise-Grade-System in 3 bis 4 Monaten produktiv bringen.

Der Schlüssel: Nicht blind das größte Modell deployen, sondern Use Cases, Hardware-Constraints und Betriebsmodell gemeinsam denken. Die Komplexität ist beherrschbar – wenn man sie von Anfang an einplant.

Sie planen ein Air-Gap-LLM-Projekt?

AI Catalyst unterstützt bei Konzeption, Implementierung und Betrieb sicherer On-Prem-LLM-Architekturen – von der Hardware-Auswahl bis zum Production Readiness Review.

Beratungsgespräch vereinbaren