Zurück zu Insights
Infrastructure

Secure Model Serving

Air-Gap LLM für interne AI Suite im regulierten Umfeld

Unternehmen in regulierten Branchen stehen vor einem Dilemma: Die Fachabteilungen fordern moderne LLM-Fähigkeiten, während Compliance und IT-Security externe Cloud-APIs ausschließen. Die Lösung: Self-Hosted Large Language Models in einer vollständig isolierten Infrastruktur.

Dieser Leitfaden zeigt, wie ein 100B+-Parameter-Modell sicher im eigenen Sicherheits-Perimeter betrieben wird – von der Hardware-Dimensionierung bis zum laufenden Betrieb.

How Do Air-Gapped Networks Work? - Physical Isolation & Unidirectional Data Flow
Bildquelle: OPSWAT: How Do Air-Gapped Networks Work?

Wann ist ein Air-Gap LLM sinnvoll?

Ein vollständig isoliertes LLM-Setup ist der richtige Ansatz, wenn folgende Anforderungen vorliegen:

  • Keine Daten dürfen das Unternehmensnetzwerk verlassen (Data Residency)
  • Vollständige Nachvollziehbarkeit aller KI-Interaktionen für Audit-Zwecke
  • Integration in bestehende Identity- und Access-Management-Systeme erforderlich
  • Regulatorische Vorgaben (EU AI Act, DSGVO, branchenspezifische Compliance)
  • Verarbeitung von Daten mit hoher Klassifizierungsstufe

Wenn diese Kriterien nicht zutreffen, sind Cloud-APIs oft die kosteneffizientere Wahl.

Regulated Industries Are Locked Out of the AI Revolution - Data Sovereignty, Security & Compliance
Regulated industries face non-negotiable requirements that make cloud APIs impractical for critical AI workloads

Hardware-Dimensionierung

Für ein 100B+ Parameter-Modell (z.B. Llama 3.1 405B quantisiert oder Llama 3.1 70B in FP16) gelten folgende Richtwerte:

KomponenteEmpfehlung
GPU4–8x NVIDIA H100/A100 (80GB VRAM) mit NVLink
System-RAM256–512 GB DDR5 für KV-Cache und Batching
StorageNVMe-Array, 2–5× Modellgröße (für Checkpoints, Quantisierungen)
NetzwerkDediziertes VLAN, kein Internet-Egress

💡 Best Practice: GPU-Beschaffung hat Lead-Times von 12+ Wochen. Frühzeitig in den Procurement-Prozess einsteigen und Quantisierungsoptionen (FP8/INT8) evaluieren, denn sie reduzieren Hardware-Anforderungen bei akzeptablem Qualitätsverlust erheblich.

Software-Stack

Ein produktionsreifer LLM-Stack besteht aus mehreren Schichten:

Model Serving Layer

  • vLLM oder TGI als Inference-Engine mit Tensor-Parallelismus
  • OpenAI-kompatible API für einfache Integration bestehender Tools
  • Batching und KV-Cache-Optimierung für maximalen Durchsatz

RAG-Pipeline

  • Vektor-Datenbank: Milvus, pgvector oder Qdrant
  • Embedding-Service: E5-Large, BGE oder sentence-transformers
  • Document Loader: Anbindung an DMS, SharePoint, Confluence etc.

Gateway & Observability

  • API Gateway: Kong, NGINX oder Envoy mit OIDC-Integration
  • Monitoring: Prometheus/Grafana für GPU-Utilization, Latenz, Throughput
  • Logging: Strukturiertes Request-Logging, SIEM-Integration

Guardrails

  • Content-Filter: Toxicity-Detection, PII-Masking
  • Prompt-Injection-Detection: Llama Guard oder regelbasierte Filter
  • Output-Validation: Schema-Checks für strukturierte Responses

Security muss von Anfang an designbestimmend sein:

The Air-Gap Imperative - Public Cloud vs Air-Gapped Environment Comparison
Air-gapped systems provide 100% data control, IP security, full audit trails, and dedicated infrastructure

Netzwerk-Isolation

  • Air-Gap: Kein Egress vom LLM-Segment ins Internet
  • Dediziertes VLAN: Nur definierte interne Subnets dürfen zugreifen
  • Modell-Updates: Manueller, geprüfter Transfer über Bastion-Host

Identity & Access

  • Zero-Trust: Jeder API-Call authentifiziert über unternehmensweites IdP
  • Service-to-Service: mTLS zwischen allen Komponenten
  • RBAC: Feingranulare Berechtigungen pro Endpoint und Modell

Audit & Compliance

  • Audit-Trail: Vollständiges Logging aller Prompts/Responses (ggf. anonymisiert)
  • Retention: Konfigurierbar nach Compliance-Vorgaben (z.B. 90 Tage)
  • Container-Hardening: Non-Root, Read-Only-FS, regelmäßige CVE-Scans

Implementierung in 5 Phasen

Full-Stack On-Premises AI Architecture - From Hardware to Application Layer
A comprehensive blueprint showing the full stack from hardware foundation to application integrations

Phase 1: Discovery & Requirements

Use Cases priorisieren, Success Metrics definieren (Latenz, Verfügbarkeit, Durchsatz). Infrastruktur-Assessment: Welche GPU/CPU-Ressourcen sind verfügbar? Wie sieht die Netzwerk- und Security-Architektur aus?

Phase 2: Solution Design

Zielarchitektur mit Plattform-Team abstimmen. Hardware-Sizing basierend auf Concurrency-Annahmen. Bill of Materials erstellen: Hardware-SKUs, Container-Stack, Observability-Tools.

Phase 3: Implementation

Infrastruktur im Dev/Test-Environment aufbauen. Integration mit Identity-Stack, Logging, Monitoring. LLM-Serving-Layer und RAG-Pipeline deployen.

Phase 4: Testing & Hardening

Load-Tests bis 2× erwartete Peak-Last. Security-Assessment inkl. Penetration-Test. Red-Teaming für Prompt-Injection und Jailbreak-Versuche.

Phase 5: Rollout & Operations

Pilotierung mit Power-Usern, iterative Erweiterung. Runbook-Dokumentation und Wissenstransfer. Continuous Improvement: Modell-Updates, Prompt-Tuning, neue Use Cases.

Praxis-Tipps

Häufiger Fehler: Blind das größte Modell deployen. Nicht jeder Use Case braucht 100B Parameter. Ein Routing-Layer zu kleineren spezialisierten Modellen (7B–70B) optimiert Kosten und Latenz erheblich.

  • Quantisierung evaluieren: FP8/INT8 reduziert VRAM-Bedarf um 50%+ bei oft <5% Qualitätsverlust. Für jeden Use Case separat testen.
  • RAG früh testen: Chunking-Strategie und Embedding-Modell haben massiven Einfluss auf Antwortqualität. Iteratives Tuning einplanen.
  • Ops-Ownership klären: Vor Go-Live festlegen, wer den Stack betreibt. Knowledge Transfer ist kritisch für nachhaltige Adoption.
  • Latenz-Budget verstehen: Token-Generation ist sequenziell. Bei langen Outputs (>500 Tokens) wird Streaming zur UX-Pflicht.
  • Failover planen: GPU-Ausfälle passieren. Redundanz oder klare RTO/RPO-Definitionen sind Pflicht für produktionskritische Systeme.

Zielmetriken

Realistische Benchmarks für ein gut konfiguriertes On-Prem-Setup:

MetrikZielwert
Time to First Token (p95)< 500ms
End-to-End Latenz (p95)< 3 Sekunden (bei ~200 Output-Tokens)
Verfügbarkeit99.5%+ (mit Redundanz: 99.9%)
Concurrent Users50–200 (je nach Hardware-Sizing)

Fazit

Self-Hosted LLMs im Air-Gap-Modus sind keine Rocket Science mehr. Mit den richtigen Architekturentscheidungen und einem strukturierten Vorgehen lässt sich ein Enterprise-Grade-System in 3 bis 4 Monaten produktiv bringen.

Der Schlüssel: Nicht blind das größte Modell deployen, sondern Use Cases, Hardware-Constraints und Betriebsmodell gemeinsam denken. Die Komplexität ist beherrschbar – wenn man sie von Anfang an einplant.

Sie planen ein Air-Gap-LLM-Projekt?

AI Catalyst unterstützt bei Konzeption, Implementierung und Betrieb sicherer On-Prem-LLM-Architekturen – von der Hardware-Auswahl bis zum Production Readiness Review.

Beratungsgespräch vereinbaren