Zum Hauptinhalt springen

Wie Hanc.AI funktioniert

Diese Seite erklärt die technische Architektur der Hanc.AI-Plattform — wie verschiedene Komponenten zusammenarbeiten, um intelligente Sprachkonversationen zu ermöglichen.

Systemarchitektur-Übersicht

┌─────────────────────────────────────────────────────────────────────────────┐
│ HANC.AI PLATTFORM │
└─────────────────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────┐
│ IHRE KUNDEN │
│ │
│ 📞 Telefonanruf 🌐 Website │
└──────────┬─────────────┬────────────┘
│ │
┌────────────────┘ └────────────────┐
│ │
▼ ▼
┌─────────────────────────┐ ┌─────────────────────────┐
│ TELEFONANBIETER │ │ WEBSITE-WIDGET │
│ (Twilio) │ │ (LiveKit WebRTC) │
│ │ │ │
│ • Empfängt Anrufe │ │ • Browser-basierte │
│ • Leitet an Agent │ │ Anrufe │
│ • Handhabt Telefonie │ │ • Click-to-Call-Button │
│ │ │ • Keine App nötig │
└───────────┬─────────────┘ └───────────┬─────────────┘
│ │
└──────────────────┬───────────────────────────┘


┌─────────────────────────────────────────────────────────────────────────────┐
│ VOICE SERVICE LAYER │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Sprache │ │ KI │ │ Text zu │ │ Audio │ │
│ │ zu Text │───▶│ Engine │───▶│ Sprache │───▶│ Stream │ │
│ │ (STT) │ │ (LLM) │ │ (TTS) │ │ │ │
│ └─────────────┘ └──────┬──────┘ └─────────────┘ └─────────────┘ │
│ │ │
└────────────────────────────┼────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────────────────────────┐
│ HANC.AI BACKEND │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │
│ │ Agent-Konfig │ │ Wissensdatenbank│ │ Call Logs │ │
│ │ • Prompt │ │ • Dokumente │ │ • Verlauf │ │
│ │ • Einstellungen│ │ • RAG-Suche │ │ • Transkripte │ │
│ │ • Tools │ │ • Embeddings │ │ • Analytics │ │
│ └─────────────────┘ └─────────────────┘ └─────────────────┘ │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │
│ │ Benutzerkonten │ │ Integrationen │ │ Abrechnung │ │
│ │ • Auth │ │ • Twilio │ │ • Tarife │ │
│ │ • Workspaces │ │ • Kalender │ │ • Nutzung │ │
│ │ • Teams │ │ • Webhooks │ │ • Zahlungen │ │
│ └─────────────────┘ └─────────────────┘ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────────────────────────┐
│ IHR DASHBOARD │
│ │
│ 🎛️ Agenten konfigurieren 📊 Analytics ansehen 📞 Nummern verwalten │
│ 📚 Wissen hochladen 👥 Team verwalten 💳 Abrechnung │
│ │
└─────────────────────────────────────────────────────────────────────────────┘

Anrufablauf: Schritt für Schritt

Szenario: Kunde ruft Ihr Unternehmen an

Verfolgen wir, was passiert, wenn ein Kunde Ihre Twilio-Nummer anruft, die mit einem Hanc.AI-Agenten verbunden ist:

ZEIT        EREIGNIS                           SYSTEM
─────────────────────────────────────────────────────────────────────
0:00 Kunde wählt +43 1 234 5678 Telefonnetz

0:02 Anruf erreicht Twilio Twilio
Twilio leitet an Hanc.AI weiter

0:03 Agent aktiviert Hanc.AI Voice Service
Audio-Stream hergestellt

0:04 Agent spricht erste Nachricht: TTS-Engine
"Hallo! Danke für Ihren Anruf bei
ABC Zahnarzt. Wie kann ich helfen?"

0:06 Kunde: "Ich möchte einen Termin STT-Engine
für nächste Woche buchen"

0:07 Text wird an KI-Engine gesendet LLM (z.B. GPT-4)
KI durchsucht Wissensdatenbank RAG-System

0:08 KI generiert Antwort: LLM
"Gerne helfe ich Ihnen dabei.
Welcher Tag passt Ihnen am besten?"

0:09 Antwort wird in Sprache umgewandelt TTS-Engine
Audio an Kunden gesendet

0:10 Kunde: "Wie wäre es Dienstag STT-Engine
um 15 Uhr?"

0:11 KI prüft Verfügbarkeit Kalender-Integration
(wenn Kalender verbunden)

0:12 KI: "Dienstag um 15 Uhr ist frei. LLM + TTS
Darf ich Ihren Namen erfahren?"

... Gespräch wird fortgesetzt ...

2:45 Anruf endet
Transkript gespeichert Hanc.AI Backend
Analytics aktualisiert

Komponenten im Detail

1. Speech-to-Text (STT)

Wandelt die Stimme des Kunden in Text um, den die KI verarbeiten kann.

┌─────────────────────────────────────────────────────────────────┐
│ SPEECH-TO-TEXT-PIPELINE │
└─────────────────────────────────────────────────────────────────┘

Audio-Stream ───▶ Rauschreduzierung ───▶ Stimmerkennung ───▶ Transkription


"Ich muss
einen Termin
buchen"

Hauptmerkmale:

  • Echtzeit-Verarbeitung (< 500ms Latenz)
  • Mehrsprachige Unterstützung
  • Akzent-Anpassung
  • Hintergrundgeräusch-Handling

2. KI-Engine (LLM)

Das "Gehirn", das Kontext versteht und Antworten generiert.

┌─────────────────────────────────────────────────────────────────┐
│ KI-ENGINE-PROZESS │
└─────────────────────────────────────────────────────────────────┘

Eingabe: "Was kosten Ihre Zahnreinigungen?"


┌─────────────────────────────────────────────────────────────────┐
│ KONTEXT-ZUSAMMENSTELLUNG │
│ │
│ System-Prompt (wie sich verhalten) │
│ + Konversationsverlauf (was vorher gesagt wurde) │
│ + Wissensdatenbank-Ergebnisse (relevante Geschäftsinfos) │
│ + Aktuelle Benutzernachricht │
│ │
└──────────────────────────────┬──────────────────────────────────┘


┌─────────────────────────────────────────────────────────────────┐
│ LLM-VERARBEITUNG │
│ │
│ Anbieter: OpenAI / Anthropic / Google │
│ Modell: GPT-4o / Claude 3.5 / Gemini Pro │
│ │
│ Das Modell verarbeitet den gesamten Kontext und generiert │
│ die passendste Antwort │
│ │
└──────────────────────────────┬──────────────────────────────────┘


Ausgabe: "Unsere Standard-Zahnreinigung kostet 80€ und
eine Tiefenreinigung 120€. Möchten Sie
einen Termin vereinbaren?"

3. Wissensdatenbank (RAG)

Ruft relevante Informationen aus Ihren Dokumenten ab.

┌─────────────────────────────────────────────────────────────────┐
│ RAG-ABRUFPROZESS │
└─────────────────────────────────────────────────────────────────┘

Benutzerfrage: "Was kosten Ihre Leistungen?"


┌─────────────────────────────────────────────────────────────────┐
│ EMBEDDING & SUCHE │
│ │
│ 1. Frage in Vektor umwandeln (Embedding) │
│ 2. Dokumentvektoren nach ähnlichem Inhalt durchsuchen │
│ 3. Beste passende Abschnitte abrufen │
│ │
└──────────────────────────────┬──────────────────────────────────┘


┌─────────────────────────────────────────────────────────────────┐
│ ABGERUFENE DOKUMENTE │
│ │
│ Abschnitt 1: "Leistungen und Preise: │
│ - Standard-Reinigung: 80€ │
│ - Tiefenreinigung: 120€ │
│ - Bleaching: 200€" │
│ │
│ Abschnitt 2: "Sonderangebote: │
│ - Erstbesuch 10% Rabatt │
│ - 3er-Paket Reinigungen: 200€" │
│ │
└──────────────────────────────┬──────────────────────────────────┘


An LLM als Kontext gesendet

4. Text-to-Speech (TTS)

Wandelt die Textantwort der KI in natürlich klingende Sprache um.

┌─────────────────────────────────────────────────────────────────┐
│ TEXT-TO-SPEECH-PIPELINE │
└─────────────────────────────────────────────────────────────────┘

Textantwort ───▶ Textverarbeitung ───▶ Stimmsynthese ───▶ Audio-Ausgabe
│ │
│ │
▼ ▼
• Interpunktion • Ausgewählte Stimme
• Zahlen (80€) • Geschwindigkeits-
• Abkürzungen einstellung
• Emotion/Tonfall

Stimmoptionen:

  • Mehrere Sprachen
  • Männliche/weibliche Stimmen
  • Verschiedene Alter und Stile
  • Einstellbare Sprechgeschwindigkeit

Datenfluss

Welche Daten werden gespeichert?

┌─────────────────────────────────────────────────────────────────┐
│ DATENSPEICHERUNG │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ Konfiguration │ │ Anrufdaten │ │ Benutzerdaten │
│ │ │ │ │ │
│ • Prompts │ │ • Transkripte │ │ • Konten │
│ • Einstellungen│ │ • Aufnahmen │ │ • Workspaces │
│ • Wissen │ │ • Metadaten │ │ • Abrechnung │
│ • Agent-Tools │ │ • Analytics │ │ • Teams │
│ │ │ │ │ │
└─────────────────┘ └─────────────────┘ └─────────────────┘
│ │ │
└───────────────────────┴───────────────────────┘


┌─────────────────────┐
│ Sichere Datenbank │
│ (Verschlüsselt) │
└─────────────────────┘

Datenschutz

DatentypSpeicherungAufbewahrungZugriff
AnrufaufnahmenVerschlüsselter Cloud-SpeicherKonfigurierbarNur Workspace-Admins
TranskripteDatenbankKonfigurierbarWorkspace-Mitglieder
WissensdatenbankDatenbank + VektorspeicherBis zur LöschungWorkspace-Mitglieder
BenutzerkontenDatenbankBis zur KontolöschungBenutzer + Admins
AnalyticsAggregierte Datenbank12 MonateWorkspace-Mitglieder

Integrationspunkte

Telefon-Integration (Twilio)

┌─────────────────────────────────────────────────────────────────┐
│ TWILIO-INTEGRATION │
└─────────────────────────────────────────────────────────────────┘

Ihr Twilio-Konto Hanc.AI
│ │
│ 1. Telefonnummer kaufen │
│ 2. Konto über API-Keys verbinden │
│ 3. Webhook zu Hanc.AI konfigurieren │
│ │
▼ ▼
┌─────────────────┐ Eingehender Anruf ┌─────────────────┐
│ Telefonnummer │───────────────────▶ │ Sprachagent │
│ +43 1 234 5678 │ │ "Empfang" │
│ │◀─────────────────── │ │
└─────────────────┘ Audio-Stream └─────────────────┘

Kalender-Integration

┌─────────────────────────────────────────────────────────────────┐
│ KALENDER-INTEGRATION │
└─────────────────────────────────────────────────────────────────┘

Wenn Agent einen Termin buchen muss:

Agent: "Lassen Sie mich die Verfügbarkeit prüfen..."


┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ Hanc.AI Agent │───▶│ Kalender-API │───▶│ Google/Outlook │
│ │ │ │ │ Kalender │
│ Ist Dienstag │ │ GET /events │ │ │
│ 15 Uhr frei? │ │ POST /events │ │ ✓ Dienstag │
│ │◀───│ │◀───│ 15 Uhr frei │
└─────────────────┘ └─────────────────┘ └─────────────────┘


Agent: "Dienstag um 15 Uhr ist frei.
Soll ich das für Sie buchen?"

Webhook-Integration

┌─────────────────────────────────────────────────────────────────┐
│ WEBHOOK-EREIGNISSE │
└─────────────────────────────────────────────────────────────────┘

Wenn bestimmte Ereignisse eintreten, sendet Hanc.AI Daten an Ihre Systeme:

Ereignis: Anruf beendet


┌─────────────────┐ ┌─────────────────┐
│ Hanc.AI │ POST │ Ihr Server │
│ │────────▶│ │
│ { │ │ • CRM updaten │
│ "event": │ │ • E-Mail senden│
│ "call_ended",│ │ • Daten loggen │
│ "duration": │ │ • Workflow │
│ 165, │ │ auslösen │
│ "transcript":│ │ │
│ "..." │ │ │
│ } │ │ │
└─────────────────┘ └─────────────────┘

Leistungsmerkmale

Latenz-Aufschlüsselung

PhaseTypische LatenzBeschreibung
STT-Verarbeitung200-500msSprache in Text umwandeln
LLM-Verarbeitung500-1500msKI generiert Antwort
RAG-Abruf100-300msWissensdatenbank durchsuchen
TTS-Generierung200-400msText in Sprache umwandeln
Gesamt1-3 SekundenEnd-to-End-Antwortzeit

Skalierbarkeit

Die Plattform bewältigt:

  • Gleichzeitige Anrufe: Hunderte von simultanen Gesprächen
  • Wissensdatenbankgröße: Millionen von Dokumentabschnitten
  • Globale Verfügbarkeit: Multi-Region-Deployment

Sicherheitsarchitektur

┌─────────────────────────────────────────────────────────────────┐
│ SICHERHEITSSCHICHTEN │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│ Authentifizierungsschicht │
│ • Firebase Authentication │
│ • Session-Tokens (HttpOnly Cookies) │
│ • Telefonverifizierung │
└─────────────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────────────┐
│ Autorisierungsschicht │
│ • Workspace-basierte Zugriffskontrolle │
│ • Rollenbasierte Berechtigungen │
│ • API-Key-Scoping │
└─────────────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────────────┐
│ Datenschutzschicht │
│ • Verschlüsselung im Ruhezustand (AES-256) │
│ • Verschlüsselung bei Übertragung (TLS 1.3) │
│ • Datenisolierung zwischen Workspaces │
└─────────────────────────────────────────────────────────────────┘

Zusammenfassung

Die Hanc.AI-Plattform kombiniert mehrere Technologien:

  1. Sprachverarbeitung — Echtzeit Speech-to-Text und Text-to-Speech
  2. KI-Intelligenz — Large Language Models für Verständnis und Antwort
  3. Wissensabruf — RAG-System für geschäftsspezifische Informationen
  4. Telefonie — Telefonnummernverwaltung und Anrufweiterleitung
  5. Integrationen — Kalender, CRMs und benutzerdefinierte Webhooks

All dies arbeitet nahtlos zusammen, damit Sie sich auf die Konfiguration der Persönlichkeit und des Wissens Ihres Agenten konzentrieren können, während die Plattform die technische Komplexität übernimmt.


Nächste Schritte