Zum Hauptinhalt springen

Grundkonzepte

Bevor Sie in die Plattform eintauchen, ist es wichtig, die grundlegenden Konzepte zu verstehen, die Hanc.AI antreiben. Dieser Abschnitt erklärt alles von grundlegenden KI-Prinzipien bis hin zu spezifischer Plattform-Terminologie.

Was ist Künstliche Intelligenz (KI)?

Künstliche Intelligenz ist Computersoftware, die Aufgaben ausführen kann, die typischerweise menschliche Intelligenz erfordern. Im Gegensatz zu traditioneller Software, die exakten Regeln folgt, kann KI:

  • Natürliche Sprache verstehen — menschliche Sprache und Text erfassen
  • Muster lernen — sich basierend auf Daten und Beispielen verbessern
  • Entscheidungen treffen — basierend auf dem Kontext angemessene Antworten wählen
  • Inhalte generieren — menschenähnlichen Text, Sprache oder andere Ausgaben erstellen

KI in einfachen Worten

Stellen Sie sich KI als ein sehr ausgeklügeltes Mustererkennungssystem vor:

Traditionelle Software:
WENN Kunde sagt "hallo" DANN antworte "Hallo, wie kann ich helfen?"
WENN Kunde sagt "hi" DANN antworte "Hallo, wie kann ich helfen?"
WENN Kunde sagt "hey" DANN antworte "Hallo, wie kann ich helfen?"
... (benötigt eine Regel für jede mögliche Eingabe)

KI-gestützte Software:
VERSTEHE dass "hallo", "hi", "hey", "guten morgen", "servus"
alle eine Begrüßung bedeuten → antworte entsprechend basierend auf dem Kontext

KI benötigt keine expliziten Regeln für jede Situation — sie versteht Absicht und Kontext.


Was ist ein Sprachagent?

Ein Sprachagent (auch Sprachassistent oder Voice Bot genannt) ist ein KI-gestütztes Programm, das mit Menschen durch gesprochene Konversation kommuniziert.

Wie Sprachagenten funktionieren

┌─────────────────────────────────────────────────────────────────┐
│ SPRACHAGENTEN-PIPELINE │
└─────────────────────────────────────────────────────────────────┘

Kunde spricht KI verarbeitet Agent antwortet
│ │ │
▼ ▼ ▼
┌───────────┐ ┌───────────┐ ┌───────────┐ ┌───────────┐
│ Sprach- │───▶│ Sprache │───▶│ KI │───▶│ Text zu │
│ eingabe │ │ zu Text │ │ Gehirn │ │ Sprache │
│ │ │ (STT) │ │ (LLM) │ │ (TTS) │
└───────────┘ └───────────┘ └───────────┘ └───────────┘


┌───────────────────┐
│ Wissensdatenbank │
│ (Ihre Geschäfts- │
│ informationen) │
└───────────────────┘

Schritt für Schritt:

  1. Kunde spricht — "Wann schließen Sie samstags?"
  2. Speech-to-Text (STT) — Wandelt Audio in Text um
  3. KI-Gehirn (LLM) — Versteht die Frage, durchsucht die Wissensdatenbank
  4. Wissensdatenbank — Enthält Ihre Öffnungszeiten: "Samstag: 10-18 Uhr"
  5. KI generiert Antwort — "Samstags sind wir von 10 bis 18 Uhr geöffnet"
  6. Text-to-Speech (TTS) — Wandelt Text zurück in natürlich klingende Sprache
  7. Kunde hört — Natürliche Sprachantwort

Sprachagent vs. Chatbot

MerkmalSprachagentChatbot
KommunikationGesprochene StimmeGeschriebener Text
KanalTelefonanrufe, Sprach-WidgetsWebsite-Chat, Messaging-Apps
InteraktionEchtzeit-KonversationKann asynchron sein
KomplexitätHöher (Sprachverarbeitung)Niedriger
AnwendungsfälleTelefon-Support, TermineWebsite-Support, FAQ

Hanc.AI ist spezialisiert auf Sprachagenten — KI, die echte Telefongespräche führt.


Large Language Models (LLM)

Das "Gehirn" eines Sprachagenten ist ein Large Language Model (LLM). Dies ist die KI-Technologie, die:

  • Versteht, was Kunden sagen
  • Angemessene Antworten formuliert
  • Den Konversationskontext aufrechterhält
  • Ihren Anweisungen (dem "Prompt") folgt

Beliebte LLMs

AnbieterModelleEigenschaften
OpenAIGPT-4, GPT-4o, GPT-4o-miniBranchenstandard, ausgezeichnete Gesamtleistung
AnthropicClaude 3.5 Sonnet, Claude 3 OpusStarkes Reasoning, sicherheitsfokussiert
GoogleGemini Pro, Gemini FlashSchnell, gute mehrsprachige Unterstützung
MetaLlama 3Open-Source-Alternative

Hanc.AI unterstützt mehrere LLM-Anbieter, sodass Sie die beste Lösung für Ihre Bedürfnisse wählen können.

Wie LLMs "denken"

LLMs denken nicht wirklich — sie sagen die wahrscheinlichsten nächsten Wörter vorher, basierend auf:

  1. Trainingsdaten — Milliarden von Textbeispielen aus dem Internet
  2. Ihrem Prompt — Anweisungen, die Sie über das Verhalten geben
  3. Wissensdatenbank — Ihre spezifischen Geschäftsinformationen
  4. Konversationsverlauf — Was zuvor im Gespräch gesagt wurde
                 ┌────────────────────────────┐
│ LLM-Entscheidung │
└────────────────────────────┘

┌─────────────────────┼─────────────────────┐
│ │ │
▼ ▼ ▼
┌───────────────┐ ┌───────────────┐ ┌───────────────┐
│ Ihr Prompt │ │ Wissens- │ │ Konversations-│
│ (Verhalten) │ │ datenbank │ │ kontext │
│ │ │ (Fakten) │ │ (Verlauf) │
└───────────────┘ └───────────────┘ └───────────────┘

Wissensdatenbank (RAG)

Eine Wissensdatenbank ist eine Sammlung von Dokumenten mit Informationen über Ihr Unternehmen. Die KI nutzt diese Informationen, um Kundenfragen präzise zu beantworten.

Was ist RAG?

RAG steht für Retrieval-Augmented Generation:

  • Retrieval — Auffinden relevanter Informationen aus Ihren Dokumenten
  • Augmented — Hinzufügen dieser Informationen zum KI-Kontext
  • Generation — Erstellen einer Antwort unter Verwendung dieser Informationen

Warum RAG wichtig ist

Ohne RAG kennt die KI nur allgemeine Informationen aus ihrem Training. Sie weiß nicht:

  • Ihre spezifischen Dienstleistungen und Preise
  • Ihre Öffnungszeiten
  • Ihre Richtlinien
  • Ihre Teammitglieder
  • Alles, was für Ihr Unternehmen einzigartig ist

Mit RAG:

Kunde: "Was kostet ein Haarschnitt?"
KI: [Durchsucht Wissensdatenbank] → Gefunden: "Herrenhaarschnitt: 25€, Damenhaarschnitt: 35€"
KI: "Ein Herrenhaarschnitt kostet 25€ und ein Damenhaarschnitt 35€."

Ohne RAG:

Kunde: "Was kostet ein Haarschnitt?"
KI: "Ich habe keine Informationen über Ihre spezifischen Preise.
Im Allgemeinen liegen Haarschnitte zwischen 15€ und 50€..."

Inhalte der Wissensdatenbank

Ihre Wissensdatenbank sollte enthalten:

KategorieBeispiele
Dienstleistungen/ProdukteBeschreibungen, Preise, Dauer
GeschäftsinfoÖffnungszeiten, Standort, Kontaktdaten
RichtlinienStornierung, Rückerstattung, Buchungsregeln
FAQHäufige Fragen und Antworten
PersonalTeammitglieder, Spezialisierungen
AktionenAktuelle Angebote, Rabatte

Der Prompt

Ein Prompt ist eine Reihe von Anweisungen, die der KI mitteilen, wie sie sich verhalten soll. Es ist wie einem Mitarbeiter seine Stellenbeschreibung und Richtlinien zu geben.

Prompt-Komponenten

┌─────────────────────────────────────────────────────────────────┐
│ AGENTEN-PROMPT │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ROLLE │
│ "Du bist Sophie, eine virtuelle Assistentin für ABC Zahnarzt" │
│ │
│ ZIELE │
│ - Fragen zu Dienstleistungen beantworten │
│ - Termine buchen │
│ - Praxisinformationen bereitstellen │
│ │
│ REGELN │
│ - Nur Informationen aus der Wissensdatenbank verwenden │
│ - Niemals Informationen erfinden │
│ - Höflich und professionell sein │
│ - Bei verärgerten Kunden an Menschen weiterleiten │
│ │
│ PERSÖNLICHKEIT │
│ - Freundlich aber professionell │
│ - In kurzen, klaren Sätzen sprechen │
│ - Den Namen des Kunden verwenden, wenn bekannt │
│ │
└─────────────────────────────────────────────────────────────────┘

Prompt Best Practices

TunVermeiden
Spezifisch und klar seinVage Anweisungen verwenden
Grenzen definierenVerhalten undefiniert lassen
Beispiele einschließenAnnehmen, dass KI den Kontext versteht
Eskalationsregeln festlegenKI alles alleine handhaben lassen
Sprache und Ton spezifizierenKommunikationsstil vergessen

Sprachtechnologien

Speech-to-Text (STT)

Wandelt gesprochene Worte in geschriebenen Text um. Wird auch genannt:

  • Automatic Speech Recognition (ASR)
  • Spracherkennung
  • Transkription

Qualitätsfaktoren:

  • Akzent-Handling
  • Hintergrundgeräusch-Resistenz
  • Erkennung von Fachvokabular
  • Echtzeit- vs. Batch-Verarbeitung

Text-to-Speech (TTS)

Wandelt geschriebenen Text in gesprochene Worte um. Modernes TTS klingt natürlich, mit:

  • Mehreren Stimmoptionen (männlich, weiblich, verschiedene Alter)
  • Emotion und Intonation
  • Mehreren Sprachen
  • Einstellbarer Geschwindigkeit

Überlegungen zur Stimmauswahl:

  • Passend zu Ihrer Marke (professionell, freundlich, energisch)
  • Sprach- und Akzentanforderungen
  • Kundendemografie

Echtzeit-Kommunikation (WebRTC)

WebRTC (Web Real-Time Communication) ist die Technologie, die ermöglicht:

  • Browser-basierte Sprachanrufe
  • Audio-Streaming mit niedriger Latenz
  • Keine Plugins erforderlich

Hanc.AI nutzt LiveKit — eine WebRTC-Plattform — für:

  • Sprach-Widget auf Ihrer Website
  • Testanrufe im Dashboard
  • Echtzeit-Audioverarbeitung

Wichtige Plattformbegriffe

BegriffDefinition
AgentEin konfigurierter KI-Sprachassistent
WorkspaceEin Container für Agenten, gehört zu einer Organisation
KundeEine Organisation, die die Plattform nutzt (Ihr Unternehmen)
Call LogAufzeichnung einer Konversation zwischen Agent und Anrufer
ToolEine Aktion, die der Agent ausführen kann (Termin buchen, Anruf weiterleiten)
ActionEine spezifische Fähigkeit, die für einen Agenten aktiviert ist
First MessageDie Begrüßung, die der Agent beim Antworten sagt
FallbackWas passiert, wenn der Agent nicht helfen kann (Weiterleitung an Menschen)
EskalationWeiterleitung eines Anrufs an einen menschlichen Operator

Nächste Schritte

Jetzt, da Sie die Grundkonzepte verstehen:

  1. Wie es funktioniert — Technische Architekturübersicht
  2. Kontoeinrichtung — Erstellen Sie Ihr Konto
  3. Ihr erster Agent — Bauen Sie Ihren ersten Sprachagenten

Zusammenfassung

KonzeptKernpunkt
KISoftware, die menschenähnliche Antworten versteht und generiert
SprachagentKI, die durch gesprochene Konversation kommuniziert
LLMDas "Gehirn", das Sprache verarbeitet und Antworten generiert
WissensdatenbankIhre Geschäftsinformationen, die die KI zur Beantwortung von Fragen nutzt
RAGTechnologie, die relevante Infos aus Ihren Dokumenten abruft
PromptAnweisungen, die das Verhalten des Agenten definieren
STT/TTSTechnologien zur Umwandlung zwischen Sprache und Text

Das Verständnis dieser Konzepte wird Ihnen helfen, effektivere Sprachagenten zu konfigurieren und Probleme zu beheben, wenn sie auftreten.