Voice-Modelle ermöglichen Sprach-zu-Text (Transkription) und Text-zu-Sprache (Sprachausgabe) in VARIOS AI. Jedes Voice-Modell wird einem Modelltyp zugewiesen, der die verfügbaren Konfigurationsoptionen und Kostenfelder bestimmt.
Modelltypen
| Modelltyp | Beschreibung |
|---|
| Transkription | Wandelt gesprochene Sprache in Text um (Speech-to-Text). Beispiel: gpt-4o-mini-transcribe. |
| Sprache | Wandelt Text in gesprochene Sprache um (Text-to-Speech). Beispiel: gpt-4o-mini-tts. |
Grunddaten (beide Typen)
| Feld | Pflicht | Beschreibung |
|---|
| Bild / Titel | Ja | Anzeigename und optionales Profilbild des Modells. |
| Modellname | Ja | Technischer Modellname (z. B. gpt-4o-mini-transcribe). |
| Zugangsdaten | Ja | Hinterlegte Zugangsdaten für den gewählten Provider (Dropdown-Auswahl). |
| Modelltyp | Ja | Typ des Voice-Modells: Transkription oder Sprache (Dropdown-Auswahl). |
Kosten nach Modelltyp
Transkriptions-Modell Kosten
Transkriptionsmodelle verarbeiten Audio-Eingaben und erzeugen Text-Ausgaben.
| Feld | Pflicht | Beschreibung |
|---|
| Kosten in $ pro Millionen Text-Input-Token | Nein | Kosten für textbasierte Eingaben (z. B. Prompt). |
| Kosten in $ pro Millionen Text-Output-Token | Nein | Kosten für die generierte Text-Ausgabe (Transkription). |
| Kosten in $ pro Millionen Audio-Input-Token | Nein | Kosten für die Audio-Eingabe (gesprochene Sprache). |
Sprach-Modell Kosten
Sprachmodelle verarbeiten Text-Eingaben und erzeugen Audio-Ausgaben.
| Feld | Pflicht | Beschreibung |
|---|
| Kosten in $ pro Millionen Text-Input-Token | Nein | Kosten für die Text-Eingabe (zu sprechender Text). |
| Kosten in $ pro Millionen Audio-Output-Token | Nein | Kosten für die generierte Audio-Ausgabe (gesprochene Sprache). |
Die Token-Kosten für Voice-Modelle unterscheiden sich je nach Modelltyp.
Transkriptionsmodelle haben drei Kostenfelder (Text-Input, Text-Output,
Audio-Input), während Sprachmodelle nur zwei Kostenfelder benötigen
(Text-Input, Audio-Output).
Voice-Modelle verfügen nicht über DLP-Sicherheitseinstellungen, da die
Datenverarbeitung über die zugehörigen Chat- und Embedding-Modelle abgesichert wird.