Zum Hauptinhalt springen
Voice-Modelle ermöglichen Sprach-zu-Text (Transkription) und Text-zu-Sprache (Sprachausgabe) in VARIOS AI. Jedes Voice-Modell wird einem Modelltyp zugewiesen, der die verfügbaren Konfigurationsoptionen und Kostenfelder bestimmt.

Modelltypen

ModelltypBeschreibung
TranskriptionWandelt gesprochene Sprache in Text um (Speech-to-Text). Beispiel: gpt-4o-mini-transcribe.
SpracheWandelt Text in gesprochene Sprache um (Text-to-Speech). Beispiel: gpt-4o-mini-tts.

Grunddaten (beide Typen)

FeldPflichtBeschreibung
Bild / TitelJaAnzeigename und optionales Profilbild des Modells.
ModellnameJaTechnischer Modellname (z. B. gpt-4o-mini-transcribe).
ZugangsdatenJaHinterlegte Zugangsdaten für den gewählten Provider (Dropdown-Auswahl).
ModelltypJaTyp des Voice-Modells: Transkription oder Sprache (Dropdown-Auswahl).

Kosten nach Modelltyp

Transkriptions-Modell Kosten

Transkriptionsmodelle verarbeiten Audio-Eingaben und erzeugen Text-Ausgaben.
FeldPflichtBeschreibung
Kosten in $ pro Millionen Text-Input-TokenNeinKosten für textbasierte Eingaben (z. B. Prompt).
Kosten in $ pro Millionen Text-Output-TokenNeinKosten für die generierte Text-Ausgabe (Transkription).
Kosten in $ pro Millionen Audio-Input-TokenNeinKosten für die Audio-Eingabe (gesprochene Sprache).

Sprach-Modell Kosten

Sprachmodelle verarbeiten Text-Eingaben und erzeugen Audio-Ausgaben.
FeldPflichtBeschreibung
Kosten in $ pro Millionen Text-Input-TokenNeinKosten für die Text-Eingabe (zu sprechender Text).
Kosten in $ pro Millionen Audio-Output-TokenNeinKosten für die generierte Audio-Ausgabe (gesprochene Sprache).
Die Token-Kosten für Voice-Modelle unterscheiden sich je nach Modelltyp. Transkriptionsmodelle haben drei Kostenfelder (Text-Input, Text-Output, Audio-Input), während Sprachmodelle nur zwei Kostenfelder benötigen (Text-Input, Audio-Output).
Voice-Modelle verfügen nicht über DLP-Sicherheitseinstellungen, da die Datenverarbeitung über die zugehörigen Chat- und Embedding-Modelle abgesichert wird.