Kategorien:

Dateifunktionen (AI-Funktionen)

AI_TRANSCRIBE

Transkribiert Text aus einer Audiodatei mit optionalen Zeitstempeln und Sprecherkennzeichnungen. AI_TRANSCRIBE unterstützt zahlreiche Sprachen, und Audiodaten können mehr als eine Sprache enthalten. Zeitstempel und Sprecherkennzeichnungen werden basierend auf der angegebenen Granularität des Zeitstempels extrahiert, wie in der folgenden Tabelle dargestellt.

Granularität des Zeitstempels

Ergebnis

Standard

Transkription der gesamten Datei in einem Stück

Wort

Transkript mit Zeitstempeln für jedes Wort

Sprecher

Zeigt bei jedem Sprecherwechsel den Sprecher und einen Zeitstempel an

Syntax

AI_TRANSCRIBE( <audio_file> [ , <options> ] )
Copy

Argumente

Benötigt:

audio_file

Ein FILE-Typobjekt, das eine Audiodatei repräsentiert. Verwenden Sie die TO_FILE-Funktion, um einen Verweis auf Ihre Stagingdatei zu erstellen.

Optional:

options

Ein OBJECT-Wert, der null oder mehr der folgenden Felder enthält.

  • timestamp_granularity: Eine Zeichenfolge, die die gewünschte Granularität des Zeitstempels angibt. Mögliche Werte sind:

    • "word": Die Datei wird als eine Abfolge von Wörtern transkribiert, jedes mit seinem eigenen Zeitstempel.

    • "speaker": Die Datei wird als eine Reihe von Konversations-„Turns“ transkribiert, jeweils mit einem eigenen Zeitstempel und einer eigenen Sprecherkennzeichnung.

    Wenn dieses Feld nicht angegeben ist, wird die gesamte Datei standardmäßig als ein einziges Segment ohne Zeitstempel transkribiert.

Rückgabewerte

Eine Zeichenfolge, die eine JSON-Darstellung des Transkriptionsergebnisses enthält. Das JSON-Objekt enthält die folgenden Felder:

  • "audio_duration": Die Gesamtdauer der Audiodatei in Sekunden.

  • "text": Die Transkription der vollständigen Audiodatei, die bereitgestellt wird, wenn das timestamp_granularity-Feld nicht angegeben ist.

  • "segments": Ein Array von Segmenten, das bereitgestellt wird, wenn das timestamp_granularity-Feld auf "word" oder "speaker" gesetzt ist. Jedes Segment ist ein JSON-Objekt mit den folgenden Feldern:

    • "start": Die Startzeit des Segments in Sekunden.

    • "end": Die Endzeit des Segments in Sekunden.

    • "text": Der Transkriptionstext für das Segment.

    • "speaker_label": Die Bezeichnung des Sprechers für das Segment, die angegeben wird, wenn das timestamp_granularity-Feld auf speaker gesetzt ist. Die Bezeichnungen haben die Form „SPEAKER_00“, „SPEAKER_01“ usw. und werden in der Reihenfolge zugewiesen, in der die Sprecher in der Audiodatei erkannt werden.

Anforderungen an die Zugriffssteuerung

Benutzer müssen eine Rolle verwenden, der die Datenbankrolle SNOWFLAKE.CORTEX_USER zugewiesen wurde: Weitere Informationen zu dieser Rolle finden Sie unter Erforderliche Berechtigungen.

Nutzungshinweise

  • AI_TRANSCRIBE unterstützt die folgenden Sprachen:

    • Arabisch

    • Bulgarisch

    • Kantonesisch

    • Katalanisch

    • Chinesisch

    • Tschechisch

    • Holländisch

    • Englisch

    • Französisch

    • Deutsch

    • Griechisch

    • Ungarisch

    • Indonesisch

    • Italienisch

    • Japanisch

    • Koreanisch

    • Lettisch

    • Polnisch

    • Portugiesisch

    • Rumänisch

    • Russisch

    • Serbisch

    • Slowenisch

    • Spanisch

    • Schwedisch

    • Thailändisch

    • Türkisch

    • Ukrainisch

    Unterstützte Sprachen werden automatisch erkannt. Für eine genaue Spracherkennung muss das Audio innerhalb der ersten fünf Sekunden der Datei beginnen.

  • Die folgenden Audioformate werden unterstützt. Faktoren wie Beispielrate, Bittiefe und Anzahl der Kanäle wirken sich nicht auf die Transkription aus, obwohl diese Faktoren bei verlustlosen und/oder unkomprimierten Formaten dazu führen können, dass die Datei zu groß für die Verarbeitung wird. Intern verwendet AI_TRANSCRIBE monophones Audio bei 16 KHzund konvertiert die Eingabedateien bei Bedarf in dieses Format.

    • FLAC

    • MP3

    • Ogg

    • WAV

    • WebM

  • Die maximale Größe einer Audiodatei beträgt 700 MB.

  • Die maximale Dauer der Audiodatei beträgt 60 Minuten, wenn die Granularität des Zeitstempels auf „Wort“ oder „Sprecher“ eingestellt ist. Wenn keine Granularität des Zeitstempels verwendet wird, beträgt die maximale Dauer 120 Minuten.

Beispiele

Weitere Beispiele finden Sie unter AI-Audiobeispiele.

Problembehandlung

Wenn die Funktion fehlschlägt, gibt sie eine Fehlerantwort zurück. Häufige Fehlermeldungen sind:

Fehlermeldung

Situation und Lösung

Ungültiges Optionsobjekt

Die für das timestamp_granularity-Feld vorgesehene Option , falls bereitgestellt, muss „Wort“ oder „Sprecher“ sein.

Keine Antwort vom Server

Die Datei kann nicht abgerufen werden, möglicherweise, weil es sich um eine abgelaufene Bereichs-URL handelt.

Datei zu groß. Die maximale Größe beträgt 734.003.200 Bytes, die Datei überschreitet dieses Limit.

Die bereitgestellte Audiodatei überschreitet die maximale Dateigröße.

Ungültiges Dateiformat. Es werden nur [‚flac‘, ‚mp3‘, ‚ogg‘, ‚wav‘, ‚webm‘]-Dateien unterstützt, oder die WebM-Datei enthält keinen Audiostream.

Die Datei gehört nicht zu den unterstützten Formaten, die in der Fehlermeldung aufgeführt sind. WebM-Dateien unterstützen mehrere Medientypen, stellen Sie also sicher, dass die Datei einen Stream enthält. Wenn die Datei in einem unterstützten Format vorliegt, vergewissern Sie sich, dass sie nicht beschädigt ist.

Nach dem Resampling auf 16.000 Hertz wird die Datei zu groß sein. Die voraussichtliche Größe beträgt 3.355.444.448.000,0 Bytes.

Die bereitgestellte Audiodatei ist nach dem Resampling auf 16 KHz zu groß. Wenn die bereitgestellte Audiodatei eine niedrigere Sampling-Rate hat, ist sie nach dem Resampling größer als die ursprüngliche Datei und könnte potenziell die maximal zulässige Dateigröße überschreiten.

Audiodauer zu lang: 6.052,10 Sekunden. Maximal zulässig: 3.600 Sekunden. Oder Audiodauer zu lang: 7.335,28 Sekunden Maximal zulässig: 7.200 Sekunden.

Die bereitgestellte Audiodatei ist zu lang. Wenn Sie die Granularität des Zeitstempels verwenden, beträgt die maximale Dauer 60 Minuten (3.600 Sekunden).

Nicht unterstützte erkannte Sprache

Die Datei enthält eine Sprache, die nicht von AI_TRANSCRIBE unterstützt wird.

Regionale Verfügbarkeit

AI_TRANSCRIBE ist in den folgenden Regionen verfügbar:

  • AWS US West 2 (Oregon)

  • AWSUS East 1 (N. Virginia)

  • AWS EU Central 1 (Frankfurt)

  • East US 2 (Virginia)

Einschränkungen

Snowflake Cortex-Funktionen unterstützen keine dynamischen Tabellen.