transcription_session.update
Realtime APIの通信成功後、音声を送信する前に必ずサーバーへ送るイベント。 このSession中で扱うメタデータ(音声データの形式や言語など)を設定する。
現在準備中の機能
- Session途中のメタデータ変更はできません。現状は変更には新たに通信を作成していただく必要があります。
- 同一言語の書き起こし
language = target_languageのみサポートしています。 turn_detection=trueは現在準備中です。
typestringrequired
固定値
Possible values: [transcription_session.update]
session objectrequired
Realtime APIのSessionのメタデータ(音声データの形式や言語など)
input_audio_formatstring
音声データの形式。 全ての形式で、1ch(モノラル)である必要がある。
例えば、pcm16の場合、16-bit PCMの音声データ。
twilioの場合、Twilio Media Streams APIの音声データの形式をそのまま利用可能。
Possible values: [pcm16, float32, twilio]
Default value:
pcm16input_audio_sample_rateinteger
入力音声のサンプリングレート
Default value:
24000input_audio_number_of_channelsinteger
入力音声のチャンネル数
Default value:
1input_audio_transcription objectrequired
音声データの文字起こしに関する設定。
languagestringnullable
音声データの言語をISO-639-1形式で指定。
省略可能だが、指定することで書き起こし精度やレイテンシが向上する場合がある。
Possible values: [en, ja]
turn_detectionboolean
ターン検出の有無。falseの場合はconversation.item.input_audio_transcription.completedイベントは送信されません。
Default value:
falsetranscription_session.update
{
"type": "transcription_session.update",
"session": {
"input_audio_format": "pcm16",
"input_audio_sample_rate": 24000,
"input_audio_number_of_channels": 1,
"input_audio_transcription": {
"language": "en",
"target_language": "en"
},
"turn_detection": false
}
}