transcription_session.updated
サーバーがtranscription_session.updateイベントを受け取り、Sessionの設定が成功したことを通知するイベント。
このイベント以降、サーバーは input_audio_buffer.append など他のClient Eventを受付可能になる。
event_idstringrequired
サーバー側でユニークなイベント特定用のID
typestringrequired
固定値
Possible values: [transcription_session.updated]
session object
Realtime APIのSessionのメタデータ(音声データの形式や言語など)
input_audio_formatstring
音声データの形式。 全ての形式で、1ch(モノラル)である必要がある。
例えば、pcm16の場合、16-bit PCMの音声データ。
twilioの場合、Twilio Media Streams APIの音声データの形式をそのまま利用可能。
Possible values: [pcm16, float32, twilio]
Default value:
pcm16input_audio_sample_rateinteger
入力音声のサンプリングレート
Default value:
24000input_audio_number_of_channelsinteger
入力音声のチャンネル数
Default value:
1input_audio_transcription objectrequired
音声データの文字起こしに関する設定。
languagestringnullable
音声データの言語をISO-639-1形式で指定。
省略可能だが、指定することで書き起こし精度やレイテンシが向上する場合がある。
Possible values: [en, ja]
turn_detectionboolean
ターン検出の有無。falseの場合はconversation.item.input_audio_transcription.completedイベントは送信されません。
Default value:
falseobjectstring
固定値
Possible values: [realtime.transcription_session]
transcription_session.updated
{
"event_id": "string",
"type": "transcription_session.updated",
"session": {
"input_audio_format": "pcm16",
"input_audio_sample_rate": 24000,
"input_audio_number_of_channels": 1,
"input_audio_transcription": {
"language": "en",
"target_language": "en"
},
"turn_detection": false,
"object": "realtime.transcription_session"
}
}