Skip to main content

transcription_session.updated

サーバーがtranscription_session.updateイベントを受け取り、Sessionの設定が成功したことを通知するイベント。

このイベント以降、サーバーは input_audio_buffer.append など他のClient Eventを受付可能になる。

event_idstringrequired

サーバー側でユニークなイベント特定用のID

typestringrequired

固定値

Possible values: [transcription_session.updated]

session object

Realtime APIのSessionのメタデータ(音声データの形式や言語など)

input_audio_formatstring

音声データの形式。 全ての形式で、1ch(モノラル)である必要がある。

例えば、pcm16の場合、16-bit PCMの音声データ。

twilioの場合、Twilio Media Streams APIの音声データの形式をそのまま利用可能。

Possible values: [pcm16, float32, twilio]

Default value: pcm16
input_audio_sample_rateinteger

入力音声のサンプリングレート

Default value: 24000
input_audio_number_of_channelsinteger

入力音声のチャンネル数

Default value: 1
input_audio_transcription objectrequired

音声データの文字起こしに関する設定。

languagestringnullable

音声データの言語をISO-639-1形式で指定。

省略可能だが、指定することで書き起こし精度やレイテンシが向上する場合がある。

Possible values: [en, ja]

target_languagestringrequired

書き起こし結果の言語をISO-639-1形式で指定。

Possible values: [en, ja]

turn_detectionboolean

ターン検出の有無。falseの場合はconversation.item.input_audio_transcription.completedイベントは送信されません。

Default value: false
objectstring

固定値

Possible values: [realtime.transcription_session]

transcription_session.updated
{
"event_id": "string",
"type": "transcription_session.updated",
"session": {
"input_audio_format": "pcm16",
"input_audio_sample_rate": 24000,
"input_audio_number_of_channels": 1,
"input_audio_transcription": {
"language": "en",
"target_language": "en"
},
"turn_detection": false,
"object": "realtime.transcription_session"
}
}