transcription_session.update

Realtime APIの通信成功後、音声を送信する前に必ずサーバーへ送るイベント。このSession中で扱うメタデータ（音声データの形式や言語など）を設定する。

現在準備中の機能

Session途中のメタデータ変更はできません。現状は変更には新たに通信を作成していただく必要があります。
同一言語の書き起こし language = target_language のみサポートしています。
turn_detection=true は現在準備中です。

typestringrequired

固定値

Possible values: [transcription_session.update]

session objectrequired

Realtime APIのSessionのメタデータ（音声データの形式や言語など）

input_audio_formatstring

音声データの形式。全ての形式で、1ch(モノラル)である必要がある。

例えば、pcm16の場合、16-bit PCMの音声データ。

twilioの場合、Twilio Media Streams APIの音声データの形式をそのまま利用可能。

Possible values: [pcm16, float32, twilio]

Default value: pcm16

input_audio_sample_rateinteger

入力音声のサンプリングレート

Default value: 24000

input_audio_number_of_channelsinteger

入力音声のチャンネル数

Default value: 1

input_audio_transcription objectrequired

音声データの文字起こしに関する設定。

languagestringnullable

音声データの言語をISO-639-1形式で指定。

省略可能だが、指定することで書き起こし精度やレイテンシが向上する場合がある。

Possible values: [en, ja]

target_languagestringrequired

書き起こし結果の言語をISO-639-1形式で指定。

Possible values: [en, ja]

turn_detectionboolean

ターン検出の有無。falseの場合はconversation.item.input_audio_transcription.completedイベントは送信されません。

Default value: false

transcription_session.update
{
  "type": "transcription_session.update",
  "session": {
    "input_audio_format": "pcm16",
    "input_audio_sample_rate": 24000,
    "input_audio_number_of_channels": 1,
    "input_audio_transcription": {
      "language": "en",
      "target_language": "en"
    },
    "turn_detection": false
  }
}