用户指南 · 10

语音交互

10.1 语音输入(聊天框)

  • 单击麦克风按钮开始录音
  • 再次单击停止 → 自动转写为文字填入输入框
  • 录音中按 Esc 取消(不发送)
  • 不绑任何全局开始快捷键(避免破坏无障碍焦点导航)
  • 转写依赖 STT_API_KEY(默认走 OpenAI Whisper)

10.2 实时语音对话(S2S WebSocket)

  • 通过 WebSocket 直连 OpenAI Realtime API
  • 支持双向流式语音(说→AI 听→AI 实时说回来)
  • 工具调用透传 + 后端工具执行
  • API Key 通过 S2S_API_KEY / S2S_BASE_URL 覆盖

⚠️ 当前 React 前端的实时语音 UI 仍在迭代中。可通过 /api/voice/ws WebSocket 端点用第三方客户端测试。