用户指南 · 10
语音交互
10.1 语音输入(聊天框)
- 单击麦克风按钮开始录音
- 再次单击停止 → 自动转写为文字填入输入框
- 录音中按 Esc 取消(不发送)
- 不绑任何全局开始快捷键(避免破坏无障碍焦点导航)
- 转写依赖
STT_API_KEY(默认走 OpenAI Whisper)
10.2 实时语音对话(S2S WebSocket)
- 通过 WebSocket 直连 OpenAI Realtime API
- 支持双向流式语音(说→AI 听→AI 实时说回来)
- 工具调用透传 + 后端工具执行
- API Key 通过
S2S_API_KEY/S2S_BASE_URL覆盖
⚠️ 当前 React 前端的实时语音 UI 仍在迭代中。可通过
/api/voice/wsWebSocket 端点用第三方客户端测试。