콘텐츠로 이동

음성 에이전트 개요

Realtime Agents

Voice Agents는 OpenAI 음성-음성 모델을 사용해 실시간 음성 채팅을 제공합니다. 이 모델들은 오디오, 텍스트, 도구 호출의 스트리밍을 지원하며, 음성/전화 고객 지원, 모바일 앱 경험, 음성 채팅 같은 애플리케이션에 적합합니다.

Voice Agents SDK는 OpenAI Realtime API를 위한 TypeScript 클라이언트를 제공합니다.

  • WebSocket 또는 WebRTC 연결
  • 브라우저와 백엔드 연결 모두에서 사용 가능
  • 오디오 및 인터럽션(중단 처리) 처리
  • 핸드오프를 통한 멀티 에이전트 오케스트레이션
  • 도구 정의 및 호출
  • 모델 출력 모니터링을 위한 사용자 정의 가드레일
  • 스트리밍된 이벤트에 대한 콜백
  • 동일한 구성요소를 텍스트 및 음성 에이전트 모두에 재사용

음성-음성 모델을 사용하면, 모델이 동작한 뒤 텍스트를 다시 오디오로 전사 및 재변환할 필요 없이 모델의 실시간 오디오 처리 능력을 활용할 수 있습니다.

음성-음성 모델