콘텐츠로 이동

음성 에이전트 개요

실시간 에이전트

음성 에이전트를 사용하면 OpenAI speech-to-speech 모델 위에 지연 시간이 짧은 음성 인터페이스를 구축할 수 있습니다. SDK는 Realtime API의 사고 모델을 그대로 유지하면서, 원문 이벤트 흐름을 RealtimeAgent, RealtimeSession, 전송 헬퍼로 감싸 도구, 가드레일, 핸드오프, 세션 기록을 더 쉽게 다룰 수 있게 합니다.

내부적으로는 공식 WebRTC 기반 Realtime API, Realtime 대화, 음성 활동 감지 가이드의 동일한 Realtime 개념이 계속 적용됩니다. Voice Agents SDK는 이 API 위에 TypeScript 우선 계층을 추가하므로, 전송 방식과 이벤트 처리를 처음부터 다시 만들지 않고 제품 로직에 집중할 수 있습니다.

  • 임시 클라이언트 토큰을 사용하는 브라우저 우선 WebRTC 설정
  • 서버 측 WebSocket 및 SIP 전송 옵션
  • 자동 인터럽션(중단 처리) 및 로컬 대화 기록 업데이트
  • Realtime 핸드오프를 통한 멀티 에이전트 오케스트레이션
  • 함수 도구, 호스티드 MCP 도구, 승인, 위임 패턴
  • 실시간 음성 상호작용을 위한 출력 가드레일 및 트레이싱 지원
필요한 작업이동할 위치
WebRTC와 임시 토큰으로 브라우저 클라이언트를 안전하게 연결빠른 시작
세션 수명 주기, VAD, 인터럽션(중단 처리), 이미지 입력, 도구, 기록 이해음성 에이전트 구축
WebRTC, WebSocket, SIP, 사용자 지정 전송 방식 중 선택전송 방식
Twilio에서 전화 또는 텔레포니 경험 실행Twilio용 Realtime 에이전트
Cloudflare Workers 또는 기타 workerd 런타임에서 연결Cloudflare용 Realtime 에이전트

speech-to-speech 모델은 사용자 오디오를 직접 처리하므로, 매 턴마다 별도의 speech-to-text, 텍스트 추론, text-to-speech 체인을 구축할 필요가 없습니다. 이를 통해 지연 시간을 낮게 유지하고, 실시간 애플리케이션에서 인터럽션(중단 처리), 텍스트와 음성 입력의 혼합, 도구 호출이 훨씬 더 자연스럽게 느껴지도록 할 수 있습니다.

Speech-to-speech 모델