콘텐츠로 이동

음성 에이전트 개요

Realtime Agents

음성 에이전트를 사용하면 OpenAI speech-to-speech 모델 위에서 저지연 음성 인터페이스를 구축할 수 있습니다. SDK 는 Realtime API 의 멘탈 모델은 그대로 유지하면서, 원시 이벤트 흐름을 RealtimeAgent, RealtimeSession, 그리고 전송 헬퍼로 감싸 도구, 가드레일, 핸드오프, 세션 기록을 더 쉽게 다룰 수 있게 합니다.

내부적으로는 공식 Realtime API with WebRTC, Realtime conversations, voice activity detection 가이드의 동일한 Realtime 개념이 그대로 적용됩니다. Voice Agents SDK 는 이 API 위에 TypeScript 우선 레이어를 추가하여, 전송 계층과 이벤트 처리를 처음부터 다시 구현하는 대신 제품 로직에 집중할 수 있게 합니다.

  • 임시 클라이언트 토큰을 사용하는 브라우저 우선 WebRTC 설정
  • 서버 측 WebSocket 및 SIP 전송 방식 옵션
  • 자동 인터럽션(중단 처리) 처리 및 로컬 대화 기록 업데이트
  • 실시간 핸드오프를 통한 멀티 에이전트 오케스트레이션
  • 함수 도구, 호스티드 MCP 도구, 승인, 위임 패턴
  • 실시간 음성 상호작용을 위한 출력 가드레일 및 트레이싱 지원
다음이 필요하다면…이동할 곳
WebRTC 와 임시 토큰으로 브라우저 클라이언트를 안전하게 연결하기빠른 시작
세션 수명 주기, VAD, 인터럽션(중단 처리), 이미지 입력, 도구, 기록 이해하기음성 에이전트 구축
WebRTC, WebSocket, SIP, 사용자 지정 전송 방식 중에서 결정하기전송 방식
Twilio 에서 전화 또는 텔레포니 환경 실행하기Twilio용 Realtime 에이전트
Cloudflare Workers 또는 기타 workerd 런타임에서 연결하기Cloudflare용 Realtime 에이전트

speech-to-speech 모델은 사용자 오디오를 직접 처리하므로, 매 턴마다 별도의 speech-to-text, 텍스트 추론, text-to-speech 체인을 구축할 필요가 없습니다. 이렇게 하면 지연 시간을 낮출 수 있고, 인터럽션(중단 처리), 텍스트와 음성이 섞인 입력, 도구 호출이 실시간 애플리케이션에서 훨씬 더 자연스럽게 느껴집니다.

Speech-to-speech model