콘텐츠로 이동

음성 에이전트 개요

실시간 에이전트

음성 에이전트를 사용하면 OpenAI speech-to-speech 모델 위에서 저지연 음성 인터페이스를 구축할 수 있습니다. SDK는 Realtime API의 멘탈 모델은 그대로 유지하면서, 원문 이벤트 흐름을 RealtimeAgent, RealtimeSession, 전송 헬퍼로 감싸 도구, 가드레일, 핸드오프, 세션 기록을 더 쉽게 다룰 수 있게 해줍니다.

내부적으로는 공식 가이드인 Realtime API with WebRTC, Realtime conversations, voice activity detection의 동일한 Realtime 개념이 그대로 적용됩니다. 음성 에이전트 SDK는 이 API 위에 TypeScript 우선 계층을 추가해, 전송 및 이벤트 처리를 처음부터 다시 구현하는 대신 제품 로직에 집중할 수 있게 합니다.

  • 임시 클라이언트 토큰을 사용하는 브라우저 우선 WebRTC 설정
  • 서버 측 WebSocket 및 SIP 전송 옵션
  • 자동 인터럽션(중단 처리) 처리 및 로컬 대화 기록 자동 업데이트
  • 실시간 핸드오프를 통한 다중 에이전트 오케스트레이션
  • 함수 도구, 호스티드 MCP 도구, 승인 및 위임 패턴
  • 실시간 음성 상호작용을 위한 출력 가드레일 및 트레이싱 지원
다음이 필요하다면…이동할 곳
WebRTC와 임시 토큰으로 브라우저 클라이언트를 안전하게 연결빠른 시작
세션 수명 주기, VAD, 인터럽션(중단 처리), 이미지 입력, 도구, 기록 이해음성 에이전트 구축
WebRTC, WebSocket, SIP, 커스텀 전송 중 선택전송 방식
Twilio에서 전화/텔레포니 경험 실행Twilio용 Realtime 에이전트
Cloudflare Workers 또는 다른 workerd 런타임에서 연결Cloudflare용 Realtime 에이전트

speech-to-speech 모델은 사용자 오디오를 직접 처리하므로, 매 턴마다 별도의 speech-to-text, 텍스트 추론, text-to-speech 체인을 구축할 필요가 없습니다. 이를 통해 지연 시간을 줄이고, 실시간 애플리케이션에서 인터럽션(중단 처리), 텍스트와 음성 혼합 입력, 도구 호출이 훨씬 자연스럽게 느껴지도록 합니다.

Speech-to-speech 모델