음성 에이전트 개요

음성 에이전트를 사용하면 OpenAI speech-to-speech 모델 위에서 저지연 음성 인터페이스를 구축할 수 있습니다. SDK는 Realtime API의 멘탈 모델은 그대로 유지하면서, 원문 이벤트 흐름을 RealtimeAgent, RealtimeSession, 전송 헬퍼로 감싸 도구, 가드레일, 핸드오프, 세션 기록을 더 쉽게 다룰 수 있게 해줍니다.
내부적으로는 공식 가이드인 Realtime API with WebRTC, Realtime conversations, voice activity detection의 동일한 Realtime 개념이 그대로 적용됩니다. 음성 에이전트 SDK는 이 API 위에 TypeScript 우선 계층을 추가해, 전송 및 이벤트 처리를 처음부터 다시 구현하는 대신 제품 로직에 집중할 수 있게 합니다.
시작 지점
섹션 제목: “시작 지점” 빠른 시작 OpenAI Agents SDK를 사용해 몇 분 안에 첫 실시간 음성 어시스턴트를 구축하세요.
음성 에이전트 구축 SDK에서 세션 수명 주기, VAD, 인터럽션(중단 처리), 멀티모달 입력, 도구, 기록이 동작하는 방식을 알아보세요.
전송 방식 WebRTC, WebSocket, SIP 또는 커스텀 전송 중에서 선택하고, 언제 원문 이벤트로 내려가야 하는지 파악하세요.
SDK 추가 기능
섹션 제목: “SDK 추가 기능”- 임시 클라이언트 토큰을 사용하는 브라우저 우선 WebRTC 설정
- 서버 측 WebSocket 및 SIP 전송 옵션
- 자동 인터럽션(중단 처리) 처리 및 로컬 대화 기록 자동 업데이트
- 실시간 핸드오프를 통한 다중 에이전트 오케스트레이션
- 함수 도구, 호스티드 MCP 도구, 승인 및 위임 패턴
- 실시간 음성 상호작용을 위한 출력 가드레일 및 트레이싱 지원
다음 페이지 선택
섹션 제목: “다음 페이지 선택”| 다음이 필요하다면… | 이동할 곳 |
|---|---|
| WebRTC와 임시 토큰으로 브라우저 클라이언트를 안전하게 연결 | 빠른 시작 |
| 세션 수명 주기, VAD, 인터럽션(중단 처리), 이미지 입력, 도구, 기록 이해 | 음성 에이전트 구축 |
| WebRTC, WebSocket, SIP, 커스텀 전송 중 선택 | 전송 방식 |
| Twilio에서 전화/텔레포니 경험 실행 | Twilio용 Realtime 에이전트 |
| Cloudflare Workers 또는 다른 workerd 런타임에서 연결 | Cloudflare용 Realtime 에이전트 |
speech-to-speech 필요성
섹션 제목: “speech-to-speech 필요성”speech-to-speech 모델은 사용자 오디오를 직접 처리하므로, 매 턴마다 별도의 speech-to-text, 텍스트 추론, text-to-speech 체인을 구축할 필요가 없습니다. 이를 통해 지연 시간을 줄이고, 실시간 애플리케이션에서 인터럽션(중단 처리), 텍스트와 음성 혼합 입력, 도구 호출이 훨씬 자연스럽게 느껴지도록 합니다.
