음성 에이전트 개요

음성 에이전트는 OpenAI 음성-대-음성 모델을 사용해 실시간 음성 채팅을 제공합니다. 이들 모델은 오디오, 텍스트, 도구 호출의 스트리밍을 지원하며, 음성/전화 고객 지원, 모바일 앱 경험, 음성 채팅 같은 애플리케이션에 적합합니다.
Voice Agents SDK는 OpenAI Realtime API를 위한 TypeScript 클라이언트를 제공합니다.
시작하기
섹션 제목: “시작하기” 빠른 시작 OpenAI Agents SDK를 사용해 몇 분 만에 첫 실시간 음성 어시스턴트를 구축하세요.
주요 기능
섹션 제목: “주요 기능”- WebSocket 또는 WebRTC로 연결
- 브라우저와 백엔드 연결 모두에서 사용 가능
- 오디오 및 인터럽션(중단 처리) 처리
- 핸드오프를 통한 멀티 에이전트 오케스트레이션
- 도구 정의 및 호출
- 모델 출력을 모니터링하는 커스텀 가드레일
- 스트리밍 이벤트 콜백
- 텍스트 및 음성 에이전트 모두에서 동일한 컴포넌트 재사용
음성 가이드 살펴보기
섹션 제목: “음성 가이드 살펴보기”- 세션 설정, 도구, 가드레일, 인터럽션, 히스토리 관리를 위한 음성 에이전트 구축
- WebRTC/WebSocket/SIP 전송 선택과 커스텀 전송을 위한 전송 방식
음성-대-음성 사용 이유
섹션 제목: “음성-대-음성 사용 이유”음성-대-음성 모델을 사용하면, 모델이 동작한 후 텍스트로 전사하고 다시 오디오로 재변환할 필요 없이 오디오를 실시간으로 처리하는 모델의 능력을 활용할 수 있습니다.
