OpenAI는 ChatGPT의 고급 음성 모드가 이제 EU, 스위스, 노르웨이, 아이슬란드, 리히텐슈타인에 있는 모든 사용자에게 제공된다고 확인했습니다. 이 새로운 모드는 AI 챗봇과의 보다 진정한 대화를 촉진하는 것을 목표로 합니다.
새로운 음성 모드를 사용하려면 Plus 또는 Team 구독이 필요하며, 무료 사용자에게는 접근이 허용되지 않습니다. 사용자는 앱의 오른쪽 하단에 있는 아이콘을 클릭하여 모드를 활성화할 수 있습니다. 처음 사용할 때 사용자는 일반 정보를 받고, 차분하거나 더 쾌활한 톤 등 아홉 가지 다른 목소리 중에서 선택할 수 있습니다.
이 기능의 기술적 기반은 GPT-4o 모델입니다. 사용자는 화면 중앙에 표시되는 파란색 구체를 통해 새로운 음성 모드가 활성화되었는지 확인할 수 있으며, 이는 표준 모드의 검은색 구체와 대조됩니다. 현재 일일 사용은 제한되어 있으며, 사용자가 15분 남았을 때 알림이 제공됩니다.
향상된 대화의 핵심 요소는 응답 시간으로, 이는 인간 상호작용을 모방하도록 설계되었습니다. OpenAI는 평균 응답 시간이 320밀리초로, 이전의 2~5초보다 상당히 빠르다고 보고했습니다. 이 빠른 응답 시간은 보다 진정한 대화 경험에 기여합니다.
또한, 챗봇은 이제 응답에 일시 정지와 감정을 포함할 수 있어 유머러스하거나 놀란 반응을 제공할 수 있습니다. 사용자는 메모와 알림에 저장된 정보를 사용하여 챗봇을 개인화할 수 있어, 일상적인 보조 도구로서의 유용성을 높입니다.
새로운 음성 모드는 5월 OpenAI의 스프링 이벤트에서 처음 소개되었으며, 감정적 반응이 큰 주목을 받았습니다. 그러나 이 모드가 특정 콘텐츠에 대한 응답을 제공하지 않도록 보장하기 위해 여러 차례 출시가 지연되었습니다.
OpenAI는 또한 ChatGPT가 주변의 실시간 정보를 처리할 수 있는 카메라 모드를 발표했지만, 이 기능은 아직 출시되지 않았습니다. 반면, Microsoft는 유사한 기능을 제공하는 Copilot Vision의 출시 날짜를 이미 설정했습니다.
개발 속도에 대한 비판이 제기되었으며, 내부 압력이 Google 개발자 회의에서 경쟁 프레젠테이션 전에 GPT-4o 모델을 출시하도록 요구했다고 전해졌습니다. OpenAI는 이러한 주장을 부인하며, 새로운 보안 점검 절차가 지연을 초래했다고 밝혔습니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.