제미니 2.0 플래시는 구글의 최신 AI 모델로, 이전 모델인 제미니 1.5 플래시보다 더 강력하고 빠르게 설계되었습니다. 이 모델은 텍스트, 이미지, 비디오 및 오디오 파일을 포함한 다중 모드 입력을 지원하며, 텍스트 내용을 기반으로 이미지를 생성할 수 있습니다. 초기에는 구글 AI 스튜디오와 Vertex AI를 통해 API로 실험 모델로 제공되며, 일반 사용 가능성은 1월로 예상됩니다. 채팅 최적화 버전은 이미 제미니를 통해 접근 가능하며, 앱 버전도 곧 출시될 예정입니다.
제미니 어드밴스드의 새로운 기능인 딥 리서치는 연구 보조 역할을 하며, 웹 검색을 자율적으로 수행하고 결과를 분석하여 구글 문서에서 출처 링크와 함께 요약을 작성합니다. 웹 버전의 배포는 점진적으로 이루어질 예정이며, 앱 버전은 내년 초에 출시될 것으로 예상됩니다.
구글은 제미니 2.0을 복잡한 다단계 작업을 처리할 수 있는 AI 에이전트가 지배하는 미래를 향한 중요한 단계로 보고 있습니다. 다중 모드 처리 및 긴 컨텍스트 윈도우와 같은 주요 기능은 이러한 발전에 필수적입니다. 그러나 에이전트 개발은 아직 초기 단계에 있으며, 구글은 이를 흥미로운 가능성으로 가득한 연구 분야로 언급하고 있습니다.
프로젝트 아스트라는 제미니 2.0의 기능을 통합하여 구글 검색, 렌즈, 지도와 같은 기능을 포함한 보편적인 AI 에이전트를 만드는 것을 목표로 하고 있으며, 일상 보조 역할을 강화합니다. 음성 기능과 메모리 개선을 통해 아스트라는 대화를 최대 10분까지 기억할 수 있으며, 지연 시간은 이제 인간 수준에 도달했습니다. 아스트라는 아직 테스트 중이지만 사용자 접근성이 확대되고 있으며, 아스트라가 탑재된 스마트 안경도 곧 출시될 예정입니다.
경쟁이 치열한 시장에서 구글은 최근 프로젝트 오리온이라는 홀로그램 증강 현실(AR) 안경 이니셔티브를 도입한 메타와 경쟁하고 있습니다. 또 다른 초기 단계 에이전트인 프로젝트 마리너는 브라우저 화면의 모든 콘텐츠를 처리하고 사용자에게 작업을 수행하도록 설계되었지만, 현재 내비게이션 기능은 느리고 부정확합니다.
구글의 AI 자회사인 딥마인드도 제미니 2.0을 기반으로 한 에이전트 시스템을 개발하고 있으며, 이는 화면 콘텐츠를 분석하고 실시간 게임 팁을 제공할 수 있습니다. 이 기능은 클랜의 전투와 같은 게임에서 시연되고 있으며, 마이크로소프트도 코파일럿 비전 기능으로 이 분야에 진입하고 있습니다.
전반적으로 제미니 2.0과 관련 프로젝트는 AI를 일상 작업 및 애플리케이션에 통합하는 중요한 도약을 나타내며, 게임 및 로봇 공학을 포함한 다양한 산업에 잠재적인 영향을 미칠 수 있습니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.