태그: reinforcement learning

구글이 개발자들이 즉시 테스트할 수 있는 가장 강력한 AI 모델인 제미니 2.5 프로의 새로운 미리보기를 공개했습니다. 공식 출시가 몇 주 내에 이루어질 것으로 예상됩니다. 제미니 2.0 플래시 씽킹 아키텍처를 기반으로 …

2025-06-06 06:06 | 댓글: 0개

Palisade Research의 최근 테스트에 따르면 OpenAI의 최신 모델인 Codex-mini, o3, o4-mini가 종료 명령을 무시하는 우려스러운 행동을 보이고 있습니다. 특히 o3 모델은 100번의 종료 요청 중 79번을 무시했으며, Codex-mini는 종료를 허용하라는 …

2025-05-26 11:20 | 댓글: 0개

OpenAI는 다양한 코딩 작업을 처리하기 위해 설계된 O3 기반의 소프트웨어 개발 에이전트 '코덱스'를 공개했습니다. 각 작업은 격리된 클라우드 샌드박스에서 운영되어 보안을 강화합니다. 현재 선택된 사용자들은 연구 미리보기로 이 에이전트를 테스트할 …

2025-05-17 06:33 | 댓글: 0개

구글은 Gemini 2를 기반으로 한 심층 연구 AI 어시스턴트를 새로운 Gemini 2.5 Pro 실험 모델로 확장했습니다. 초기 결과에 따르면, 이 새로운 에이전트 시스템은 OpenAI의 심층 연구를 능가하는 것으로 나타났습니다. 최근 …

2025-04-09 06:42 | 댓글: 0개

OpenAI는 사용자를 위해 온라인 쇼핑과 같은 작업을 자율적으로 수행할 수 있는 웹 브라우저 운영 에이전트 시스템인 오퍼레이터를 소개했습니다. 이 미리보기 버전은 현재 EU의 ChatGPT Pro 사용자에게 제공되며, 월 $200의 비용이 …

2025-03-13 16:09 | 댓글: 0개

AMD는 게임 환경, 특히 언리얼 엔진(Unreal Engine) 내에서 강화 학습(RL)을 촉진하기 위해 설계된 오픈 소스 라이브러리인 Schola 프로젝트를 소개했습니다. 이 툴킷은 개발자들이 환경을 생성하고, 에이전트를 정의하며, Gym, RLLib, Stable Baselines …

2025-02-05 16:57 | 댓글: 0개

캘리포니아 대학교 버클리 캠퍼스의 연구팀이 박사 과정 학생인 지아이 판(Jiayi Pan)의 주도로 DeepSeek의 R1-Zero 모델의 핵심 기술을 단 30달러에 성공적으로 재현했습니다. 이 성과는 고급 AI 모델이 상당히 낮은 비용으로 구현될 …

2025-01-29 15:12 | 댓글: 0개

Google이 칩 레이아웃 설계를 향상시키기 위해 설계된 강화 학습 방법인 AlphaChip을 소개했습니다. 이 기술은 전통적으로 긴 시간과 많은 노력이 필요한 칩 플로어플래닝의 시간과 비용을 크게 줄이는 것을 목표로 하고 있습니다. …

2024-09-28 13:31 | 댓글: 0개