카페검색 본문
테이블글 본문
-
한번에 이해하는 구글 최강 모델 Gemini 3: 하반기 최대의 빅뉴스, “구글 제국의 귀환” 2025.11.19
이번에 완전히 뒤집혔다 과거 구글은 코딩 분야에서 타사 대비 약점을 보였지만, Gemini 3는 이를 완벽히 반전시켰다. SWE-Bench Verified(실제 코드 수정 능력) Claude: 77.2% Gemini 3: 76.2% (근소한 차이로 2위) 그러나 다른 벤치마크들은 압도적이다...
-
Kimi K2 Thinking 모델 공개! 에이전트·추론 능력 완전체로 거듭났습니다 🔥 2025.11.09
했습니다. 💻 에이전틱 코딩 능력 지속 개선 Kimi K2 Thinking 모델의 코딩 능력도 향상됐습니다. SWE-Multilingual, SWE-bench 검증 세트, Terminal 사용 등 벤치마크에서 성능이 한층 더 좋아졌죠. HTML·React 등 구성 요소가 풍부한 프론트엔드 작업...
-
OpenAI, GPT OSS 시리즈 모델을 오픈소스로 공개 2025.08.06
모델은 브라우저와 Python 인터프리터와 같은 내장 도구를 지원하며, 사용자가 정의한 도구도 사용할 수 있습니다. Tau-Bench 도구 호출 평가에서 모델은 우수한 함수 호출 능력을 보여주었습니다. 모델의 채팅 템플릿은 유연한 도구 통합 솔루션을 제공...
-
Qwen이 새롭게 오픈소스로 공개되었습니다. AI 이미지 생성 모델의 텍스트 생성 성능을 SOTA(State-of-the-Art) 수준 2025.08.06
통의천문 팀은 Qwen-Image를 여러 공개 벤치마크에서 평가했습니다. 이는 일반적인 이미지 생성을 위한 GenEval, DPG 및 OneIG-Bench, 그리고 이미지 편집을 위한 GEdit, ImgEdit 및 GSO를 포함합니다. 모든 벤치마크 테스트에서 Qwen-Image는 SOTA를 달성...
-
마스크 Grok 4 다차원 도약: 추론 × 다중 지능체 × 음성, 300 달러로 AI 수익성 한계 탐색? 2025.07.28
환경에서 올바른 결정을 지속적으로 내리고 손실을 피하는 것은 매우 어렵습니다. 결과는 다음과 같습니다: Vending Bench라는 비교 테스트에서 Grok 4는 순이익 점수가 두 배로 증가한 첫 번째 AI 모델이 되었으며, 유일하게 “완전한 운영 주기를 연속...
-
Qwen3 Coder, 더 강력해졌습니다! 2025.07.23
검증은 쉬운’ 과제를 계속 탐색하도록 장려할 것입니다. 장기적 강화 학습 확장 실제 소프트웨어 공학 과제(예: SWE-Bench)에서 모델은 환경과 지속적으로 상호작용하며, 도구 선택, 도구 호출, 피드백 수용을 통해 새로운 결정을 내리는 장기적 강화...