카페검색 본문
테이블글 본문
-
DeepSeek-V4 프리뷰: 백만 컨텍스트, 누구나 쓸 수 있는 시대 2026.04.24
역량의 대폭 향상 이전 세대 모델 대비, DeepSeek-V4-Pro의 Agent 역량은 비약적으로 향상되었습니다. Agentic Coding 벤치마크에서 V4-Pro는 현재 오픈소스 모델 중 최고 수준에 도달했으며, 그 외 Agent 관련 벤치마크에서도 우수한 성적을 기록했습니다...
-
한번에 이해하는 구글 최강 모델 Gemini 3: 하반기 최대의 빅뉴스, “구글 제국의 귀환” 2025.11.19
엔드 생성 능력까지— Gemini 3는 AI가 우리가 기대하는 ‘진짜 형태’에 한 걸음 더 다가섰다는 사실을 강력하게 증명했다. 벤치마크 점수표보다 더 충격적인 것은 직접 써봤을 때의 체감 성능 차이다. Gemini 3는 단순한 버전 업데이트가 아니다. 이...
-
Kimi K2 Thinking 모델 공개! 에이전트·추론 능력 완전체로 거듭났습니다 🔥 2025.11.09
Humanity's Last Exam(인류 최종 시험), BrowseComp(자율 검색 능력 평가), SEAL-0(복합 정보 수집 추론) 등 여러 벤치마크에서 SOTA(State-of-the-Art, 최첨단) 수준을 기록했으며, 에이전틱 검색·프로그래밍·글쓰기·종합 추론 능력 등에서 전면적인...
-
(챗지피티) 벤치마크 2025.05.03
등 여러 영역에서 폭넓게 활용됩니다. 벤치마크의 정의 특정 시스템, 제품, 서비스, 또는 프로세스의 성능을 측정하여 **기준(benchmark)**과 비교하는 과정. 목적: 경쟁력을 평가하고, 개선할 수 있는 지점을 파악하며, 최적의 성능을 달성. 벤치마크의...
-
전망에서 가장 뛰어난 텍스트-이미지 연구 능력을 가진 skywork ai 지능형 모델이 충격적으로 출시되었습니다. 보고 나니 바로 브라 2025.09.15
에이전트 모듈을 활용해 성능, 안정성, 지능화 수준이 균형 있게 도약하도록 했습니다. 성능이 얼마나 뛰어난지, 먼저 벤치마크 점수를 공개합니다. 먼저 권위 있는 검색 평가 순위인 BrowseComp에서 Skywork Deep Research는 일반 추론 모드에서 정확도...
-
구글이 MedGemma 의료 다모달 딥러닝 기술 분석, 훈련 데이터, 최적화 방법, 성능 평가를 오픈소스로 공개했습니다. 2025.08.25
측면의 과제를 부각시켰습니다.“데이터 오염 우려” 22를 명시적으로 언급한 것은 주목할 만한 문제입니다. 이는 공개 벤치마크 테스트에서의 성능이 사전 훈련 데이터셋에 유사한 데이터가 포함되어 과대평가될 수 있음을 시사합니다. 따라서 개발자는...
-
구글 스마트폰 10년 만에 가장 강력한 업그레이드, AI 패키지로 애플에 도전장! 한 문장으로 사진 편집, 100배 줌 2025.08.22
Nano-banna가 구글과 밀접한 관련이 있으며, 'nano'는 로컬 기기에서 실행 가능한 모델을 의미한다고 추측했습니다. 또한 벤치마크 테스트 '인간 최종 테스트'에서 Gemini 3.0의 점수가 소스 코드에서 유출되었습니다: Gemini 3.0의 점수는 32.4%로, GPT...
-
알리바바의 이미지 편집 강자 Qwen-Image-Edit 출시, 픽셀과 의미 편집을 압도하다. 네티즌들: 안녕 PS 2025.08.20
글꼴 크기, 스타일을 유지한 채로 이미지 내 텍스트를 추가, 삭제, 수정할 수 있습니다. 강력한 기본 성능: 다수의 공개 벤치마크 테스트 평가 결과, Qwen-Image-Edit은 이미지 편집 작업에서 SOTA 성능을 갖추고 있으며, 강력한 이미지 편집 기반 모델...
-
OpenAI, GPT OSS 시리즈 모델을 오픈소스로 공개 2025.08.06
발견 가능한 악용 사례를 식별 성능 성능: 최상위 모델과 맞먹는 수준 OpenAI는 gpt-oss-120b와 gpt-oss-20b를 표준 학술 벤치마크 테스트에서 평가하여 프로그래밍, 경진대회 수학, 의료 및 지능형 도구 사용 측면에서의 능력을 측정했으며, 다른 OpenAI...
-
Qwen이 새롭게 오픈소스로 공개되었습니다. AI 이미지 생성 모델의 텍스트 생성 성능을 SOTA(State-of-the-Art) 수준 2025.08.06
다중 작업 훈련 패러다임을 통해 Qwen-Image는 편집 과정에서 편집의 일관성을 우수하게 유지합니다. 성능 SOTA: 여러 공개 벤치마크 테스트 평가 결과, Qwen-Image는 다양한 생성 및 편집 작업에서 SOTA를 달성했습니다. 성능 측면에서, 통의천문 팀은...