카페검색 본문
테이블글 본문
-
한번에 이해하는 구글 최강 모델 Gemini 3: 하반기 최대의 빅뉴스, “구글 제국의 귀환” 2025.11.19
끝나지 않았으며, Gemini 3에서 우리가 확인한 도약은 지금까지 중 가장 크다”고 강조했다. Gemini 3 Pro는 새로운 sparse MoE 아키텍처를 기반으로 하며, 단순한 Gemini 2.5의 미세조정이 아니라 완전히 새로운 구조다. Google의 최근 연구들— SIMA 2...
-
Kimi K2 Thinking 모델 공개! 에이전트·추론 능력 완전체로 거듭났습니다 🔥 2025.11.09
크게 저하되는 문제가 있죠. 이 문제를 극복하기 위해 사후 훈련(post-training) 단계에서 양자화 인지 훈련(QAT)을 도입하고 MoE 구성 요소에 INT4 순수 가중치(weight-only) 양자화**를 적용했습니다. 이로 인해 Kimi K2 Thinking 모델은 복잡한 추론과...
-
OpenAI, GPT OSS 시리즈 모델을 오픈소스로 공개 2025.08.06
총 매개변수를, 후자는 21억 개의 매개변수를 갖습니다. 그러나 흥미로운 설계 포인트가 있습니다—두 모델 모두 전문가 혼합(MoE) 아키텍처를 채택했으며, 실제로 활성화되는 매개변수 수는 각각 51억과 36억에 불과합니다.이 설계의 직접적인 장점은...
-
Qwen3 Coder, 더 강력해졌습니다! 2025.07.23
가장 강력한 버전인 Qwen3-Coder-480B-A35B-Instruct를 먼저 공개합니다. 이 모델은 480B 파라미터로 활성화된 35B 파라미터의 MoE 모델로, 256K 토큰의 컨텍스트를 원생 지원하며 YaRN을 통해 1M 토큰으로 확장 가능합니다. 뛰어난 코드 및 에이전트 능력...
-
DeepSeek 마침내 오픈소스 1위 자리를 내주었지만, 후계자 역시 중국 출신이다 2025.07.19
K2의 구조 파라미터 변경 사항은 네 가지입니다: 전문가 수 증가: 팀은 활성화 매개변수 수를 변경하지 않은 상태에서 MoE의 총 매개변수를 증가시켜도 손실 감소에 도움이 된다는 것을 검증했습니다. 주의력 헤드 수 절반으로 감소: 헤드 수를 줄여 절약...