카페검색 본문
카페글 본문
정확도순
-
DeepSeek발표 논문 | DConditional Memory via Scalable Lookup 2026.01.13해당카페글 미리보기
설정을 준수합니다. 은닉층 크기가 2560인 30블록 트랜스포머를 사용합니다. 각 블록은 멀티헤드 잠재 어텐션(MLA)을 통합합니다 .deepseekai2024deepseekv2strongeconomicalefficient] 32개의 헤드를 가지고 있으며 mHC를 통해 FFN에 연결됩니다 .xie2025...