DeepSeek-V3
·
ML
Referencehttps://arxiv.org/html/2412.19437v1https://arxiv.org/abs/2405.04434https://arxiv.org/abs/2401.06066https://zhuanlan.zhihu.com/p/16730036197https://dataturbo.medium.com/deepseek-technical-analysis-2-mla-74bdb87d4ad21. IntroTODO대충 우리 이전 DeepSeek-V2에서 사용한 Multi-head Latent Attention(MLA라고 약칭)으로 효율적인 추론을 가능하게 했고, DeepSeekMoE로 저렴한 훈련을 가능하게 만들었다고 함.소위 말해 검증된 아키텍처.이 두 핵심 모델 아키텍처에 더해서, 로드밸런싱을 위..