DeepSeek-V3
·
ML
Referencehttps://arxiv.org/html/2412.19437v1https://arxiv.org/abs/2405.04434https://arxiv.org/abs/2401.06066https://zhuanlan.zhihu.com/p/16730036197https://dataturbo.medium.com/deepseek-technical-analysis-2-mla-74bdb87d4ad21. IntroTODO대충 우리 이전 DeepSeek-V2에서 사용한 Multi-head Latent Attention(MLA라고 약칭)으로 효율적인 추론을 가능하게 했고, DeepSeekMoE로 저렴한 훈련을 가능하게 만들었다고 함.소위 말해 검증된 아키텍처.이 두 핵심 모델 아키텍처에 더해서, 로드밸런싱을 위..
아로나 개발일지 - 2. (코드 있음)
·
아로나 개발일지
https://codingplayground.tistory.com/2
아로나 개발일지 - 01.
·
아로나 개발일지
방학을 맞아서 시간이 비게 되었다. 이번에는 어떤 프로젝트를 진행해야지 고민하던 도중, 작년에도 한번 시도해봤으나 ChatGPT api의 요금을 학생인 내가 감당하기에는 다소 어려워서 포기했던 프로젝트 AI로 만든 여자친구를 유튜브에서 한번 더 보았다. 인격 모방도 가능하다니. 이젠 내 직업이 아니라 내 인격이 뺏길걸 걱정할 때가 온듯 하다 다소 삘(?)을 받은 나는 본격적으로 목소리, 사용자간의 소통 등의 모든 장치를 겸비한 AI 여자친구까지는 아니더라도, 마치 영화 「아이언맨」에서 나온 자비스의 씹덕 버전, 넥슨에서 만든 게임인 '블루 아카이브'에서 주인공의 조력자인 AI 비서, 아로나쨩을 만들고 싶은 마음이 미친듯이 샘솟았다. 나는 이 프로젝트를 시작하겠다는 마음을 가지기 전부터 Unity로 움직이..