본문 바로가기
카테고리 없음

딥시크 DeepSeek 란? 딥시크 주목하는 이유

by l하나둘셋l 2025. 1. 27.
반응형

 

AI DEEP SEEK
AI 중국 DEEP SEEK

최근 중국의 인공지능(AI) 스타트업 딥시크(DeepSeek)가 개발한 대규모 언어 모델(LLM) 'V3'가 AI 업계에서 큰 주목을 받고 있습니다. 이 모델은 저비용·저사양 환경에서도 오픈AI의 'GPT-4o'를 능가하는 성능을 보이며, AI 기술의 새로운 가능성을 제시하고 있습니다.
딥시크(DeepSeek) 소개
딥시크는 2023년 중국의 헤지펀드 하이 플라이어(High-Flyer)의 지원을 받아 설립된 AI 스타트업입니다. 효율적인 AI 모델 개발에 초점을 맞추고 있으며, 제한된 자원으로도 뛰어난 성능을 내는 AI 모델을 개발하여 오픈AI와 같은 대형 AI 기업에 도전장을 내밀고 있습니다. 창업자인 량원펑(Liang Wenfeng)은 딥시크의 목표를 '인공지능 일반화(AGI)의 실현'으로 밝힌 바 있습니다.
 

 

 
 
 
V3 모델의 특징
딥시크의 'V3' 모델은 약 6,710억 개의 매개변수를 탑재한 오픈소스 기반의 LLM으로, 메타의 '라마'보다 약 1.5배 큰 규모입니다. 주목할 점은 훈련에 사용된 그래픽처리장치(GPU) 자원이 라마의 10분의 1 수준임에도 불구하고 뛰어난 성능을 보였다는 것입니다. 코딩 성능 평가에서 오픈AI의 'GPT-4o', 메타의 '라마-3.1', '클로드-3.5 소넷'을 뛰어넘는 성과를 냈으며, 특히 수학 능력 평가인 'MATH 500' 기준에서는 90.2점을 기록하여 다른 모델들을 크게 앞질렀습니다.

저비용·저사양의 비결
딥시크는 최신 고성능 반도체인 A100이나 H100을 사용하지 않고, 엔비디아의 H800 반도체로 총 278만 8,000시간의 훈련을 진행했습니다. V3 개발 비용은 약 600만 달러(한화 약 87억 원)로, 메타의 '라마 3.1' 개발비 6억 4,000만 달러(약 9,294억 원)의 100분의 1 수준입니다. 이러한 효율성의 비결은 'Mixture-of-Experts(MoE)' 아키텍처 기술에 있습니다. 이 방식은 특정 작업에 적합한 '전문가' 모델만 선택적으로 활성화하여 6,710억 개의 매개변수 중 약 370억 개만 사용합니다. 이를 통해 컴퓨팅 자원을 효율적으로 관리하고 데이터 압축과 전송 병목 현상을 최소화하여 GPU 의존도를 대폭 낮췄습니다.

AI 업계에 미치는 영향
딥시크의 이러한 혁신은 글로벌 AI 업계에 큰 파장을 일으키고 있습니다. 미국의 반도체 수출 제한이 오히려 중국의 GPU 의존도를 낮추고 기술 혁신을 촉진했다는 평가도 나오고 있습니다. 딥시크의 사례는 고성능 AI 개발에서 최신 GPU의 절대적 필요성에 대한 기존 인식을 전환하는 계기가 되었으며, AI 기술의 비용 구조 변화로 산업 전반에서 AI 도입이 가속화될 것으로 전망됩니다.

그러나 일부 전문가들은 딥시크의 발표를 그대로 신뢰하기는 어렵다는 입장을 보이고 있습니다. 과거에도 유사한 사례가 있었기 때문에, 실제 성능과 영향력에 대해서는 신중한 검토가 필요하다는 의견입니다.

딥시크의 등장은 AI 기술의 발전 방향과 글로벌 기술 패권에 대한 새로운 논의를 촉발하고 있습니다. 앞으로의 행보가 주목됩니다.
더 자세한 내용을 원하신다면 아래 영상을 참고해 보세요:
https://www.youtube.com/watch?v=YeD-d-bds1Q

반응형