<p style="text-align:justify;">지난달 등장한 중국 스타트업 딥시크의 생성형 AI 모델 딥시크(DeepSeek-V3)는 파격적으로 낮은 개발 비용과 뛰어난 성능을 자랑하며 대중의 관심을 한 몸에 받았습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">논란의 여지는 있지만, DeepSeek-V3 모델을 공개하며 발표한 테크니컬 리포트에 따르면 훈련에는 단돈 ‘6백만 달러(약 85억 달러)’라는 아주 저렴한 비용이 들어갔다고 합니다. 그럼에도 기존 GPT-4o 등 SoTA(State-of-The-Art) 모델과 유사하거나 더욱 뛰어난 성능을 자랑하는 모델을 만들어냈다는 것입니다.<br> </p><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/2997/image5.png"><figcaption><출처: DeepSeek></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">또 한 가지, 딥시크에 대해 이야기할 때 빠지지 않고 등장하는 화두는 바로 ‘오픈소스’ 방식입니다. DeepSeek-R1, V3 모델은 챗GPT와 같은 채팅 인터페이스 형태의 앱으로 제공될 뿐만 아니라, 소스 코드로도 공개되어 있습니다. 개발자 누구나 딥시크의 모델을 자유롭게 활용할 수 있기에 AI 오픈소스 모델의 새로운 지평을 연 것으로도 평가받습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이에 따라 국내외 여러 인공지능 기업이 딥시크사의 모델을 활용한 서비스를 앞다투어 출시하고 있습니다. 뤼튼과 마음AI 등 국내 스타트업들이 DeepSeek-R1 모델을 사용자들이 직접 활용해 볼 수 있는 서비스를 제공하고 있는가 하면, AWS와 MS 같은 빅테크 기업들 역시 경쟁적으로 DeepSeek-R1, V3 모델을 채택하고 있는 것입니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:80%;"><img src="https://www.wishket.com/media/news/2997/image2.png"><figcaption><출처: Wrtn></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">그러나 딥시크가 무조건 혁신만 가져온 것은 아닙니다. 딥시크를 둘러싼 보안과 안정성에 대한 우려가 사라지지 않고 있습니다. 얼마 전, 한국 개인정보보호위원회는 딥시크 앱의 신규 다운로드를 전면 금지했습니다. 심지어 딥시크가 사용자 정보를 중국 소셜미디어(SNS) 틱톡 모회사인 ‘바이트댄스’에 넘겼다는 모 언론사 보도 역시 나오고 있는 상황입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이러한 보안 우려를 인식한 듯 딥시크는 이달 자사 개발 모델의 소스 저장소(Repo)를 완전히 투명하게 공개하는 ‘오픈소스 위크(Open Source Week)’를 가진다고 발표하기도 했습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">그렇다면 과연 DeepSeek-V3은 어떤 모델이기에, 보안에 대한 우려의 목소리가 끊이지 않고 있는 것일까요? 또한 개발자들이 딥시크를 안전하게 활용할 수 있는 방법이 있을까요? 이번 시간에는 엔지니어 관점에서 딥시크의 잠재적 위험 요소와 이를 해결하기 위한 방안에 대해 다루어보도록 하겠습니다.</p><div class="page-break" style="page-break-after:always;"><span style="display:none;"> </span></div><h3 style="text-align:justify;"><strong>DeepSeek-V3는 어떤 모델일까?</strong></h3><p style="text-align:justify;">본격적으로 보안에 접근하기 전, 우선 DeepSeek-V3의 성능과 비용 정보 등을 분석해 보도록 하겠습니다.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>성능</strong></h4><p style="text-align:justify;">딥시크가 발표한 성능 벤치마크 결과에 따르면 DeepSeek-V3는 오픈AI의 o1, 앤트로픽의 Claude-3.5와 유사하거나 더 뛰어난 성능을 자랑한다고 평가받고 있습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">특히, DeepSeek-R1 모델은 수학이나 과학 등 고도의 추론이 필요한 태스크에서도 준수한 성능을 보여줍니다. 지식 증류(Knowledge Distillation)<span style="color:#757575;">*</span> 방식을 통해 추론 능력을 그대로 활용하는 점이 인상적입니다.</p><p style="text-align:justify;"><span style="color:#757575;">*지식 증류: 서로 다른 모델끼리 지식을 전하는 기법을 말합니다. 주로 큰 모델에서 작은 모델로 지식을 전달하는 프로세스를 취합니다.</span></p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/2997/image1.png"><figcaption>DeepSeek-V3의 성능 벤치마크 <출처: DeepSeek-V3 Technical Report></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">이러한 성능 향상의 이면에는 지도학습 미세조정(SFT, Supervised Fine-Tuning) 방식과 강화학습( RL, Reinforcement Learning) 방식을 하이브리드로 결합한 학습 방식이 중요한 역할을 했을 것으로 추측됩니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">전통적으로, SFT는 데이터 셋에 모델을 튜닝하는 방식으로, 비교적 예측 가능한 방식으로 모델 성능을 향상시키는 반면 강화학습(RL, Reinforcement Learning)은 사용자의 피드백을 통해 모델을 점진적으로 개선하는 접근법을 말합니다. 딥시크는 이 두 접근법을 결합하여 기존 모델들이 가지고 있던 한계를 넘어서는 모델을 만들었다고 밝힙니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">특히, SFT와 RL을 하이브리드로 활용하면 사용자의 요청에 맞는 “목표 지향적” 추론을 강화하는 효과가 있습니다. 그 때문에 DeepSeek v3는 사용자가 요청한 목적을 달성할 때까지 끊임없이 추론을 이어가며, 실시간으로 그 과정을 사용자에게 보여주는 방식으로 차별화된 성능을 보입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이러한 방식은 GPT-4o나 제미나이(Gemini) 같은 기존의 초거대언어모델(LLM)의 추론 방식과 확연히 다릅니다. 기존 모델이 보통 방대한 양의 매개변수(Parameter)를 바탕으로 정해진 범위 내에서 빠르고 효율적인 답변을 제공하는 데 집중했다면, 딥시크는 그 이상의 목표를 달성하기 위해 추론을 지속적으로 강화합니다. 이로 더 정교한 목표 지향 대화가 가능한 것이죠.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>비용</strong></h4><p style="text-align:justify;">글의 서두에 살펴보았듯 딥시크가 자랑하는 훈련 비용 ‘6백만 달러’는 업계의 상식을 뒤엎는 저렴한 숫자입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">기존의 생성형 AI 기초 모델(Foundation Model) 프로젝트에는 훈련 비용으로만 수천억 원 이상이 투입됩니다. 이 비용에는 장당 수천만 원을 호가하는 엔비디아의 고성능 GPU H100 구입 비용 등이 포함됩니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/2997/image6.png"><figcaption><출처: DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">그러나 딥시크는 성능이 H100 절반에도 미치지 못하며, 가격도 훨씬 저렴한 H800 GPU만으로 DeepSeek-V3 개발을 완수했다고 말합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이런 비용 절감을 위해 딥시크 개발진은 지식 증류 기법과 전문가 혼합(MoE) 기법을 적용했다고 밝히고 있습니다. 기존에 개발했던 뛰어난 모델(DeepSeek-R1)로, 새로운 모델인 DeepSeek-V3를 개발하는 지식 증류(Knowledge Distillation) 기법, 여러 전문가 모델을 조합하여 필요한 작업을 처리할 때는 관련 모델만 활성화 시키는 전문가 혼합(MoE) 모델을 적극 활용한 것입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"> </p><h3 style="text-align:justify;"><strong>딥시크, 정말로 위험한가?</strong></h3><p style="text-align:justify;">그렇다면 세간의 우려처럼 딥시크는 정말로 위험할까요? 딥시크를 둘러싼 가장 큰 논란거리는 역시 데이터 보안과 개인 정보 유출 가능성입니다. 하지만 막연한 두려움만으로는 딥시크의 보안 위협에 제대로 대처할 수 없습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">그럴수록 정확히 어떠한 이유로 보안 위협이 발생할 수 있는지 이해하고, 이에 대처하는 것이 중요합니다. 이를 위해 우선 딥시크를 활용하는 두 가지 방법, ‘API와 앱 활용’, ‘오픈소스’에 대해 알아보도록 하겠습니다.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>API와 앱을 활용하는 방식</strong></h4><p style="text-align:justify;">사용자가 중국에 있는 딥시크 서버에 질문 형태로 데이터를 전송하고, 그 결과를 받아와 답변을 제공하는 방식입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"><strong>이 방식에서는 사용자가 입력한 데이터가 중국에 있는 딥시크 회사 서버에 저장되기에, 사용자 데이터가 유출되거나 오용될 가능성이 분명히 존재합니다.</strong> 특히, 사용자가 입력한 데이터에 민감한 개인정보나 기업 기밀 정보가 포함된 경우, 심각한 문제가 발생할 수 있는 것으로 여겨지고 있습니다.</p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:60%;"><img src="https://www.wishket.com/media/news/2997/image4.png"><figcaption>딥시크 애플리케이션 <출처 : 앱스토어 캡처></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">사실 이러한 방식은 생성형 AI 서비스를 제공해 오던 대부분 기업이 활용하는 방식과 크게 다르지 않습니다. 미국의 오픈AI나 구글 등 빅테크 기업들 역시 동일한 과정을 거쳐 자사 API와 채팅 앱 서비스를 제공합니다. 그런데 왜 유독 딥시크에 대한 우려만 부각되고 있는 것일까요?</p><p style="text-align:justify;"> </p><p style="text-align:justify;">개인정보보호법 등 관련 법 적용에 나라별 차이가 있기 때문입니다. 잘 알려진 것처럼 딥시크는 중국 저장성 항저우에 본사를 둔 중국 기업입니다. 중국은 미국이나 한국 등 국가와는 다르게 개인정보보호법을 엄격하게 적용하지 않습니다. 그래서 보이스 피싱이나 사기에 개인정보가 악용되는 등 부작용 역시 많습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">한국의 개인정보보호위원회가 딥시크 애플리케이션의 국내 서비스를 중단한 결정적인 이유 역시 ‘개인정보보호법’ 준수에 대한 항목이 미흡했기 때문입니다. 여기에 한발 나아가 중국 정부가 사용자 데이터에 직접 접근할 가능성을 배제할 수도 없습니다. 논란의 여지는 있지만, 이는 분명히 데이터의 보안성과 프라이버시를 심각하게 훼손할 수 있는 요인입니다.</p><p style="text-align:justify;"> </p><h4 style="text-align:justify;"><strong>오픈소스(Open Source) 방식</strong></h4><p style="text-align:justify;">이는 개발자가 허깅페이스(Huggingface) 등 커뮤니티로 직접 공개된 모델을 다운로드해 자신의 서버 또는 환경에서 실행하는 형태를 말합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">이 방식은 앞의 방식과 다르게 중국에 있는 딥시크 서버에 데이터를 전송하지 않습니다. 모든 데이터 처리가 사용자의 서버 안에서만 이루어지는 것이죠. <strong>따라서 민감 데이터나 기업 기밀과 같은 사용자 데이터가 악용될 가능성을 원천 차단합니다.</strong></p><p style="text-align:justify;"> </p><figure class="image image_resized" style="width:100%;"><img src="https://www.wishket.com/media/news/2997/image3.png"><figcaption>오픈소스 방식 <출처: HuggingFace></figcaption></figure><p style="text-align:justify;"> </p><p style="text-align:justify;">그러나 오픈소스 방식으로 딥시크를 활용할 때 역시 주의해야 할 점이 있습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">우선 로컬 환경에서 딥시크 모델을 구동하려면 GPU를 포함해 최소 수준의 계산 리소스 확보가 필요합니다. 아무리 기존 SoTA 모델에 비해 계산 리소스가 적게 든다고 해도 DeepSeek-V3는 수천억 개(약 670B)의 매개변수를 가지고 있습니다. 이 모델을 구동하려면 현실적으로 A100이나 H100 같은 고성능 GPU가 소수라도 여전히 필요합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">또한 오픈소스 프로젝트는 업데이트가 활발히 이뤄지지 않거나 유지 관리가 부족할 경우, 보안 취약점이나 기능 개선이 늦어지기도 합니다. 또, 설치와 설정이 복잡해 기술적인 이해도가 부족한 사용자는 어려움을 겪을 수 있습니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">따라서 오픈소스를 활용할 때는 이러한 단점들을 잘 고려하고, 필요한 리소스와 기술적 역량을 충분히 갖춘 다음 선택하는 것이 중요합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"> </p><h3 style="text-align:justify;"><strong>마치며</strong></h3><p style="text-align:justify;">딥시크(DeepSeek)는 그 뛰어난 성능과 혁신적인 모델 개발 방법으로 많은 관심을 받고 있으며, 그 잠재력 또한 상당합니다. 그러나 이러한 기술 발전의 이면에 사용자 보안과 개인정보 보호에 대한 중요한 우려가 존재하는 것 또한 사실입니다. 특히, 딥시크 앱이 데이터를 처리하는 방식에 따른 중국 내 서버로의 데이터 전송, 중국 정부의 데이터 접근 가능성 등은 실재하는 위협입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">하지만 딥시크를 안전하게 활용하는 방법 역시 존재합니다. 오픈소스 방식을 활용해 모델을 로컬 환경에서 구동하는 방법은 데이터를 외부로 전송하지 않기 때문에 보안 우려를 크게 줄일 수 있습니다. 이처럼 저비용 고성능 모델들을 안전하게 활용하려면, 아직 사용자가 직접 데이터를 다루며 다양한 보안 조치를 취하려는 적극적인 노력이 필요합니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">그러나 이것이 근본적인 해결책은 아닙니다. 오픈소스 키워드와 함께 떠오른 딥시크가 다양한 보안 우려를 낳는 현재의 상황이, 오픈소스로 건강한 기술 생태계를 만들기 위한 진정한 노력과는 거리가 멀다고 할 수 있습니다. 그런 만큼 개발사 측에서는 개인정보 보호에 대한 법적 요구사항을 준수하면서, 최신 보안 기술을 적용하고 지속적인 점검을 해야 할 것입니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;">앞으로도 좋은 생성형 AI 서비스를 모두가 활용하기 위해, 진정한 의미의 오픈소스 모델들이 많이 등장하며 선의의 경쟁이 이어지기를 바랍니다.</p><p style="text-align:justify;"> </p><p style="text-align:justify;"><strong><참고 자료></strong></p><ul><li style="text-align:justify;"><a href="https://arxiv.org/pdf/2401.06066">DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models</a></li><li style="text-align:justify;"><a href="https://arxiv.org/html/2412.19437v1">DeepSeek-V3 Technical Report</a></li><li style="text-align:justify;"><a href="https://techcrunch.com/2025/02/21/deepseek-to-open-source-parts-of-online-services-code/">DeepSeek to open source parts of online services code</a></li><li style="text-align:justify;"><a href="https://huggingface.co/">https://huggingface.co/</a></li></ul><p style="text-align:justify;"> </p><p style="margin-left:0px;text-align:center;"><span style="color:rgb(153,153,153);">©요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.</span></p>