AGX Orin 32gb 에서 오픈소스계의 OpenAI o1-미니(DeepSeek R1-Distill-Qwen-32B)를 실행해봅시다

AGX Orin 32gb 에서 오픈소스계의 OpenAI o1-미니(DeepSeek R1-Distill-Qwen-32B)를 실행해봅시다

카테고리 없음 2025. 1. 25. 08:24

며칠 전 미국 블라인드에 올라온 글이 이 블로깅의 시작이 되었습니다. 중국의 스타트업 딥씨크가 공개한 R1모델이 공개 전인 메타 Llama 4를 뛰어넘어서 메타팀이 패닉상태다는 내용입니다.

R1모델은 딥시크에서 처음 내놓은 추론 모델입니다. 함께 논문도 공개했는데 흥미로운 것이 성능향상을 위해 사용하던 Supervised Fine-Tuning을 (거의) 사용하지 않고 RL(Reinforcement Learning)을 사용하여 우수한 성능을 내었다고 합니다. RL 비용도 혁신적으로 낮추어서 LLM개발의 방식을 바꾸어 놓을 것 같습니다. R1을 공개하며 내놓은 벤치마크는 아래와 같습니다.

Distilled Model Evaluation

벤치 상으로는 R1모델은 GPQA Diamond(박사수준 과학벤치마크)를 제외하고는 o1모델과 비슷하거나 살짝 우수한 성능을 보입니다. 그리고 R1-Distill-Qwen-32B모델은 벤치상 모든 값에서 o1-mini(아마 24년 12월 버전)을 넘어섰습니다. '어.. 유료 구독할 필요 없나~' 이래서 모두들 패닉상태가 됐나봅니다. 블라인드서 이어지는 댓글을 보면 다른 빅테크 직원들의 충격도 느껴집니다.

설 연휴를 맞아 얼마나 괜찮은지 체험해보기로 했습니다. 얼마 전, 671B 매개변수를 가진 DeekSeek-V3 Q2를 겨우 돌렸던 기억에 이번에는 적절한 크기로 증류된 32B모델을 골랐습니다. 오린에 다운을 받아봅니다. 습관적으로 GGUF모델을 골랐다가 저장공간 이슈와 함께 오린 실성능도 체크할 겸 원모델도 다운받습니다. 저는 1Tb nvme에서 작업하고 있습니다.

모델을 로드하지 못하는 문제가 생겨 llama.cpp를 업데이트하기로 했습니다.

소스를 받아서 빌드하면서 문서를 보니 지난번에는 쿠다를 활성화하지 않았다는 것을 알았습니다. 압...

엔비디아 계열 기기에서 쿠다 활성화 빌드는 아래처럼

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

*우와 빌드시간 엄청 걸립니다.

먼저 다운된 bf16을 실행합니다.

한~참을 기다리자 1+1에 대해 생각을 알려줍니다. 나무늘보보다 더 느립니다.

안되겠습니다.

GPU와 관련된 옵션(--gpu-layers 10 --batch-size 128)을 넣어보니 중단됩니다.

Q4로 양자화된 모델에 삽질 끝에 적절한 옵션을 넣어봅니다.

$ sudo ./llama.cpp/build/bin/llama-cli --model ./R1-Distill-Qwen-32B-GGUF/DeepSeek-R1-Distill-Qwen-32B-Q4_K_L.gguf --cache-type-k q4_1 --threads 12 --gpu-layers 10 --no-warmup --prompt '<｜User｜>What is 1+1?<｜Assistant｜>'

1+1에 대해 2라고 영어로 답합니다. 이어지는 한국어로 한 앱 아키텍쳐 질문에 답을 합니다. 속도를 한번 느껴보시죠.

멋지지만 원활히 사용하기 위해 좀더 강력한 기기가 필요할 것 같습니다.

여러분들, 새해 복 많이 받으세요~!!

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 논문 중

참고

https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md

llama.cpp/docs/build.md at master · ggerganov/llama.cpp

LLM inference in C/C++. Contribute to ggerganov/llama.cpp development by creating an account on GitHub.

github.com

https://www.teamblind.com/post/KccnF41n/44121111

Blind - Anonymous and Professional Community

Blind - Join a vibrant community where professionals discuss careers, workplace dynamics, and more. Get career advice, engage in debates, and connect with peers.

www.teamblind.com

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1

Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.

github.com

https://huggingface.co/deepseek-ai/DeepSeek-R1

deepseek-ai/DeepSeek-R1 · Hugging Face

DeepSeek-R1 Paper Link👁️ 1. Introduction We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a prel

huggingface.co

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B · Hugging Face

DeepSeek-R1 Paper Link👁️ 1. Introduction We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a prel

huggingface.co

https://contents.premium.naver.com/banya/banyacompany/contents/240913111816666ih

드디어 나온 OpenAI의 신모델 ‘o1-preview & o1-mini’ - 추론 중심으로의 인공지능 패러다임 변화

OpenAI가 드디어 ‘Strawberry’를 적용한 추론(inference) 중심 인공지능 신모델 ‘OpenAI o1’을 출시했습니다. OpenAI는 이 모델이 추론에 특화된 자신들의 첫번째 모델이기 때문에 기존의 GPT라는 이름을

contents.premium.naver.com

댓글

ABOUT ME

A.foundation A.foundation

Distilled Model Evaluation

여러분들, 새해 복 많이 받으세요~!!

티스토리툴바