Jetson Orin Nano 8GB에 LLM모델 올려보기(Llama-Varco-8b GGUF)
오늘은 친애하는 **군의 발전을 위해 Jetson Orin Nano 8GB를 떠나보내기 전 마지막 테스트를 해보았습니다.
사실 이 글을 올리기 직전에 AGX Orin 32GB에 DeepSeek-V3 Q2 양자화 모델(https://huggingface.co/unsloth/DeepSeek-V3-GGUF/tree/main/DeepSeek-V3-Q2_K_XS)을 실행했었습니다. llama.cpp를 이용했는데, 느릿느릿 겨우 실행이 되었으나 한국어 질문에 한국어는 한 문장을 내뱉고 중국어를 몇십 줄 느릿하게 답하는 모습이라 실사용은 안되겠다 생각했습니다. 내친김에 Orin Nano에 한국어 모델을 올리면 쓸 수 있을지 테스트하기로 했습니다. 오랫만에 한국어 모델을 서칭해보니 적합한 모델로 NCsoft에서 배포한 Varco모델이 적당해보였습니다. 꽤 오랫동안 사랑받고 있었군요. 황사장님이 Llama3.1-8B모델을 int4 양자화했다고 했으니 Llama-Varco를 Q5로 양자화한 것이 적절해보였습니다.(이때는 Llama-Varco가 14b모델인 줄 알았습니다. ㅋ)
Arm계열이라그런지 brew로 Llama.cpp를 설치하고자 했으나 안되어 소스를 다운받아 빌드합니다.
실행까지 살짝 시간이 걸리지만 좀 느린 CahtGPT 느낌 있습니다.
상냥하게 한국어로 답하는 모습을 볼 수 있습니다. 뭔가 써먹을 수 있겠는데?? ^^
이후 이미지를 못올렸지만 직접 양자화해서 허깅페이스에 업로드했었던 Llama-VARCO-8B-Instruct-GGUF Q8 모델을 받고 실행해봤으나 안되었습니다. 기기의 한계같아 보입니다.
혹시나 링크 남겨봅니다~^^
https://huggingface.co/jjjssjs/Llama-VARCO-8B-Instruct-GGUF
jjjssjs/Llama-VARCO-8B-Instruct-GGUF · Hugging Face
Llama-VARCO-8B-Instruct-GGUF Transcribe the original text Llama-VARCO-8B-Instruct About the Model Llama-VARCO-8B-Instruct is a generative model built with Llama, specifically designed to excel in Korean through additional training. The model uses continual
huggingface.co