카테고리 없음

Jetson AGX Orin에서 Llama-4-Maverick-17B-128E-Instruct-UD-IQ2_XXS 실행하기

asev 2025. 4. 21. 02:53

 
 
 

llama-cli   --model ./Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL-00001-of-00004.gguf  --threads 12  --gpu-layers 8  --no-warmup  --prompt 'llm모델들과 10가지 벤치마크 성능을 표로 비교해줘'
 


 
이상하게도 다른 모델과 달리 layers 16 설정일 때 메모리 점유율이 낮고, 토큰 출력이 더 빠른 점이 인상적입니다. MOE(Mixture of Experts)구조인 것이 영향을 미치는 것일까요?