카테고리 없음
Jetson AGX Orin에서 Llama-4-Maverick-17B-128E-Instruct-UD-IQ2_XXS 실행하기
asev
2025. 4. 21. 02:53
llama-cli --model ./Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL-00001-of-00004.gguf --threads 12 --gpu-layers 8 --no-warmup --prompt 'llm모델들과 10가지 벤치마크 성능을 표로 비교해줘'
이상하게도 다른 모델과 달리 layers 16 설정일 때 메모리 점유율이 낮고, 토큰 출력이 더 빠른 점이 인상적입니다. MOE(Mixture of Experts)구조인 것이 영향을 미치는 것일까요?