Models & Algorithms•March 24, 2026•EN

Qwen 3.5 로컬 설치 완전 가이드 — Ollama부터 vLLM까지

Qwen 3.5를 로컬에서 실행하는 4가지 방법을 단계별로 설명합니다. Ollama 5분 설치부터 llama.cpp, vLLM 프로덕션 서버, HuggingFace Transformers까지.

Qwen 3.5 로컬 설치 & 실행 완전 가이드 — Ollama부터 vLLM까지

이전 글에서 Qwen 3.5와 DeepSeek V3.2를 비교했습니다. 이번에는 Qwen 3.5를 직접 로컬에 설치하고 실행하는 과정을 단계별로 다룹니다.

Ollama로 5분 만에 돌리는 방법부터, vLLM으로 프로덕션급 API 서버를 띄우는 방법, 그리고 GPU별 최적 모델 사이즈 선택까지 빠짐없이 정리했습니다.

Qwen 3.5는 8가지 사이즈가 있습니다. GPU에 맞는 모델을 고르는 게 첫 번째입니다.

모델	타입	Q4_K_M 기준 VRAM	추천 GPU	성능 수준
0.8B	Dense	~500MB	CPU / 아무 기기	간단한 텍스트 처리
2B	Dense	~1.5GB	아무 GPU	가벼운 챗봇
4B	Dense	~2.5GB	GTX 1660 이상	GPT-3.5급
9B	Dense	~5GB	RTX 3060 (8GB+)	실용적 최소 사이즈
27B	Dense	~17GB	RTX 4090 (24GB)	GPT-4 수준 접근
35B-A3B	MoE	~20GB	RTX 4090 (24GB)	가성비 최고
122B-A10B	MoE	GPU + 256GB RAM	GPU + CPU 오프로드	Sonnet 4.5급
397B-A17B	MoE	~214GB	서버급	플래그십

무료 회원가입으로 전체 콘텐츠를 확인하세요.