llama.cpp na MacOS
Kompletní průvodce instalací a konfigurací včetně benchmarkingu modelů s llama-bench
Proč používat llama.cpp?
Llama.cpp je výkonná implementace LLaMA modelů v čistém C/C++, optimalizovaná pro běh na běžném hardwaru včetně Apple Silicon.
Optimalizace pro Apple Silicon
Plná podpora Metal Performance Shaders pro maximální výkon na M1/M2/M3 čipech bez nutnosti externí grafiky.
Nízké nároky na paměť
Kvantizace modelů (4-bit, 5-bit, 8-bit) umožňuje běh velkých modelů i na zařízeních s omezenou RAM.
Bez závislostí na Pythonu
Samostatný nástroj v C/C++, rychlejší start, menší footprint a jednodušší deployment.
Široká podpora formátů
GGUF formát, LLaMA, LLaMA 2, Mistral, Mixtral, Phi a mnoho dalších modelů z Hugging Face.
CLI a Server režim
Použitelné jako příkazový nástroj nebo HTTP server s OpenAI-kompatibilním API.
Vestavěný benchmarking
llama-bench pro přesné měření výkonu modelů a porovnání rychlosti inference.
Instalace llama.cpp
Následujte tento krok za krokem průvodce pro instalaci na MacOS.
1 Prerekvizity
Ujistěte se, že máte nainstalované:
- Xcode Command Line Tools - Základní vývojové nástroje
- Homebrew - Package manager pro MacOS
- Git - Pro klonování repozitáře
2 Klonování a kompilace
Stáhněte zdrojový kód a zkompilujte s podporou Metal:
💡 Tip: Kompilace může trvat několik minut. Na Apple Silicon je podpora Metal kritická pro maximální výkon.
3 Stažení modelů
Modely ve formátu GGUF můžete stáhnout z několika zdrojů:
1. Z LM Studio (doporučeno)
LM Studio automaticky stahuje a spravuje GGUF modely:
- • Otevřete LM Studio
- • V sekci "Discover" najděte požadovaný model
- • Stáhněte vámi preferovanou kvantizaci (např. Q4_K_M)
- • Modely jsou uloženy v:
~/.cache/lm-studio/models
2. Z Hugging Face
4 Základní použití
Spuštění modelu v interaktivním režimu:
llama-bench - Benchmarking modelů
Porovnejte výkon různých modelů a kvantizací na vašem hardwaru. Ideální pro testování modelů z LM Studio.
Proč používat llama-bench?
Přesné měření výkonu
Změřte rychlost inference (tokens/s), latenci a využití paměti pro různé modely a konfigurace.
Porovnání kvantizací
Zjistěte, která kvantizace (Q4, Q5, Q8) nabízí nejlepší poměr rychlost/kvalita pro váš hardware.
Testování LM Studio modelů
Snadno otestujte všechny modely stažené přes LM Studio bez nutnosti je znovu stahovat.
Optimalizace nastavení
Najděte optimální batch size, thread count a další parametry pro maximální výkon.
Základní benchmarking
-p (prompt): Počet tokenů v prompt pro test zpracování
-n (n_gen): Počet tokenů k vygenerování
pp (prompt processing): Rychlost zpracování prompt
tg (text generation): Rychlost generování textu
Dávkový benchmark více modelů
Porovnejte všechny modely z LM Studio najednou:
Pokročilé možnosti
💡 Tipy pro benchmarking
Příprava systému
- • Zavřete ostatní náročné aplikace
- • Zapojte MacBook do napájení
- • Počkejte na ochlazení po předchozí zátěži
- • Vypněte režim úspory energie
Interpretace výsledků
- • Vyšší tokens/s = rychlejší inference
- • Q4 kvantizace: nejrychlejší, nižší kvalita
- • Q8 kvantizace: pomalejší, vyšší kvalita
- • Sledujte využití paměti a teplotu
Optimalizace výkonu
- • Použijte Metal (-ngl) pro Apple Silicon
- • Experimentujte s počtem vláken (-t)
- • Vyzkoušejte různé batch sizes (-b)
- • Sledujte memory bandwidth
Automatizace testů
- • Vytvořte shell script pro opakované testy
- • Exportujte výsledky do CSV/MD
- • Porovnejte různé verze llama.cpp
- • Sledujte změny po aktualizacích
Další zdroje
Užitečné odkazy a dokumentace pro pokročilé použití.