Docker Model Runner – nowy sposób na lokalne uruchamianie modeli LLM

Generatywna sztuczna inteligencja wkracza do każdego zakątka świata IT, ale dotychczas lokalne testowanie i uruchamianie modeli bywało kłopotliwe. Rozproszenie narzędzi, problemy z kompatybilnością sprzętową czy rozdzielenie środowiska kontenerów od workflow aplikacyjnego wydłużały czas iteracji. Teraz z pomocą przychodzi nam Docker Model Runner – nowy sposób na szybkie, proste i w pełni zintegrowane uruchamianie modeli AI w Docker.

Dlaczego lokalne uruchamianie modeli ma znaczenie?

Wydajność – minimalizujemy opóźnienia sieciowe, korzystając z mocy obliczeniowej maszyny deweloperskiej.
Koszty – unikamy stałych rachunków za inference w chmurze podczas intensywnych testów.
Prywatność danych – wszystkie operacje odbywają się lokalnie, bez konieczności wysyłania wrażliwych danych na zewnętrzne serwery.

Standardowa konfiguracja np. z LM Studio wymagała ręcznego uruchamiania narzędzi, instalowania frameworków, pobierania modeli z różnych źródeł i żonglowania między CLI narzędzi AI a Dockerem. Każda zmiana kodu aplikacji często wymagała nowego, złożonego procesu „od zera”. Myślę, że nadal narzędzia typu LM Studio będą miały rację bytu, ale wdrożenie Docker Model Runnera to gamechanger dla developerów.

Czym jest Docker Model Runner?

Docker Model Runner to nowa funkcjonalność (obecnie w fazie testowej) dostępna w Docker Desktop 4.40, która wprowadza inference engine bezpośrednio do środowiska Docker. Dzięki temu:

Uruchomienie modelu sprowadza się do polecenia docker model run.
Silnik oparty jest na llama.cpp, a interfejs API udostępnia endpointy zgodne z OpenAI API.
Brak konieczności dodatkowej konfiguracji – wszystko działa w ramach jednej aplikacji Docker Desktop.

Akceleracja GPU dostępna dla użytkowników Apple Silicon!

Bardzo ważną informacją jest to fakt, że od teraz możliwe jest uruchamianie modeli AI przy użyciu środowiska Dockera z akceleracją GPU na macOS! Osoby, które korzystają z macOS wiedzą, że w przypadku tego systemu operacyjnego kontenery nie są uruchamiane na hoście, ale w formie maszyn wirtualnych co ograniczyło możliwość dostępu do GPU. W przypadku Docker Model Runnera modele AI uruchamiane są bezpośrednio na hoście co daje dostęp do akceleracji GPU. W przypadku modeli AI sprzęt od Apple jest dość dobrym wyborem do pracy z lokalnymi modeli z uwagi na zunifikowaną pamięć RAM. Szkoda tylko, że dopłaty za dodatkowy RAM w Apple są wręcz porażające 🙁

Uwaga!

Przy aktualizacji Docker Desktop for Mac uważajcie na wersję Docker Desktop. U mnie wersja 4.40 działa prawidłowa, ale już wersja 4.41 dokonała wręcz spustoszenia w środowisku deweloperskim – kontenery przestały się uruchamiać (większość z nich) i bez resetu do ustawień fabrycznych nie byłem w stanie sobie z tym problem poradzić – sprawa zgłoszona do supportu Dockera.

Dlaczego lokalne uruchamianie modeli ma znaczenie?

Czym jest Docker Model Runner?

Akceleracja GPU dostępna dla użytkowników Apple Silicon!

Dodaj komentarz Anuluj pisanie odpowiedzi