docker-vllm

A collection of simple Docker files for vLLM and web based applications

Quick Reference - vLLM serve + client OpenAI API

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=hf_XXX" \
    -p 8000:8000 \
    --ipc=host vllm/vllm-openai:latest \
    --tensor-parallel-size 2 \
     --model meta-llama/Llama-3.1-8B-Instruct

NOTE - the argument HUGGING_FACE_HUB_TOKEN not be necessary if you are already logged in huggingface login.

Client-side:

api_token = "EMPTY"
client = OpenAI(
    base_url=f"http://localhost:{args.port}/v1",
    api_key=api_token,
)

NOTE - vLLM serve default port is 8000.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
prometheus_grafana_example		prometheus_grafana_example
prometheus_integration		prometheus_integration
redis_chat_bot		redis_chat_bot
simple_proxy_mp2_vllm		simple_proxy_mp2_vllm
simple_web_app		simple_web_app
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

docker-vllm

Quick Reference - vLLM serve + client OpenAI API

About

Releases

Packages

Languages

sbaby171/docker-vllm

Folders and files

Latest commit

History

Repository files navigation

docker-vllm

Quick Reference - vLLM serve + client OpenAI API

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages