Dockerfile*.ubi: fix permissions for vllm user, cleanup

dtrifiro · dtrifiro · commit 997095b37214 · 2024-12-02T15:32:19.000+01:00
diff --git a/Dockerfile.rocm.ubi b/Dockerfile.rocm.ubi
@@ -213,17 +213,7 @@ RUN --mount=type=bind,from=build_amdsmi,src=/install,target=/install/amdsmi/ \
         /install/flashattention/*.whl\
         /install/vllm/*.whl
 
-# Set up a non-root user for OpenShift
-RUN umask 002 && \
-    useradd --uid 2000 --gid 0 vllm && \
-    mkdir -p /licenses && \
-    chmod g+rwx $HOME /usr/src /workspace
-
-COPY LICENSE /licenses/vllm.md
-COPY examples/*.jinja /app/data/template/
-
 ENV HF_HUB_OFFLINE=1 \
-    PORT=8000 \
     HOME=/home/vllm \
     # Allow requested max length to exceed what is extracted from the
     # config.json
@@ -236,14 +226,23 @@ ENV HF_HUB_OFFLINE=1 \
     TOKENIZERS_PARALLELISM=false  \
     RAY_EXPERIMENTAL_NOSET_ROCR_VISIBLE_DEVICES=1 \
     VLLM_USE_TRITON_FLASH_ATTN=0 \
+    HIP_FORCE_DEV_KERNARG=1 \
     OUTLINES_CACHE_DIR=/tmp/outlines \
     NUMBA_CACHE_DIR=/tmp/numba \
     TRITON_CACHE_DIR=/tmp/triton
 
-# Switch to the non-root user
+# setup non-root user for OpenShift
+RUN umask 002 && \
+    useradd --uid 2000 --gid 0 vllm && \
+    mkdir -p /licenses /home/vllm && \
+    chmod g+rwx /home/vllm
+
+COPY LICENSE /licenses/vllm.md
+COPY examples/*.jinja /app/data/template/
+
 USER 2000
+WORKDIR /home/vllm
 
-# Set the entrypoint
 ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server"]
 
 
@@ -254,7 +253,7 @@ USER root
 RUN --mount=type=cache,target=/root/.cache/pip \
     --mount=type=cache,target=/root/.cache/uv \
     --mount=type=bind,from=build_vllm,src=/workspace/dist,target=/install/vllm/ \
-    HOME=/root/ uv pip install /install/vllm/*.whl vllm-tgis-adapter==0.5.3
+    HOME=/root uv pip install /install/vllm/*.whl vllm-tgis-adapter==0.5.3
 
 ENV GRPC_PORT=8033 \
     PORT=8000 \
diff --git a/Dockerfile.ubi b/Dockerfile.ubi
@@ -146,7 +146,7 @@ ARG PYTHON_VERSION
 WORKDIR /workspace
 
 ENV VIRTUAL_ENV=/opt/vllm
-ENV PATH=$VIRTUAL_ENV/bin/:$PATH
+ENV PATH=$VIRTUAL_ENV/bin:$PATH
 
 # force using the python venv's cuda runtime libraries
 ENV LD_LIBRARY_PATH="${VIRTUAL_ENV}/lib/python${PYTHON_VERSION}/site-packages/nvidia/cuda_nvrtc/lib:${LD_LIBRARY_PATH}"
@@ -182,22 +182,23 @@ ENV HF_HUB_OFFLINE=1 \
     VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
     VLLM_USAGE_SOURCE=production-docker-image \
     VLLM_WORKER_MULTIPROC_METHOD=fork \
+    VLLM_NO_USAGE_STATS=1 \
     OUTLINES_CACHE_DIR=/tmp/outlines \
     NUMBA_CACHE_DIR=/tmp/numba \
     TRITON_CACHE_DIR=/tmp/triton \
-    VLLM_NO_USAGE_STATS=1
 
 # setup non-root user for OpenShift
-RUN umask 002 \
-    && useradd --uid 2000 --gid 0 vllm \
-    && chmod g+rwx $HOME /usr/src /workspace
+RUN umask 002 && \
+    useradd --uid 2000 --gid 0 vllm && \
+    mkdir -p /home/vllm && \
+    chmod g+rwx /home/vllm /usr/src /workspace
 
 COPY LICENSE /licenses/vllm.md
-
-# Copy only .jinja files from example directory to template directory
 COPY examples/*.jinja /app/data/template/
 
 USER 2000
+WORKDIR /home/vllm
+
 ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server"]
 
 
@@ -206,8 +207,9 @@ FROM vllm-openai as vllm-grpc-adapter
 USER root
 
 RUN --mount=type=cache,target=/root/.cache/pip \
+    --mount=type=cache,target=/root/.cache/uv \
     --mount=type=bind,from=build,src=/workspace/dist,target=/workspace/dist \
-    uv pip install $(echo dist/*.whl)'[tensorizer]' vllm-tgis-adapter==0.5.3
+    HOME=/root uv pip install $(echo dist/*.whl)'[tensorizer]' vllm-tgis-adapter==0.5.3
 
 ENV GRPC_PORT=8033 \
     PORT=8000 \