huggingface · cpcdoy · Jan 15, 2025 · Jan 15, 2025 · Feb 7, 2025 · Apr 8, 2025
diff --git a/pyproject.toml b/pyproject.toml
@@ -83,7 +83,7 @@ dependencies = [
 
 [project.optional-dependencies]
 litellm = ["litellm", "diskcache"]
-tgi = ["text-generation>=0.6.0"]
+tgi = ["text-generation==0.7.0"]
 optimum = ["optimum==1.12.0"]
 quantization = ["bitsandbytes>=0.41.0", "auto-gptq>=0.4.2"]
 adapters = ["peft==0.3.0"]

diff --git a/src/lighteval/models/endpoints/endpoint_model.py b/src/lighteval/models/endpoints/endpoint_model.py
@@ -433,6 +433,7 @@ async def _async_process_batch_logprob(
                     context=request.context if rolling else request.context + request.choice,
                     stop_tokens=[],
                     max_tokens=1,
+                    grammar=request.generation_grammar,
                 )
                 for request in requests
             ]
@@ -446,6 +447,7 @@ def _process_batch_logprob(
                 context=request.context if rolling else request.context + request.choice,
                 stop_tokens=[],
                 max_tokens=1,
+                grammar=request.generation_grammar,
             )
             for request in requests
         ]

diff --git a/src/lighteval/models/endpoints/tgi_model.py b/src/lighteval/models/endpoints/tgi_model.py
@@ -79,7 +79,7 @@ def __init__(self, config: TGIModelConfig) -> None:
 
         model_name = str(self.model_info["model_id"])
         model_sha = self.model_info["model_sha"]
-        model_precision = self.model_info["model_dtype"]
+        model_precision = self.model_info.get("model_dtype")
         self.model_info = ModelInfo(
             model_name=model_name,
             model_sha=model_sha,
@@ -105,7 +105,24 @@ def _async_process_request(
             grammar=grammar,
         )
 
-        generated_text = self.client.generate(prompt=context, generation_config=generation_config)
+        generated_text = self.client.generate(
+            prompt=context,
+            do_sample=generation_config.do_sample or False,
+            max_new_tokens=generation_config.max_new_tokens,
+            best_of=generation_config.best_of,
+            repetition_penalty=generation_config.repetition_penalty,
+            return_full_text=generation_config.return_full_text or False,
+            seed=generation_config.seed,
+            stop_sequences=generation_config.stop,
+            temperature=generation_config.temperature,
+            top_k=generation_config.top_k,
+            top_p=generation_config.top_p,
+            truncate=generation_config.truncate,
+            typical_p=generation_config.typical_p,
+            watermark=generation_config.watermark or False,
+            decoder_input_details=generation_config.decoder_input_details,
+            grammar=generation_config.grammar,
+        )
 
         return generated_text
 

diff --git a/src/lighteval/models/model_input.py b/src/lighteval/models/model_input.py
@@ -30,10 +30,9 @@ class GenerationParameters(BaseModel, extra="forbid"):
     frequency_penalty: NonNegativeFloat | None = None  # vllm, tgi, sglang
     length_penalty: NonNegativeFloat | None = None  # vllm, transformers
     presence_penalty: NonNegativeFloat | None = None  # vllm, sglang
-
     max_new_tokens: NonNegativeInt | None = None  # vllm, transformers, tgi, litellm, sglang
     min_new_tokens: NonNegativeInt | None = None  # vllm, transformers, sglang
-
+    grammar: str | None = None  # tgi
     seed: NonNegativeInt | None = None  # vllm, tgi, litellm
     stop_tokens: list[str] | None = None  # vllm, transformers, tgi, litellm, sglang
     temperature: NonNegativeFloat | None = None  # vllm, transformers, tgi, litellm, sglang
@@ -208,6 +207,7 @@ def to_tgi_ie_dict(self) -> dict:
             "top_k": self.top_k,
             "top_p": self.top_p,
             "truncate": self.truncate_prompt,
+            "grammar": self.grammar,
         }
         return {k: v for k, v in args.items() if v is not None}
 

diff --git a/src/lighteval/models/model_loader.py b/src/lighteval/models/model_loader.py
@@ -121,9 +121,7 @@ def load_model_with_tgi(config: TGIModelConfig):
         raise ImportError(NO_TGI_ERROR_MSG)
 
     logger.info(f"Load model from inference server: {config.inference_server_address}")
-    model = ModelClient(
-        address=config.inference_server_address, auth_token=config.inference_server_auth, model_id=config.model_id
-    )
+    model = ModelClient(config=config)
     return model