OptimalScale · SHUMKASHUN · Sep 22, 2023 · Sep 22, 2023
diff --git a/src/lmflow/models/hf_decoder_model.py b/src/lmflow/models/hf_decoder_model.py
@@ -493,6 +493,16 @@ def tokenize(self, dataset, add_special_tokens=True, *args, **kwargs):
         # logger loading before tokenize_function
         tok_logger = transformers.utils.logging.get_logger("transformers.tokenization_utils_base")
 
+        data_args = raw_datasets.get_data_args()
+
+        # Whether to truncate long sequences to fit into max_length
+        use_truncation = False
+        if model_args.use_lora or data_args.disable_group_texts:
+            use_truncation = True
+
+        # Whether to pad short sequences to max_length
+        padding = "max_length" if data_args.disable_group_texts else False
+
         def tokenize_function(examples):
             num_example = len(examples[column_names[0]])
             token_dict = {
@@ -505,7 +515,8 @@ def tokenize_function(examples):
                     encoding = self.tokenizer(
                         examples[column_name],
                         add_special_tokens=add_special_tokens,
-                        truncation=True if model_args.use_lora else None,
+                        truncation=use_truncation,
+                        padding=padding,
                     )
 
                     if column_name in label_columns:
@@ -533,11 +544,14 @@ def tokenize_function(examples):
                 )
             return token_dict
 
-        data_args = raw_datasets.get_data_args()
         if not data_args.streaming:
             fingerprint = raw_datasets.get_fingerprint()
             new_fingerprint = hashlib.md5(
-                (fingerprint + str(self.tokenizer)).encode("utf-8")
+                (
+                    fingerprint
+                    + str(self.tokenizer)
+                    + f'###disable_group_texts={data_args.disable_group_texts}'
+                ).encode("utf-8")
             ).hexdigest()
 
             tokenized_datasets = raw_datasets.map(

diff --git a/src/lmflow/pipeline/finetuner.py b/src/lmflow/pipeline/finetuner.py
@@ -230,24 +230,32 @@ def tune(self,
         else:
             with finetuner_args.main_process_first(desc="dataset map tokenization"):
                 tokenized_dataset = model.tokenize(dataset)
-                lm_dataset = self.group_text(
-                    tokenized_dataset,
-                    model_max_length=model.get_max_length(),
-                )
+                if data_args.disable_group_texts:
+                    lm_dataset = tokenized_dataset
+                else:
+                    lm_dataset = self.group_text(
+                        tokenized_dataset,
+                        model_max_length=model.get_max_length(),
+                    )
 
         train_dataset = lm_dataset.get_backend_dataset()
+        logger.info(f"Number of train samples: {len(train_dataset)}")
 
         if finetuner_args.do_eval:
             eval_dataset_args = deepcopy(data_args)
             eval_dataset_args.dataset_path = finetuner_args.eval_dataset_path
             eval_dataset = Dataset(eval_dataset_args)
             with finetuner_args.main_process_first(desc="dataset map tokenization"):
                 tokenized_dataset = model.tokenize(eval_dataset)
-                lm_dataset = self.group_text(
-                    tokenized_dataset,
-                    model_max_length=model.get_max_length(),
-                )
+                if data_args.disable_group_texts:
+                    lm_dataset = tokenized_dataset
+                else:
+                    lm_dataset = self.group_text(
+                        tokenized_dataset,
+                        model_max_length=model.get_max_length(),
+                    )
             eval_dataset = lm_dataset.get_backend_dataset()
+            logger.info(f"Number of eval samples: {len(train_dataset)}")
 
 
             def preprocess_logits_for_metrics(logits, labels):