Merge pull request #30 from winglian/features/python-fixes

backwards support for pre-py3.10, add datasets requirement used in train
2023-03-28 09:34:50 +08:00
parent 6c8c07e7ad 101d314bd9
commit 667e43cb5b
2 changed files with 12 additions and 11 deletions
--- a/finetune.py
+++ b/finetune.py
@@ -72,15 +72,14 @@ tokenizer.pad_token_id = 0
 if not ft_config.skip:
    # Load Data
    data = None
-    match ft_config.ds_type:
-        case "txt" if not ft_config.skip:
-            #### LLaMA
-            data = train_data.TrainTxt(ft_config.dataset, ft_config.val_set_size, tokenizer, ft_config.cutoff_len)
-        case "alpaca" if not ft_config.skip:
-            #### Stanford Alpaca-like Data
-            data = train_data.TrainSAD(ft_config.dataset, ft_config.val_set_size, tokenizer, ft_config.cutoff_len)
-        case _:
-            raise NotImplementedError("ERROR: Unknown dataset format")
+    if ft_config.ds_type == "txt" and not ft_config.skip:
+        #### LLaMa
+        data = train_data.TrainTxt(ft_config.dataset, ft_config.val_set_size, tokenizer, ft_config.cutoff_len)
+    elif ft_config.ds_type == "alpaca" and not ft_config.skip:
+        #### Stanford Alpaca-like Data
+        data = train_data.TrainSAD(ft_config.dataset, ft_config.val_set_size, tokenizer, ft_config.cutoff_len)
+    else:
+        raise NotImplementedError("ERROR: Unknown dataset format")
    data.prepare_data()
    ####

--- a/requirements.txt
+++ b/requirements.txt
@@ -1,6 +1,8 @@
 torch
 accelerate
 bitsandbytes
+datasets
+sentencepiece
 git+https://github.com/huggingface/transformers.git
 git+https://github.com/sterlind/GPTQ-for-LLaMa.git@lora_4bit
 git+https://github.com/sterlind/peft.git