WorkDB
diff --git a/‎data_efficiency/gpt_finetuning/README.md‎
Lines changed: 26 additions & 0 deletions b/‎data_efficiency/gpt_finetuning/README.md‎
Lines changed: 26 additions & 0 deletions
diff --git a/‎data_efficiency/gpt_finetuning/bash_script/run_base_random_ltd.sh‎
Lines changed: 30 additions & 0 deletions b/‎data_efficiency/gpt_finetuning/bash_script/run_base_random_ltd.sh‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎data_efficiency/gpt_finetuning/bash_script/run_medium_random_ltd.sh‎
Lines changed: 18 additions & 0 deletions b/‎data_efficiency/gpt_finetuning/bash_script/run_medium_random_ltd.sh‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎data_efficiency/gpt_finetuning/config/ds_config_gpt_base_random_ltd.json‎
Lines changed: 47 additions & 0 deletions b/‎data_efficiency/gpt_finetuning/config/ds_config_gpt_base_random_ltd.json‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎data_efficiency/gpt_finetuning/config/ds_config_gpt_medium_random_ltd.json‎
Lines changed: 47 additions & 0 deletions b/‎data_efficiency/gpt_finetuning/config/ds_config_gpt_medium_random_ltd.json‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎data_efficiency/gpt_finetuning/requirement.txt‎
Lines changed: 5 additions & 0 deletions b/‎data_efficiency/gpt_finetuning/requirement.txt‎
Lines changed: 5 additions & 0 deletions
@@ -0,0 +1,26 @@
+#### Example of fine-tuning GPT using random-LTD (https://arxiv.org/abs/2211.11586)
+
+#### Install
+
+``pip install -r requirement.txt``
+
+You will also need to install updated DeepSpeed version (>=0.7.7), which contains the random-ltd library.
+
+#### Key File: run_clm_no_trainer.py
+
+The python code is modified based on huggingface (https://github.com/huggingface/transformers/blob/main/examples/pytorch/language-modeling/run_clm_no_trainer.py). The key added feature is our random-ltd.
+
+#### Folders (config)
+
+* **config:** This folder provides DeepSpeed configuration, including the schedules of sequence-length and the layers applied by random-ltd.
+
+#### bash script
+
+* **run_base_random_ltd.sh/run_medium_random_ltd.sh**  This bash script contains jobs for training with random-ltd
+* Run the job under the gpt_finetuning directory:
+
+ ``DeepSpeedExamples/random_ltd/gpt_finetuning$ . ./bash_script/run_base_random_ltd.sh``
+
+
+ ``DeepSpeedExamples/random_ltd/gpt_finetuning$ . ./bash_script/run_medium_random_ltd.sh``
+ See more descriptions and results in our [tutorial page](https://www.deepspeed.ai/).
@@ -0,0 +1,30 @@
+#!/bin/bash
+##################apply random-ltd to fine-tune ptb on GPT-base (12-layer)##############################
+####see more on random-ltd: https://arxiv.org/abs/2211.11586
+export CUDA_VISIBLE_DEVICES=1
+mkdir -p ./output/check_base
+python -m torch.distributed.launch --nproc_per_node=1 \
+    --master_port 12346 \
+    run_clm_no_trainer.py \
+    --random_ltd \
+    --dataset_name ptb_text_only \
+    --dataset_config_name penn_treebank \
+    --model_name_or_path gpt2 \
+    --per_device_train_batch_size 2 \
+    --per_device_eval_batch_size 4 \
+    --num_train_epochs 2  \
+    --deepspeed_config config/ds_config_gpt_base_random_ltd.json \
+    --deepspeed --seed 1234 --num_warmup_steps 100 \
+    --output_dir ./output/check_base &> ./output/check_base/training.log
+
+# python run_clm_no_trainer.py \
+#     --random_ltd \
+#     --dataset_name ptb_text_only \
+#     --dataset_config_name penn_treebank \
+#     --model_name_or_path gpt2 \
+#     --per_device_train_batch_size 2 \
+#     --per_device_eval_batch_size 4 \
+#     --num_train_epochs 2 \
+#     --deepspeed_config config/ds_config_gpt_base_random_ltd.json \
+#     --deepspeed --seed 1234\
+#     --output_dir ./output/check_base
@@ -0,0 +1,18 @@
+#!/bin/bash
+##################apply random-ltd to fine-tune ptb on GPT-medium (24-layer)##############################
+####see more on random-ltd: https://arxiv.org/abs/2211.11586
+export CUDA_VISIBLE_DEVICES=2
+mkdir -p ./output/check_medium
+python -m torch.distributed.launch --nproc_per_node=1 \
+    --master_port 12345 \
+    run_clm_no_trainer.py \
+    --random_ltd \
+    --dataset_name ptb_text_only \
+    --dataset_config_name penn_treebank \
+    --model_name_or_path gpt2-medium \
+    --per_device_train_batch_size 2 \
+    --per_device_eval_batch_size 2 \
+    --num_train_epochs 2 \
+    --deepspeed_config config/ds_config_gpt_medium_random_ltd.json \
+    --deepspeed --seed 1234 --num_warmup_steps 100 \
+    --output_dir ./output/check_medium &> ./output/check_medium/training.log
@@ -0,0 +1,47 @@
+{
+  "train_batch_size" : 4,
+  "train_micro_batch_size_per_gpu": 2,
+  "steps_per_print": 2,
+  "optimizer": {
+    "type": "Adam",
+    "params": {
+      "lr": 0.0001,
+      "betas": [0.8,0.999],
+      "eps": 1e-8,
+      "weight_decay": 3e-7
+    }
+  },
+  "zero_optimization": {
+    "stage": 0
+  },
+  "fp16":{
+    "enabled": false
+  },
+  "gradient_clipping": 1.0,
+  "prescale_gradients": true,
+  "wall_clock_breakdown" : false,
+  "data_efficiency": {
+    "enabled": true,
+    "data_routing": {
+      "enabled": true,
+      "random_ltd":{
+        "enabled": true,
+        "total_layer_num": 12,
+        "random_ltd_layer_num": 10,
+        "random_ltd_layer_id": [1,2,3,4,5,6,7,8,9,10],
+        "model_mask_name": "attention_mask",
+        "model_type": "decoder",
+        "hidden_state_order": "batch_seq_dim",
+        "random_ltd_schedule": {
+          "min_value": 128,
+          "max_value": 1024,
+          "schedule_type": "fixed_linear",
+          "schedule_config": {
+            "require_steps": 400,
+            "seq_per_step": 8
+          }
+        }
+      } 
+    }
+  }
+}
@@ -0,0 +1,47 @@
+{
+  "train_batch_size" : 4,
+  "train_micro_batch_size_per_gpu": 2,
+  "steps_per_print": 2,
+  "optimizer": {
+    "type": "Adam",
+    "params": {
+      "lr": 0.0001,
+      "betas": [0.8,0.999],
+      "eps": 1e-8,
+      "weight_decay": 3e-7
+    }
+  },
+  "zero_optimization": {
+    "stage": 0
+  },
+  "fp16":{
+    "enabled": false
+  },
+  "gradient_clipping": 1.0,
+  "prescale_gradients": true,
+  "wall_clock_breakdown" : false,
+  "data_efficiency": {
+    "enabled": true,
+    "data_routing": {
+      "enabled": true,
+      "random_ltd":{
+        "enabled": true,
+        "total_layer_num": 24,
+        "random_ltd_layer_num": 22,
+        "random_ltd_layer_id": [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22],
+        "model_mask_name": "attention_mask",
+        "model_type": "decoder",
+        "hidden_state_order": "batch_seq_dim",
+        "random_ltd_schedule": {
+          "min_value": 128,
+          "max_value": 1024,
+          "schedule_type": "fixed_linear",
+          "schedule_config": {
+            "require_steps": 400,
+            "seq_per_step": 8
+          }
+        }
+      } 
+    }
+  }
+}
@@ -0,0 +1,5 @@
+datasets >= 1.8.0
+sentencepiece != 0.1.92
+protobuf
+transformers == 4.15.0
+accelerate