MerHS
diff --git a/‎bing_bert/README.md‎
100644100755
Lines changed: 9 additions & 0 deletions b/‎bing_bert/README.md‎
100644100755
Lines changed: 9 additions & 0 deletions
diff --git a/‎bing_bert/bert_dataset_provider.py‎
Lines changed: 15 additions & 0 deletions b/‎bing_bert/bert_dataset_provider.py‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎bing_bert/bert_large_lamb_nvidia_data.json‎
Lines changed: 57 additions & 0 deletions b/‎bing_bert/bert_large_lamb_nvidia_data.json‎
Lines changed: 57 additions & 0 deletions
diff --git a/‎bing_bert/bing_bert_dataset_provider.py‎
Lines changed: 115 additions & 0 deletions b/‎bing_bert/bing_bert_dataset_provider.py‎
Lines changed: 115 additions & 0 deletions
@@ -11,3 +11,12 @@ the same number and generation of GPUs.
 * Detailed technology deep dive, see our [blog post](https://www.deepspeed.ai/news/2020/05/27/fastest-bert-training.html).
 * Tutorial on how to reproduce our results, see our [BERT pre-training tutorial](https://www.deepspeed.ai/tutorials/bert-pretraining/).
 * The source code for our transformer kernels can be found in the [DeepSpeed repo](https://github.com/microsoft/deepspeed).
+
+
+The fastest BERT training record reported above was achieved using internal datasets, which were not publicly available at the time of this release.  However, the DeepSpeed BERT model can also be pre-trained using publicly available datasets from [Nvidia](https://github.com/NVIDIA/DeepLearningExamples/tree/master/PyTorch/LanguageModeling/BERT).  Instructions for preparing the datasets are available [here](https://github.com/NVIDIA/DeepLearningExamples/tree/master/PyTorch/LanguageModeling/BERT#dataset-guidelines). In addition, the following three files are provided in this repo to perform the complete pre-training of DeepSpeed BERT using the Nvidia datasets.
+
+1. <code>ds_train_bert_nvidia_data_bsz64k_seq128.sh</code> script for phase 1 training
+2. <code>ds_train_bert_nvidia_data_bsz32k_seq512.sh</code> script for phase 2 training
+3. <code>bert_large_lamb_nvidia_data.json</code> for configuring the different parameters relating to the model, datasets, hyper-parameters, etc.
+
+The scripts assume that the datasets are available in the path <code>/workspace/bert</code>. For reference, the default settings of these script and configuration files will pre-train the model to achieve EM/F1 finetuning scores of 83.57/90.62 on SQuAD.
@@ -0,0 +1,15 @@
+class BertDatasetProviderInterface:
+    def get_shard(self, index, shuffle=True):
+        raise NotImplementedError
+
+    def release_shard(self, index):
+        raise NotImplementedError
+
+    def prefetch_shard(self, index):
+        raise NotImplementedError
+
+    def get_batch(self, batch_iter):
+        raise NotImplementedError
+
+    def prefetch_batch(self):
+        raise NotImplementedError
@@ -0,0 +1,57 @@
+{
+    "name": "bing_bert_large_lamb_seq",
+    "bert_token_file": "bert-large-uncased",
+    "bert_model_file": "bert-large-uncased",
+    "bert_model_config": {
+        "vocab_size_or_config_json_file": 119547,
+        "hidden_size": 1024,
+        "num_hidden_layers": 24,
+        "num_attention_heads": 16,
+        "intermediate_size": 4096,
+        "hidden_act": "gelu",
+        "hidden_dropout_prob": 0.1,
+        "attention_probs_dropout_prob": 0.1,
+        "max_position_embeddings": 512,
+        "type_vocab_size": 2,
+        "initializer_range": 0.02
+    },
+    "data": {
+        "flags": {
+            "pretrain_dataset": true,
+            "pretrain_type": "wiki_bc"
+        },
+        "mixed_seq_datasets": {
+            "128": {
+                "pretrain_dataset": "data/128"
+            },
+            "512": {
+                "pretrain_dataset": "data/512"
+            }
+        }
+    },
+    "mixed_seq_training": {
+        "128": {
+            "num_epochs": 16,
+            "warmup_proportion": 0.06,
+            "learning_rate": 11e-3,
+            "num_workers": 4,
+            "async_worker": true,
+            "decay_rate": 0.90,
+            "decay_step": 250,
+            "total_training_steps": 7500
+        },
+        "512": {
+            "num_epochs": 20,
+            "warmup_proportion": 0.02,
+            "learning_rate": 2e-3,
+            "num_workers": 4,
+            "async_worker": true,
+            "decay_rate": 0.90,
+            "decay_step": 150,
+            "total_training_steps": 7500
+        }
+    },
+    "validation": {
+        "path": "validation_set/"
+    }
+}
@@ -0,0 +1,115 @@
+import os
+import random
+
+import torch.distributed as dist
+from torch.utils.data import DataLoader, Dataset
+from torch.utils.data.sampler import RandomSampler, SequentialSampler
+from torch.utils.data.distributed import DistributedSampler
+
+from bert_dataset_provider import BertDatasetProviderInterface
+from turing.dataset import PreTrainingDataset, PretrainDataType
+from data_worker import AsyncWorker
+
+
+class BingBertDatasetProvider(BertDatasetProviderInterface):
+    def __init__(self, args):
+        self.tokenizer = args.tokenizer
+        self.refresh_bucket_size = args.refresh_bucket_size
+        self.datasampler = RandomSampler if args.local_rank == -1 else DistributedSampler
+        self.num_workers = args.config['training']['num_workers']
+
+        # Initialize dataset paths
+        self.dataset_paths = []
+        for dataset in ['wiki_pretrain_dataset', 'bc_pretrain_dataset']:
+            self.dataset_paths.append(
+                os.path.join(args.data_path_prefix,
+                             args.config["data"]["datasets"][dataset]))
+
+        self.max_seq_length = args.max_seq_length
+        self.max_predictions_per_seq = args.max_predictions_per_seq
+
+        self.gradient_accumulation_steps = args.gradient_accumulation_steps
+        self.train_micro_batch_size_per_gpu = args.train_micro_batch_size_per_gpu
+        self.local_rank = args.local_rank
+        self.global_rank = dist.get_rank()
+        self.world_size = 1 if self.local_rank == -1 else dist.get_world_size()
+        self.logger = args.logger
+
+        self.dataloaders = {}
+        self.dataset_iterator = []
+
+        # Configure asynchronous data loading
+        self.async_dataloading = 'async_worker' in args.config['training']
+        self.async_worker = None
+
+        if self.global_rank == 0:
+            self.logger.info(
+                f"BingBertDatasetProvider - Initialization:  async data loading {self.async_dataloading}"
+            )
+
+    def get_shard(self, index, shuffle=True):
+        datalengths = []
+        batches_per_dataset = []
+
+        for i, dataset_path in enumerate(self.dataset_paths):
+            pretrain_dataset = PreTrainingDataset(
+                tokenizer=self.tokenizer,
+                folder=dataset_path,
+                logger=self.logger,
+                max_seq_length=self.max_seq_length,
+                index=index,
+                data_type=PretrainDataType.NUMPY,
+                max_predictions_per_seq=self.max_predictions_per_seq)
+
+            datalengths.append(len(pretrain_dataset))
+            batches_per_dataset.append(
+                self._get_effective_batch(len(pretrain_dataset)))
+            self.dataloaders[i] = self._get_dataloader(pretrain_dataset)
+
+        dataset_batches = []
+        for i, batch_count in enumerate(batches_per_dataset):
+            dataset_batches.extend([i] * batch_count)
+
+        # shuffle
+        if shuffle:
+            random.shuffle(dataset_batches)
+
+        self.dataset_iterator = []
+        for dataset_batch_type in dataset_batches:
+            self.dataset_iterator.extend([dataset_batch_type] *
+                                         self.gradient_accumulation_steps *
+                                         self.refresh_bucket_size)
+
+        if self.async_dataloading:
+            self.async_worker = AsyncWorker(self.dataloaders,
+                                            self.dataset_iterator)
+            self.async_worker.start()
+
+        return self.dataset_iterator, sum(datalengths)
+
+    def release_shard(self, index):
+        if self.async_dataloading:
+            self.async_worker.stop()
+
+    def prefetch_shard(self, index):
+        pass
+
+    def get_batch(self, batch_iter):
+        if self.async_dataloading:
+            return self.async_worker.get()
+        return next(self.dataloaders[batch_iter])
+
+    def prefetch_batch(self):
+        if self.async_dataloading:
+            self.async_worker.prefetch()
+
+    def _get_dataloader(self, dataset: Dataset):
+        return (
+            x
+            for x in DataLoader(dataset,
+                                batch_size=self.train_micro_batch_size_per_gpu,
+                                sampler=self.datasampler(dataset),
+                                num_workers=self.num_workers))
+
+    def _get_effective_batch(self, total):
+        return total // self.world_size // self.train_micro_batch_size_per_gpu // self.gradient_accumulation_steps // self.refresh_bucket_size