Removing obsolete code (BERT)

nvpstr · nvpstr · commit 93fa95e3c78a · 2019-03-27T17:34:23.000+01:00
diff --git a/TensorFlow/LanguageModeling/BERT/optimization.py b/TensorFlow/LanguageModeling/BERT/optimization.py
@@ -22,7 +22,7 @@
 import tensorflow as tf
 
 
-def create_optimizer(loss, init_lr, num_train_steps, num_warmup_steps, use_tpu, hvd=None, use_fp16=False, fastmath=False, amp=False, amp_fastmath=False):
+def create_optimizer(loss, init_lr, num_train_steps, num_warmup_steps, use_tpu, hvd=None, use_fp16=False, amp=False):
   """Creates an optimizer training op."""
   global_step = tf.train.get_or_create_global_step()
 
@@ -75,15 +75,15 @@ def create_optimizer(loss, init_lr, num_train_steps, num_warmup_steps, use_tpu,
     if hvd is not None:
       from horovod.tensorflow.compression import Compression
       optimizer = hvd.DistributedOptimizer(optimizer, sparse_as_dense=True, compression=Compression.none)
-    if use_fp16 or fastmath or amp or amp_fastmath:
+    if use_fp16 or amp:
       loss_scale_manager = tf.contrib.mixed_precision.ExponentialUpdateLossScaleManager(init_loss_scale=2**32, incr_every_n_steps=1000, decr_every_n_nan_or_inf=2, decr_ratio=0.5)
       optimizer = tf.contrib.mixed_precision.LossScaleOptimizer(optimizer, loss_scale_manager)
 
   tvars = tf.trainable_variables()
   grads_and_vars = optimizer.compute_gradients(loss, tvars)
   grads_and_vars = [(g,v) for g,v in grads_and_vars if g is not None]
   grads, tvars = list(zip(*grads_and_vars))
-  all_are_finite = tf.reduce_all([tf.reduce_all(tf.is_finite(g)) for g in grads]) if use_fp16 or fastmath or amp or amp_fastmath else tf.constant(True, dtype=tf.bool)
+  all_are_finite = tf.reduce_all([tf.reduce_all(tf.is_finite(g)) for g in grads]) if use_fp16 or amp else tf.constant(True, dtype=tf.bool)
 
   # This is how the model was pre-trained.
   # ensure global norm is a finite number 
diff --git a/TensorFlow/LanguageModeling/BERT/run_pretraining.py b/TensorFlow/LanguageModeling/BERT/run_pretraining.py
@@ -114,28 +114,24 @@
 
 flags.DEFINE_bool("use_xla", False, "Whether to enable XLA JIT compilation.")
 
-flags.DEFINE_bool("fastmath", False, "Whether to enable loss scaler for fasthmath ops.")
-
 flags.DEFINE_bool("amp", False, "Whether to enable AMP ops.")
 
-flags.DEFINE_bool("amp_fastmath", False, "Whether to enable AMP fasthmath ops.")
-
 # report samples/sec, total loss and learning rate during training
 class _LogSessionRunHook(tf.train.SessionRunHook):
   def __init__(self, global_batch_size, display_every=10, hvd_rank=-1):
     self.global_batch_size = global_batch_size
     self.display_every = display_every
     self.hvd_rank = hvd_rank
   def after_create_session(self, session, coord):
-    if FLAGS.use_fp16 or FLAGS.fastmath or FLAGS.amp or FLAGS.amp_fastmath:
+    if FLAGS.use_fp16 or FLAGS.amp:
       print('  Step samples/sec   MLM Loss  NSP Loss  Loss  Learning-rate  Loss-scaler')
     else:
       print('  Step samples/sec   MLM Loss  NSP Loss  Loss  Learning-rate')
     self.elapsed_secs = 0.
     self.count = 0
   def before_run(self, run_context):
     self.t0 = time.time()
-    if FLAGS.use_fp16 or FLAGS.fastmath or FLAGS.amp or FLAGS.amp_fastmath:
+    if FLAGS.use_fp16 or FLAGS.amp:
       return tf.train.SessionRunArgs(
           fetches=['step_update:0', 'total_loss:0',
                    'learning_rate:0', 'nsp_loss:0',
@@ -148,7 +144,7 @@ def before_run(self, run_context):
   def after_run(self, run_context, run_values):
     self.elapsed_secs += time.time() - self.t0
     self.count += 1
-    if FLAGS.use_fp16 or FLAGS.fastmath or FLAGS.amp or FLAGS.amp_fastmath:
+    if FLAGS.use_fp16 or FLAGS.amp:
       global_step, total_loss, lr, nsp_loss, mlm_loss, loss_scaler = run_values.results
     else:
       global_step, total_loss, lr, nsp_loss, mlm_loss = run_values.results
@@ -157,14 +153,14 @@ def after_run(self, run_context, run_values):
         dt = self.elapsed_secs / self.count
         img_per_sec = self.global_batch_size / dt
         if self.hvd_rank >= 0:
-          if FLAGS.use_fp16 or FLAGS.fastmath or FLAGS.amp or FLAGS.amp_fastmath:
+          if FLAGS.use_fp16 or FLAGS.amp:
             print('%2d :: %6i %11.1f %10.4e %10.4e %6.3f     %6.4e  %6.4e' %
                   (self.hvd_rank, print_step, img_per_sec, mlm_loss, nsp_loss, total_loss, lr, loss_scaler))
           else:
             print('%2d :: %6i %11.1f %10.4e %10.4e %6.3f     %6.4e' %
                   (self.hvd_rank, print_step, img_per_sec, mlm_loss, nsp_loss, total_loss, lr))
         else:
-          if FLAGS.use_fp16 or FLAGS.fastmath or FLAGS.amp or FLAGS.amp_fastmath:
+          if FLAGS.use_fp16 or FLAGS.amp:
             print('%6i %11.1f %10.4e %10.4e %6.3f     %6.4e  %6.4e' %
                   (print_step, img_per_sec, mlm_loss, nsp_loss, total_loss, lr, loss_scaler))
           else:
@@ -247,7 +243,7 @@ def tpu_scaffold():
     if mode == tf.estimator.ModeKeys.TRAIN:
       train_op = optimization.create_optimizer(
           total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu,
-          hvd, FLAGS.use_fp16, FLAGS.fastmath, FLAGS.amp, FLAGS.amp_fastmath)
+          hvd, FLAGS.use_fp16, FLAGS.amp)
 
       output_spec = tf.contrib.tpu.TPUEstimatorSpec(
           mode=mode,
@@ -483,24 +479,8 @@ def main(_):
   if not FLAGS.do_train and not FLAGS.do_eval:
     raise ValueError("At least one of `do_train` or `do_eval` must be True.")
 
-  if FLAGS.fastmath and FLAGS.amp:
-    raise ValueError("Only one of fastmath or amp must be True.")
-
-  if FLAGS.fastmath and FLAGS.amp_fastmath:
-    raise ValueError("Only one of fastmath or amp_fastmath must be True.")
-
-  if FLAGS.amp and FLAGS.amp_fastmath:
-    raise ValueError("Only one of amp or amp_fastmath must be True.")
-
-  if FLAGS.fastmath:
-    os.environ["TF_ENABLE_CUBLAS_TENSOR_OP_MATH_FP32"] = "1"
-    os.environ["TF_ENABLE_CUDNN_TENSOR_OP_MATH_FP32"] = "1"
-    os.environ["TF_ENABLE_CUDNN_RNN_TENSOR_OP_MATH_FP32"] = "1"
-  elif FLAGS.amp:
-    os.environ["TF_ENABLE_AUTO_MIXED_PRECISION_GRAPH_REWRITE"] = "1"
-  elif FLAGS.amp_fastmath:
+  if FLAGS.amp:
     os.environ["TF_ENABLE_AUTO_MIXED_PRECISION_GRAPH_REWRITE"] = "1"
-    os.environ["TF_AUTO_MIXED_PRECISION_GRAPH_REWRITE_LEVEL"] = "TENSOR_CORES_ONLY"
 
   if FLAGS.horovod:
     import horovod.tensorflow as hvd
diff --git a/TensorFlow/LanguageModeling/BERT/run_squad.py b/TensorFlow/LanguageModeling/BERT/run_squad.py
@@ -29,6 +29,7 @@
 import six
 import tensorflow as tf
 import horovod.tensorflow as hvd
+import time
 flags = tf.flags
 
 FLAGS = flags.FLAGS
diff --git a/TensorFlow/LanguageModeling/BERT/scripts/finetune_inference_benchmark.sh b/TensorFlow/LanguageModeling/BERT/scripts/finetune_inference_benchmark.sh
@@ -18,13 +18,7 @@ if [ "$task" = "squad" ] ; then
     if [ "$precision" = "fp16" ] ; then
             echo "fp16 activated!"
             export TF_ENABLE_AUTO_MIXED_PRECISION_GRAPH_REWRITE=1
-            use_fp16="--fast_math"
-    elif [ "$precision" = "fast_math" ] ; then
-            echo "fastmath activated!"
-            export TF_ENABLE_CUBLAS_TENSOR_OP_MATH_FP32=1
-            export TF_ENABLE_CUDNN_TENSOR_OP_MATH_FP32=1
-            export TF_ENABLE_CUDNN_RNN_TENSOR_OP_MATH_FP32=1
-            export TF_USE_DEFAULT_LOSS_SCALING=1
+            use_fp16="--use_fp16"
     fi
 
     if [ "$use_xla" = "true" ] ; then
diff --git a/TensorFlow/LanguageModeling/BERT/scripts/finetune_train_benchmark.sh b/TensorFlow/LanguageModeling/BERT/scripts/finetune_train_benchmark.sh
@@ -17,12 +17,7 @@ if [ "$task" = "squad" ] ; then
     LOGFILE="/results/${task}_training_benchmark.log"
     if [ "$precision" = "fp16" ] ; then
             export TF_ENABLE_AUTO_MIXED_PRECISION_GRAPH_REWRITE=1
-            use_fp16="--fast_math"
-    elif [ "$precision" = "fast_math" ] ; then
-            export TF_ENABLE_CUBLAS_TENSOR_OP_MATH_FP32=1
-            export TF_ENABLE_CUDNN_TENSOR_OP_MATH_FP32=1
-            export TF_ENABLE_CUDNN_RNN_TENSOR_OP_MATH_FP32=1
-            export TF_USE_DEFAULT_LOSS_SCALING=1
+            use_fp16="--use_fp16"
     fi
 
 
diff --git a/TensorFlow/LanguageModeling/BERT/scripts/run_pretraining.sh b/TensorFlow/LanguageModeling/BERT/scripts/run_pretraining.sh
@@ -50,12 +50,6 @@ elif [ "$precision" = "fp16_xla" ] ; then
    PREC="--use_fp16 --use_xla"
 elif [ "$precision" = "fp32" ] ; then
    PREC=""
-elif [ "$precision" = "fastmath" ] ; then
-   PREC="--fast_math"
-elif [ "$precision" = "amp_fm" ] ; then
-   PREC="--amp_fastmath"
-elif [ "$precision" = "amp_fm_xla" ] ; then
-   PREC="--amp_fastmath --use_xla"
 elif [ "$precision" = "amp" ] ; then
    PREC="--amp"
 elif [ "$precision" = "amp_xla" ] ; then
diff --git a/TensorFlow/LanguageModeling/BERT/scripts/run_squad_inference.sh b/TensorFlow/LanguageModeling/BERT/scripts/run_squad_inference.sh
@@ -14,13 +14,7 @@ use_fp16=""
 if [ "$precision" = "fp16" ] ; then
         echo "fp16 activated!"
         export TF_ENABLE_AUTO_MIXED_PRECISION_GRAPH_REWRITE=1
-        use_fp16="--fast_math"
-elif [ "$precision" = "fast_math" ] ; then
-        echo "fastmath activated!"
-        export TF_ENABLE_CUBLAS_TENSOR_OP_MATH_FP32=1
-        export TF_ENABLE_CUDNN_TENSOR_OP_MATH_FP32=1
-        export TF_ENABLE_CUDNN_RNN_TENSOR_OP_MATH_FP32=1
-        export TF_USE_DEFAULT_LOSS_SCALING=1
+        use_fp16="--use_fp16"
 fi
 
 if [ "$use_xla" = "true" ] ; then
@@ -30,7 +24,6 @@ else
     use_xla_tag=""
 fi
 
-
 python run_squad.py \
 --vocab_file=$BERT_DIR/vocab.txt \
 --bert_config_file=$BERT_DIR/bert_config.json \
diff --git a/TensorFlow/LanguageModeling/BERT/scripts/start_pretraining.sh b/TensorFlow/LanguageModeling/BERT/scripts/start_pretraining.sh
@@ -63,7 +63,7 @@ export EXTRA_PARAMS
 
 set -x
 cd $CODEDIR
-pwd 
+pwd
 
 PART=""
 if [ "$partition" != "default" ] ; then
@@ -75,15 +75,16 @@ printf -v TAG "%s_%dn_%s_gbs%d" "$job_name" $num_nodes "$precision" $GBS
 export DATESTAMP=`date +'%y%m%d%H%M%S'`
 
 sbatch $PART \
-	-N $num_nodes \
-       	-t $wall_time \
-       	-J $job_name \
-	--exclusive \
+        -N $num_nodes \
+        -t $wall_time \
+        -J $job_name \
+        --exclusive \
         --mem=0 \
-	--mail-type=FAIL \
-	--ntasks-per-node=$DGXNGPU \
-	--threads-per-core=$DGXHT \
-	--cores-per-socket=$DGXSOCKETCORES \
-	--output=$LOGDIR/$TAG.$DATESTAMP.log \
-	$CODEDIR/scripts/run.sub 
+        --mail-type=FAIL \
+        --ntasks-per-node=$DGXNGPU \
+        --threads-per-core=$DGXHT \
+        --cores-per-socket=$DGXSOCKETCORES \
+        --output=$LOGDIR/$TAG.$DATESTAMP.log \
+        $CODEDIR/scripts/run.sub
 set +x
+