LinkDecoder
diff --git a/‎MxNet/Classification/RN50v1.5/Dockerfile‎
Lines changed: 3 additions & 0 deletions b/‎MxNet/Classification/RN50v1.5/Dockerfile‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎MxNet/Classification/RN50v1.5/LICENSE‎
Lines changed: 1 addition & 0 deletions b/‎MxNet/Classification/RN50v1.5/LICENSE‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎MxNet/Classification/RN50v1.5/README.md‎
Lines changed: 614 additions & 127 deletions b/‎MxNet/Classification/RN50v1.5/README.md‎
Lines changed: 614 additions & 127 deletions
diff --git a/‎MxNet/Classification/RN50v1.5/__init__.py‎ b/‎MxNet/Classification/RN50v1.5/__init__.py‎
diff --git a/‎MxNet/Classification/RN50v1.5/benchmark.py‎
100644100755
Lines changed: 66 additions & 31 deletions b/‎MxNet/Classification/RN50v1.5/benchmark.py‎
100644100755
Lines changed: 66 additions & 31 deletions
diff --git a/‎MxNet/Classification/RN50v1.5/benchmarking.py‎
Lines changed: 5 additions & 2 deletions b/‎MxNet/Classification/RN50v1.5/benchmarking.py‎
Lines changed: 5 additions & 2 deletions
@@ -0,0 +1,3 @@
+FROM nvcr.io/nvidia/mxnet:19.07-py3
+COPY . /workspace/rn50
+WORKDIR /workspace/rn50
@@ -1,3 +1,4 @@
+
                                  Apache License
                            Version 2.0, January 2004
                         http://www.apache.org/licenses/
 
@@ -1,3 +1,5 @@
+#!/usr/bin/env python3
+
 # Copyright (c) 2019, NVIDIA CORPORATION. All rights reserved.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -18,72 +20,105 @@
 import tempfile
 import json
 import os
+import traceback
+import numpy as np
 from collections import OrderedDict
 from subprocess import Popen
 
-parser = argparse.ArgumentParser(description='Benchmark')
+def int_list(x):
+    return list(map(int, x.split(',')))
+
+parser = argparse.ArgumentParser(description='Benchmark',
+                                 formatter_class=argparse.ArgumentDefaultsHelpFormatter)
 parser.add_argument('--executable', default='./runner', help='path to runner')
-parser.add_argument('-n', '--ngpus', metavar='N1,[N2,...]',
+parser.add_argument('-o', '--output', metavar='OUT', required=True, help="path to benchmark report")
+parser.add_argument('-n', '--ngpus', metavar='N1,[N2,...]', type=int_list,
                     required=True, help='numbers of gpus separated by comma')
-parser.add_argument('-b', '--batch-sizes', metavar='B1,[B2,...]',
+parser.add_argument('-b', '--batch-sizes', metavar='B1,[B2,...]', type=int_list,
                     required=True, help='batch sizes separated by comma')
 parser.add_argument('-i', '--benchmark-iters', metavar='I',
                     type=int, default=100, help='iterations')
 parser.add_argument('-e', '--epochs', metavar='E',
                     type=int, default=1, help='number of epochs')
 parser.add_argument('-w', '--warmup', metavar='N',
                     type=int, default=0, help='warmup epochs')
-parser.add_argument('-o', '--output', metavar='OUT', required=True, help="path to benchmark report")
-parser.add_argument('--only-inference', action='store_true', help="benchmark inference only")
+parser.add_argument('--timeout', metavar='T',
+                    type=str, default='inf', help='timeout for each run')
+parser.add_argument('--mode', metavar='MODE', choices=('train_val', 'train', 'val'), default='train_val',
+                    help="benchmark mode")
 args, other_args = parser.parse_known_args()
 
-ngpus = list(map(int, args.ngpus.split(',')))
-batch_sizes = list(map(int, args.batch_sizes.split(',')))
-
+latency_percentiles = ['avg', 50, 90, 95, 99, 100]
+harmonic_mean_metrics = ['train.total_ips', 'val.total_ips']
 
 res = OrderedDict()
 res['model'] = ''
-res['ngpus'] = ngpus
-res['bs'] = batch_sizes
-if args.only_inference:
-    res['metric_keys'] = ['val.total_ips']
-else:
-    res['metric_keys'] = ['train.total_ips', 'val.total_ips']
+res['ngpus'] = args.ngpus
+res['bs'] = args.batch_sizes
+res['metric_keys'] = []
+if args.mode == 'train' or args.mode == 'train_val':
+    res['metric_keys'].append('train.total_ips')
+    for percentile in latency_percentiles:
+        res['metric_keys'].append('train.latency_{}'.format(percentile))
+if args.mode == 'val' or args.mode == 'train_val':
+    res['metric_keys'].append('val.total_ips')
+    for percentile in latency_percentiles:
+        res['metric_keys'].append('val.latency_{}'.format(percentile))
+
 res['metrics'] = OrderedDict()
 
-for n in ngpus:
+for n in args.ngpus:
     res['metrics'][str(n)] = OrderedDict()
-    for bs in batch_sizes:
+    for bs in args.batch_sizes:
         res['metrics'][str(n)][str(bs)] = OrderedDict()
 
         report_file = args.output + '-{},{}'.format(n, bs)
-        Popen([args.executable, '-n', str(n), '-b', str(bs),
+        Popen(['timeout', args.timeout, args.executable, '-n', str(n), '-b', str(bs),
                '--benchmark-iters', str(args.benchmark_iters),
                '-e', str(args.epochs), '--report', report_file,
-               *([] if not args.only_inference else ['--only-inference']),
-               '--no-metrics'] + other_args, stdout=sys.stderr).wait()
+               '--mode', args.mode, '--no-metrics'] + other_args,
+              stdout=sys.stderr).wait()
+
+        try:
+            for suffix in ['', *['-{}'.format(i) for i in range(1, n)]]:
+                try:
+                    with open(report_file + suffix, 'r') as f:
+                        report = json.load(f)
+                    break
+                except FileNotFoundError:
+                    pass
+            else:
+                with open(report_file, 'r') as f:
+                    report = json.load(f)
 
-        with open(report_file, 'r') as f:
-            report = json.load(f)
+            for metric in res['metric_keys']:
+                if len(report['metrics'][metric]) != args.epochs:
+                    raise ValueError('Wrong number epochs in report')
+                data = report['metrics'][metric][args.warmup:]
+                if metric in harmonic_mean_metrics:
+                    avg = len(data) / sum(map(lambda x: 1 / x, data))
+                else:
+                    avg = np.mean(data)
+                res['metrics'][str(n)][str(bs)][metric] = avg
+        except Exception as e:
+            traceback.print_exc()
 
-        for metric in res['metric_keys']:
-            data = report['metrics'][metric][args.warmup:]
-            avg = len(data) / sum(map(lambda x: 1 / x, data))
-            res['metrics'][str(n)][str(bs)][metric] = avg
+            for metric in res['metric_keys']:
+                res['metrics'][str(n)][str(bs)][metric] = float('nan')
 
 
-column_len = 7
+column_len = 11
 for m in res['metric_keys']:
     print(m, file=sys.stderr)
     print(' ' * column_len, end='|', file=sys.stderr)
-    for bs in batch_sizes:
+    for bs in args.batch_sizes:
         print(str(bs).center(column_len), end='|', file=sys.stderr)
     print(file=sys.stderr)
-    print('-' * (len(batch_sizes) + 1) * (column_len + 1), file=sys.stderr)
-    for n in ngpus:
+    print('-' * (len(args.batch_sizes) + 1) * (column_len + 1), file=sys.stderr)
+    for n in args.ngpus:
         print(str(n).center(column_len), end='|', file=sys.stderr)
-        for bs in batch_sizes:
-            print(str(round(res['metrics'][str(n)][str(bs)][m])).center(column_len), end='|', file=sys.stderr)
+        for bs in args.batch_sizes:
+            print('{:.5g}'.format(res['metrics'][str(n)][str(bs)][m]).center(column_len), end='|', file=sys.stderr)
         print(file=sys.stderr)
     print(file=sys.stderr)
 
 
@@ -52,11 +52,14 @@ def __next__(self):
     def __getattr__(self, attr):
         return getattr(self.data_iter, attr)
 
-    def get_avg_time_and_clear(self):
+    def get_avg_time(self):
         if self.num <= 1:
             avg = float('nan')
         else:
             avg = self.overall_time / (self.num - 1)
+        return avg
+
+    def reset(self):
         self.overall_time = 0
         self.num = 0
-        return avg
+        self.data_iter.reset()
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+FROM nvcr.io/nvidia/mxnet:19.07-py3`
	`2`	`+COPY . /workspace/rn50`
	`3`	`+WORKDIR /workspace/rn50`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,4 @@`
	`1`	`+`
`1`	`2`	`Apache License`
`2`	`3`	`Version 2.0, January 2004`
`3`	`4`	`http://www.apache.org/licenses/`