add _FusedBatchNormGrad

Oceania2018 · Oceania2018 · commit 9e414f4aa6ed · 2019-10-01T17:00:14.000-05:00
diff --git a/src/TensorFlowNET.Core/Gradients/control_flow_grad.cs b/src/TensorFlowNET.Core/Gradients/control_flow_grad.cs
@@ -36,7 +36,7 @@ public class control_flow_grad
         /// </summary>
         /// <returns></returns>
         [RegisterGradient("Switch")]
-        public Tensor[] _SwitchGrad(Tensor op, Tensor[] grads)
+        public Tensor[] _SwitchGrad(Operation op, Tensor[] grads)
         {
             throw new NotImplementedException("_SwitchGrad");
             //graph = ops.get_default_graph()
diff --git a/src/TensorFlowNET.Core/Gradients/gradients_util.cs b/src/TensorFlowNET.Core/Gradients/gradients_util.cs
@@ -108,7 +108,7 @@ public static Tensor[] _GradientsHelper(Tensor[] ys,
                     {
                         // generate gradient subgraph for op.
                         var op = queue.Dequeue();
-                        if(tf.get_default_graph()._nodes_by_name.Count > 18505)
+                        if(tf.get_default_graph()._nodes_by_name.Count > 18577)
                         {
 
                         }
diff --git a/src/TensorFlowNET.Core/Gradients/nn_grad.cs b/src/TensorFlowNET.Core/Gradients/nn_grad.cs
@@ -166,6 +166,94 @@ public static Tensor[] _Conv2DGrad(Operation op, Tensor[] grads)
             };
         }
 
+        [RegisterGradient("FusedBatchNorm")]
+        public static Tensor[] _FusedBatchNormGrad(Operation op, Tensor[] grads)
+            => _BaseFusedBatchNormGrad(op, 0, grads);
+
+        /// <summary>
+        /// Return the gradients for the 3 inputs of BatchNorm.
+        /// </summary>
+        /// <param name="op"></param>
+        /// <param name="version"></param>
+        /// <param name="grads"></param>
+        /// <returns></returns>
+        public static Tensor[] _BaseFusedBatchNormGrad(Operation op, int version, Tensor[] grads)
+        {
+            var x = op.inputs[0];
+            var grad_y = grads[0];
+            var scale = op.inputs[1];
+            var epsilon = op.get_attr<float>("epsilon");
+            var data_format = op.get_attr<string>("data_format");
+            var is_training = op.get_attr<bool>("is_training");
+            Func<FusedBatchNormParams, Tensor[]> grad_fun = null;
+
+            switch (version)
+            {
+                case 2:
+                    throw new NotImplementedException("");
+                case 1:
+                    throw new NotImplementedException("");
+                default:
+                    grad_fun = gen_nn_ops.fused_batch_norm_grad;
+                    break;
+            }
+
+            if (is_training)
+            {
+                return grad_fun(new FusedBatchNormParams
+                {
+                    YBackprop = grad_y,
+                    X = x,
+                    Scale = scale,
+                    ReserveSpace1 = op.outputs[3],
+                    ReserveSpace2 = op.outputs[4],
+                    ReserveSpace3 = version == 2 ? op.outputs[5] : null,
+                    Epsilon = epsilon,
+                    DataFormat = data_format,
+                    IsTraining = is_training
+                });
+            }
+            else
+            {
+                var pop_mean = op.inputs[3];
+                var pop_var = op.inputs[4];
+                if (data_format == "NCHW")
+                    throw new NotImplementedException("");
+
+                var results = grad_fun(new FusedBatchNormParams
+                {
+                    YBackprop = grad_y,
+                    X = x,
+                    Scale = scale,
+                    ReserveSpace1 = op.outputs[3],
+                    ReserveSpace2 = op.outputs[4],
+                    ReserveSpace3 = version == 2 ? op.outputs[5] : null,
+                    Epsilon = epsilon,
+                    DataFormat = data_format,
+                    IsTraining = is_training
+                });
+
+                var (dx, dscale, doffset) = (results[0], results[1], results[2]);
+                if (data_format == "NCHW")
+                    throw new NotImplementedException("");
+
+                return new Tensor[]
+                {
+                    dx, 
+                    dscale, 
+                    doffset, 
+                    null, 
+                    null
+                };
+            }
+        }
+
+        [RegisterGradient("BatchNormWithGlobalNormalization")]
+        public static Tensor _BatchNormWithGlobalNormalizationGrad(Operation op, Tensor[] grads)
+        {
+            throw new NotImplementedException("BatchNormWithGlobalNormalization");
+        }
+
         private static bool IsZero(Tensor g)
         {
             if (new string[] { "ZerosLike", "Zeros" }.Contains(g.op.type))
diff --git a/src/TensorFlowNET.Core/Operations/ControlFlows/CondContext.cs b/src/TensorFlowNET.Core/Operations/ControlFlows/CondContext.cs
@@ -27,20 +27,6 @@ namespace Tensorflow.Operations
     /// </summary>
     public class CondContext : ControlFlowContext, IProtoBuf<CondContextDef, CondContext>
     {
-
-
-        /// <summary>
-        /// The boolean tensor for the cond predicate
-        /// </summary>
-        private Tensor _pred;
-
-        public Tensor pred => _pred;
-
-        /// <summary>
-        /// 0 or 1 representing this branch
-        /// </summary>
-        private int _branch;
-
         private Dictionary<string, Tensor> _external_values = new Dictionary<string, Tensor>();
 
         /// <summary>
diff --git a/src/TensorFlowNET.Core/Operations/ControlFlows/ControlFlowContext.cs b/src/TensorFlowNET.Core/Operations/ControlFlows/ControlFlowContext.cs
@@ -45,10 +45,19 @@ public abstract class ControlFlowContext : IObjectLife
         /// The predicate tensor in this branch
         /// </summary>
         protected Tensor _pivot;
-        public Tensor pivot
-        {
-            get => _pivot;
-        }
+        public Tensor pivot => _pivot;
+
+        /// <summary>
+        /// The boolean tensor for the cond predicate
+        /// </summary>
+        protected Tensor _pred;
+        public Tensor pred => _pred;
+
+        /// <summary>
+        /// 0 or 1 representing this branch
+        /// </summary>
+        protected int _branch;
+        public int branch => _branch;
 
         protected Stack<ControlFlowContext> _context_stack;
         protected ControlFlowContext _outer_context;
diff --git a/src/TensorFlowNET.Core/Operations/NnOps/FusedBatchNormParams.cs b/src/TensorFlowNET.Core/Operations/NnOps/FusedBatchNormParams.cs
@@ -0,0 +1,27 @@
+﻿using System;
+using System.Collections.Generic;
+using System.Text;
+
+namespace Tensorflow.Operations
+{
+    public class FusedBatchNormParams
+    {
+        public string Name { get; set; }
+        public Tensor YBackprop { get; set; }
+        public Tensor X { get; set; }
+        public Tensor Scale { get; set; }
+        public Tensor ReserveSpace1 { get; set; }
+        public Tensor ReserveSpace2 { get; set; }
+        public Tensor ReserveSpace3 { get; set; }
+        public float Epsilon { get; set; }
+        public string DataFormat { get; set; }
+        public bool IsTraining { get; set; }
+
+        public FusedBatchNormParams()
+        {
+            Epsilon = 0.0001f;
+            DataFormat = "NHWC";
+            IsTraining = true;
+        }
+    }
+}
diff --git a/src/TensorFlowNET.Core/Operations/NnOps/gen_nn_ops.cs b/src/TensorFlowNET.Core/Operations/NnOps/gen_nn_ops.cs
@@ -156,6 +156,35 @@ public static Tensor elu(Tensor features, string name = "Elu")
             return op.output;
         }
 
+        /// <summary>
+        /// Gradient for batch normalization.
+        /// </summary>
+        /// <param name="y_backprop"></param>
+        /// <param name="x"></param>
+        /// <param name="scale"></param>
+        /// <param name="reserve_space_1"></param>
+        /// <param name="reserve_space_2"></param>
+        /// <param name="epsilon"></param>
+        /// <param name="data_format"></param>
+        /// <param name="is_training"></param>
+        /// <param name="name"></param>
+        /// <returns></returns>
+        public static Tensor[] fused_batch_norm_grad(FusedBatchNormParams @params)
+        {
+            var op = _op_def_lib._apply_op_helper("FusedBatchNormGrad", name: @params.Name, args: new
+            {
+                y_backprop = @params.YBackprop,
+                x = @params.X,
+                scale = @params.Scale,
+                reserve_space_1 = @params.ReserveSpace1,
+                reserve_space_2 = @params.ReserveSpace2,
+                epsilon = @params.Epsilon,
+                data_format = @params.DataFormat,
+                is_training = @params.IsTraining
+            });
+            return op.outputs;
+        }
+
         public static Tensor[] fused_batch_norm(Tensor x,
                 Tensor scale,
                 Tensor offset,
diff --git a/src/TensorFlowNET.Core/Operations/Operation.cs b/src/TensorFlowNET.Core/Operations/Operation.cs
@@ -218,6 +218,9 @@ private object[] _reconstruct_sequence_inputs(OpDef op_def, Tensor[] inputs, Map
             return grouped_inputs.ToArray();
         }
 
+        public T get_attr<T>(string name)
+            => (T)get_attr(name);
+
         public object get_attr(string name)
         {
             AttrValue x = null;
diff --git a/src/TensorFlowNET.Core/Operations/control_flow_ops.py.cs b/src/TensorFlowNET.Core/Operations/control_flow_ops.py.cs
@@ -557,8 +557,31 @@ public static Tensor ZerosLikeOutsideLoop(Operation op, int index)
                     throw new NotImplementedException("ZerosLikeOutsideLoop");
                 return array_ops.zeros_like(val, optimize: false);
             }
-
-            throw new NotImplementedException("ZerosLikeOutsideLoop");
+            else
+            {
+                var op_ctxt = op._get_control_flow_context();
+                if(op_ctxt != null)
+                {
+                    // We are in a cond context. Use a switch to create zeros only when needed.
+                    var pred = op_ctxt.pred;
+                    var branch = op_ctxt.branch;
+                    var switch_val = @switch(op.inputs[0], pred)[1 - branch];
+                    var pivot = array_ops.identity(switch_val);
+                    if (val.dtype == dtypes.resource)
+                        throw new NotImplementedException("");
+                    var zeros_shape = array_ops.shape_internal(switch_val, optimize: false);
+                    // Ensure ops created within array_ops.zeros are dominated by switch in
+                    // cond context.
+                    return tf_with(ops.control_dependencies(new[] { pivot }), delegate
+                    {
+                        return array_ops.zeros(zeros_shape, dtype: val.dtype);
+                    });
+                }
+                else
+                {
+                    return array_ops.zeros_like(val, optimize: false);
+                }
+            }
         }
 
         /// <summary>
diff --git a/src/TensorFlowNET.Core/Tensors/dtypes.cs b/src/TensorFlowNET.Core/Tensors/dtypes.cs
@@ -33,6 +33,7 @@ public static class dtypes
         public static TF_DataType float32 = TF_DataType.TF_FLOAT; // is that float32?
         public static TF_DataType float16 = TF_DataType.TF_HALF;
         public static TF_DataType float64 = TF_DataType.TF_DOUBLE;
+        public static TF_DataType resource = TF_DataType.TF_RESOURCE;
 
         /// <summary>
         /// 

Original file line number	Diff line number	Diff line change
`@@ -36,7 +36,7 @@ public class control_flow_grad`
`36`	`36`	`/// </summary>`
`37`	`37`	`/// <returns></returns>`
`38`	`38`	`[RegisterGradient("Switch")]`
`39`		`- public Tensor[] _SwitchGrad(Tensor op, Tensor[] grads)`
	`39`	`+ public Tensor[] _SwitchGrad(Operation op, Tensor[] grads)`
`40`	`40`	`{`
`41`	`41`	`throw new NotImplementedException("_SwitchGrad");`
`42`	`42`	`//graph = ops.get_default_graph()`
Original file line number	Diff line number	Diff line change
`@@ -108,7 +108,7 @@ public static Tensor[] _GradientsHelper(Tensor[] ys,`
`108`	`108`	`{`
`109`	`109`	`// generate gradient subgraph for op.`
`110`	`110`	`var op = queue.Dequeue();`
`111`		`- if(tf.get_default_graph()._nodes_by_name.Count > 18505)`
	`111`	`+ if(tf.get_default_graph()._nodes_by_name.Count > 18577)`
`112`	`112`	`{`
`113`	`113`
`114`	`114`	`}`
Original file line number	Diff line number	Diff line change
`@@ -218,6 +218,9 @@ private object[] _reconstruct_sequence_inputs(OpDef op_def, Tensor[] inputs, Map`
`218`	`218`	`return grouped_inputs.ToArray();`
`219`	`219`	`}`
`220`	`220`
	`221`	`+ public T get_attr<T>(string name)`
	`222`	`+ => (T)get_attr(name);`
	`223`	`+`
`221`	`224`	`public object get_attr(string name)`
`222`	`225`	`{`
`223`	`226`	`AttrValue x = null;`