Made separate functions for computing output shapes for all layers. Removed…

Made separate functions for computing output shapes for all layers. Removed output blobs allocation from layers

Made separate functions for computing output shapes for all layers. Removed…
Made separate functions for computing output shapes for all layers. Removed output blobs allocation from layers
9b73fee2 · Aleksandr Rybnikov · 27bf9e29 · 9b73fee2 · 9b73fee2 · 9b73fee2
Commit 9b73fee2 authored Apr 28, 2017 by Aleksandr Rybnikov
37 changed files
--- a/modules/dnn/include/opencv2/dnn/all_layers.hpp
+++ b/modules/dnn/include/opencv2/dnn/all_layers.hpp
@@ -121,21 +121,7 @@ namespace dnn
          * @details If this parameter is empty or unset then @p outTailShape = [`Wh`.size(0)] will be used,
          * where `Wh` is parameter from setWeights().
          */
-        virtual void setOutShape(const std::vector<int> &outTailShape = std::vector<int>()) = 0;
+        virtual void setOutShape(const MatShape &outTailShape = MatShape()) = 0;
-        /** @brief Set @f$ h_{t-1} @f$ value that will be used in next forward() calls.
-          * @details By-default @f$ h_{t-1} @f$ is inited by zeros and updated after each forward() call.
-          */
-        virtual void setH(const Mat &H) = 0;
-        /** @brief Returns current @f$ h_{t-1} @f$ value (deep copy). */
-        virtual Mat getH() const = 0;
-        /** @brief Set @f$ c_{t-1} @f$ value that will be used in next forward() calls.
-          * @details By-default @f$ c_{t-1} @f$ is inited by zeros and updated after each forward() call.
-          */
-        virtual void setC(const Mat &C) = 0;
-        /** @brief Returns current @f$ c_{t-1} @f$ value (deep copy). */
-        virtual Mat getC() const = 0;
        /** @brief Specifies either interpet first dimension of input blob as timestamp dimenion either as sample.
          *
@@ -289,7 +275,7 @@ namespace dnn
    class CV_EXPORTS ReshapeLayer : public Layer
    {
    public:
-        std::vector<int> newShapeDesc;
+        MatShape newShapeDesc;
        Range newShapeRange;
        static Ptr<ReshapeLayer> create(const LayerParams& params);

--- a/modules/dnn/include/opencv2/dnn/dnn.hpp
+++ b/modules/dnn/include/opencv2/dnn/dnn.hpp
@@ -53,6 +53,8 @@ namespace dnn //! This namespace is used for dnn module functionlaity.
 //! @addtogroup dnn
 //! @{
+    typedef std::vector<int> MatShape;
    /** @brief Initialize dnn module and built-in layers.
     *
     * This function automatically called on most of OpenCV builds,
@@ -87,33 +89,35 @@ namespace dnn //! This namespace is used for dnn module functionlaity.
        //! List of learned parameters must be stored here to allow read them by using Net::getParam().
        CV_PROP_RW std::vector<Mat> blobs;
-        /** @brief Allocates internal buffers and output blobs with respect to the shape of inputs.
+        /** @brief Computes and sets internal parameters according to inputs, outputs and blobs.
         *  @param[in]  input  vector of already allocated input blobs
-         *  @param[out] output vector of output blobs, which must be allocated
+         *  @param[out] output vector of already allocated output blobs
         *
-         * This method must create each produced blob according to shape of @p input blobs and internal layer params.
+         * If this method is called after network has allocated all memory for input and output blobs
-         * If this method is called first time then @p output vector consists from empty blobs and its size determined by number of output connections.
+         * and before inferencing.
-         * This method can be called multiple times if size of any @p input blob was changed.
         */
-        virtual void allocate(const std::vector<Mat*> &input, std::vector<Mat> &output) = 0;
+        virtual void finalize(const std::vector<Mat*> &input, std::vector<Mat> &output);
        /** @brief Given the @p input blobs, computes the output @p blobs.
         *  @param[in]  input  the input blobs.
         *  @param[out] output allocated output blobs, which will store results of the computation.
+         *  @param[out] internals allocated internal blobs
         */
-        virtual void forward(std::vector<Mat*> &input, std::vector<Mat> &output) = 0;
+        virtual void forward(std::vector<Mat*> &input, std::vector<Mat> &output, std::vector<Mat> &internals) = 0;
        /** @brief @overload */
-        CV_WRAP void allocate(const std::vector<Mat> &inputs, CV_OUT std::vector<Mat> &outputs);
+        CV_WRAP void finalize(const std::vector<Mat> &inputs, CV_OUT std::vector<Mat> &outputs);
        /** @brief @overload */
-        CV_WRAP std::vector<Mat> allocate(const std::vector<Mat> &inputs);
+        CV_WRAP std::vector<Mat> finalize(const std::vector<Mat> &inputs);
        /** @brief @overload */
-        CV_WRAP void forward(const std::vector<Mat> &inputs, CV_IN_OUT std::vector<Mat> &outputs);
+        CV_WRAP void forward(const std::vector<Mat> &inputs, CV_IN_OUT std::vector<Mat> &outputs,
+                             CV_IN_OUT std::vector<Mat> &internals);
        /** @brief Allocates layer and computes output. */
-        CV_WRAP void run(const std::vector<Mat> &inputs, CV_OUT std::vector<Mat> &outputs);
+        CV_WRAP void run(const std::vector<Mat> &inputs, CV_OUT std::vector<Mat> &outputs,
+                         CV_IN_OUT std::vector<Mat> &internals);
        /** @brief Returns index of input blob into the input array.
         *  @param inputName label of input blob
@@ -127,6 +131,11 @@ namespace dnn //! This namespace is used for dnn module functionlaity.
         */
        virtual int outputNameToIndex(String outputName);
+        virtual bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                                     const int requiredOutputs,
+                                     std::vector<MatShape> &outputs,
+                                     std::vector<MatShape> &internals) const;
        CV_PROP String name; //!< Name of the layer instance, can be used for logging or other internal purposes.
        CV_PROP String type; //!< Type name which was used for creating layer by layer factory.
@@ -275,6 +284,45 @@ namespace dnn //! This namespace is used for dnn module functionlaity.
        /** @brief Returns indexes of layers with unconnected outputs.
         */
        CV_WRAP std::vector<int> getUnconnectedOutLayers() const;
+        /** @brief Returns input and output shapes for all layers in loaded model;
+          *  preliminary inferencing isn't necessary.
+          *  @param netInputShapes shapes for all input blobs in net input layer.
+          *  @param layersIds output parameter for layer IDs.
+          *  @param inLayersShapes output parameter for input layers shapes;
+          * order is the same as in layersIds
+          *  @param outLayersShapes output parameter for output layers shapes;
+          * order is the same as in layersIds
+          */
+         CV_WRAP void getLayersShapes(const std::vector<MatShape>& netInputShapes,
+                                      std::vector<int>* layersIds,
+                                      std::vector<std::vector<MatShape> >* inLayersShapes,
+                                      std::vector<std::vector<MatShape> >* outLayersShapes) const;
+         /** @overload */
+         CV_WRAP void getLayersShapes(const MatShape& netInputShape,
+                                      std::vector<int>* layersIds,
+                                      std::vector<std::vector<MatShape> >* inLayersShapes,
+                                      std::vector<std::vector<MatShape> >* outLayersShapes) const;
+         /** @brief Returns input and output shapes for layer with specified
+          * id in loaded model; preliminary inferencing isn't necessary.
+          *  @param netInputShape shape input blob in net input layer.
+          *  @param layerId id for layer.
+          *  @param inLayerShapes output parameter for input layers shapes;
+          * order is the same as in layersIds
+          *  @param outLayerShapes output parameter for output layers shapes;
+          * order is the same as in layersIds
+          */
+         CV_WRAP void getLayerShapes(const MatShape& netInputShape,
+                                     const int layerId,
+                                     std::vector<MatShape>* inLayerShapes,
+                                     std::vector<MatShape>* outLayerShapes) const;
+         /** @overload */
+         CV_WRAP void getLayerShapes(const std::vector<MatShape>& netInputShapes,
+                                     const int layerId,
+                                     std::vector<MatShape>* inLayerShapes,
+                                     std::vector<MatShape>* outLayerShapes) const;
    private:
        struct Impl;

--- a/modules/dnn/include/opencv2/dnn/shape_utils.hpp
+++ b/modules/dnn/include/opencv2/dnn/shape_utils.hpp
@@ -55,22 +55,6 @@ inline std::ostream &operator<< (std::ostream &s, cv::Range &r)
    return s << "[" << r.start << ", " << r.end << ")";
 }
-//Reshaping
-//TODO: add -1 specifier for automatic size inferring
-/*template<typename Mat>
-void reshape(Mat &m, const BlobShape &shape)
-{
-    m = m.reshape(1, shape.dims(), shape.ptr());
-}
-template<typename Mat>
-Mat reshaped(const Mat &m, const BlobShape &shape)
-{
-    return m.reshape(1, shape.dims(), shape.ptr());
-}*/
 //Slicing
 struct _Range : public cv::Range
@@ -139,12 +123,76 @@ static inline Mat getPlane(const Mat &m, int n, int cn)
    return m(range).reshape(1, m.dims-2, sz);
 }
-static inline size_t shapeTotal(const std::vector<int>& shape)
+static inline MatShape shape(const int* dims, const int n = 4)
+{
+    MatShape shape;
+    shape.assign(dims, dims + n);
+    return shape;
+}
+static inline MatShape shape(const MatSize& size)
+{
+    return shape((const int*)size, size.dims());
+}
+static inline MatShape shape(const Mat& mat)
+{
+    return shape(mat.size);
+}
+namespace {inline bool is_neg(int i) { return i < 0; }}
+static inline MatShape shape(int a0, int a1=-1, int a2=-1, int a3=-1)
+{
+    int dims[] = {a0, a1, a2, a3};
+    MatShape s = shape(dims);
+    s.erase(std::remove_if(s.begin(), s.end(), is_neg), s.end());
+    return s;
+}
+static inline int total(const MatShape& shape, int start = -1, int end = -1)
+{
+    if (start == -1) start = 0;
+    if (end == -1) end = shape.size();
+    if (shape.empty())
+        return 0;
+    int elems = 1;
+    CV_Assert(start < shape.size() && end <= shape.size() &&
+              start <= end);
+    for(int i = start; i < end; i++)
+    {
+        elems *= shape[i];
+    }
+    return elems;
+}
+static inline MatShape concat(const MatShape& a, const MatShape& b)
 {
-    size_t i, n = shape.size(), p = 1;
+    MatShape c = a;
-    for( i = 0; i < n; i++ ) p *= shape[i];
+    c.insert(c.end(), b.begin(), b.end());
-    return p;
+    return c;
+}
+inline void print(const MatShape& shape, const String& name = "")
+{
+    printf("%s: [", name.c_str());
+    size_t i, n = shape.size();
+    for( i = 0; i < n; i++ )
+        printf(" %d", shape[i]);
+    printf(" ]\n");
+}
+inline int clamp(int ax, int dims)
+{
+    return ax < 0 ? ax + dims : ax;
+}
+inline int clamp(int ax, const MatShape& shape)
+{
+    return clamp(ax, shape.size());
 }
 }

--- a/modules/dnn/misc/python/pyopencv_dnn.hpp
+++ b/modules/dnn/misc/python/pyopencv_dnn.hpp
 #ifdef HAVE_OPENCV_DNN
 typedef dnn::DictValue LayerId;
+typedef std::vector<dnn::MatShape> vector_MatShape;
+typedef std::vector<std::vector<dnn::MatShape> > vector_vector_MatShape;
 template<>
 bool pyopencv_to(PyObject *o, dnn::DictValue &dv, const char *name)

--- a/modules/dnn/perf/perf_convolution.cpp
+++ b/modules/dnn/perf/perf_convolution.cpp
 #include "perf_precomp.hpp"
+#include <opencv2/dnn/shape_utils.hpp>
 namespace cvtest
 {
@@ -21,14 +22,14 @@ CV_ENUM(GroupSize, GROUP_OFF, GROUP_2);
 //Squared Size
 #define SSZ(n) cv::Size(n, n)
-typedef std::pair<std::vector<int>, int> InpShapeNumOut;
+typedef std::pair<MatShape, int> InpShapeNumOut;
 typedef tuple<Size, InpShapeNumOut, GroupSize, StrideSize> ConvParam; //kernel_size, inp shape, groups, stride
 typedef TestBaseWithParam<ConvParam> ConvolutionPerfTest;
-static inline std::vector<int> blobShape(int count, int nplanes, int height, int width)
+static inline MatShape blobShape(int count, int nplanes, int height, int width)
 {
    int data[] = {count, nplanes, height, width};
-    return std::vector<int>(data, data+4);
+    return MatShape(data, data+4);
 }
 PERF_TEST_P( ConvolutionPerfTest, perf, Combine(
@@ -44,7 +45,7 @@ PERF_TEST_P( ConvolutionPerfTest, perf, Combine(
    ConvParam params = GetParam();
    int ksz     = get<0>(params).width;
-    std::vector<int> inpShape = get<1>(params).first;
+    MatShape inpShape = get<1>(params).first;
    int outCn   = get<1>(params).second;
    int groups  = get<2>(params);
    int stride  = (ksz >= 11) ? 4 : (int)get<3>(params);
@@ -69,12 +70,25 @@ PERF_TEST_P( ConvolutionPerfTest, perf, Combine(
    lp.blobs.push_back(biasBlob);
    std::vector<Mat*> inpBlobs(1, &inpBlob);
-    std::vector<Mat> outBlobs;
+    std::vector<Mat> outBlobs, internalBlobs;
    cv::setNumThreads(cv::getNumberOfCPUs());
    Ptr<Layer> layer = cv::dnn::LayerFactory::createLayerInstance("Convolution", lp);
-    layer->allocate(inpBlobs, outBlobs);
+    std::vector<MatShape> inputShapes(1, shape(inpBlob)), outShapes, internals;
+    layer->getMemoryShapes(inputShapes, 0, outShapes, internals);
+    for (int i = 0; i < outShapes.size(); i++)
+    {
+        outBlobs.push_back(Mat(outShapes[i], CV_32F));
+    }
+    for (int i = 0; i < internals.size(); i++)
+    {
+        internalBlobs.push_back(Mat());
+        if (total(internals[i]))
+            internalBlobs.back().create(internals[i], CV_32F);
+    }
+    layer->finalize(inpBlobs, outBlobs);
    Mat inpBlob2D = inpBlob.reshape(1, outCn);
    Mat wgtBlob2D = wgtBlob.reshape(1, outCn*(inpCn/groups));
@@ -83,7 +97,7 @@ PERF_TEST_P( ConvolutionPerfTest, perf, Combine(
    TEST_CYCLE_N(10)
    {
-        layer->forward(inpBlobs, outBlobs);
+        layer->forward(inpBlobs, outBlobs, internalBlobs);
    }
    SANITY_CHECK_NOTHING();

--- a/modules/dnn/src/caffe/caffe_importer.cpp
+++ b/modules/dnn/src/caffe/caffe_importer.cpp
@@ -192,7 +192,7 @@ public:
        }
    }
-    void blobShapeFromProto(const caffe::BlobProto &pbBlob, std::vector<int>& shape)
+    void blobShapeFromProto(const caffe::BlobProto &pbBlob, MatShape& shape)
    {
        shape.clear();
        if (pbBlob.has_num() || pbBlob.has_channels() || pbBlob.has_height() || pbBlob.has_width())
@@ -215,7 +215,7 @@ public:
    void blobFromProto(const caffe::BlobProto &pbBlob, cv::Mat &dstBlob)
    {
-        std::vector<int> shape;
+        MatShape shape;
        blobShapeFromProto(pbBlob, shape);
        dstBlob.create((int)shape.size(), &shape[0], CV_32F);

--- a/modules/dnn/src/dnn.cpp
+++ b/modules/dnn/src/dnn.cpp
--- a/modules/dnn/src/layers/batch_norm_layer.cpp
+++ b/modules/dnn/src/layers/batch_norm_layer.cpp
@@ -29,32 +29,20 @@ public:
        epsilon = params.get<float>("eps", 1E-5);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        CV_Assert(blobs.size() >= 2);
+        CV_Assert(inputs.size() == 1);
-        outputs.resize(inputs.size());
+        float varMeanScale = 1.f;
-        for (size_t i = 0; i < inputs.size(); i++)
-        {
-            CV_Assert(blobs[0].total() == inputs[i]->size[1]);
-            CV_Assert(blobs[1].total() == inputs[i]->size[1]);
-            Mat* inp = inputs[i];
-            outputs[i].create(inp->dims, &inp->size.p[0], inp->type());
-        }
-        varMeanScale = 1.f;
        if (!hasWeights && !hasBias) {
            varMeanScale = *blobs[2].ptr<float>();
            if (varMeanScale != 0)
                varMeanScale = 1/varMeanScale;
        }
+        Mat invStdMat;
        cv::pow(blobs[1]*varMeanScale + epsilon, -0.5, invStdMat);
-    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
-    {
-        CV_Assert(inputs.size() == 1);
        Mat &inpBlob = *inputs[0];
@@ -91,8 +79,7 @@ public:
    }
    bool hasWeights, hasBias;
-    float epsilon, varMeanScale;
+    float epsilon;
-    Mat invStdMat;
 };
 Ptr<BatchNormLayer> BatchNormLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/blank_layer.cpp
+++ b/modules/dnn/src/layers/blank_layer.cpp
@@ -56,7 +56,7 @@ public:
            outputs[i] = *inputs[i];
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        for (size_t i = 0; i < inputs.size(); i++)
            outputs[i] = *inputs[i];

--- a/modules/dnn/src/layers/concat_layer.cpp
+++ b/modules/dnn/src/layers/concat_layer.cpp
@@ -56,49 +56,50 @@ public:
        axis = params.get<int>("axis", 1);
    }
-    void allocate(const std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
+    virtual bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                                 const int requiredOutputs,
+                                 std::vector<MatShape> &outputs,
+                                 std::vector<MatShape> &internals) const
    {
        CV_Assert(inputs.size() > 0);
+        outputs.clear();
-        int dims = inputs[0]->dims, dtype = inputs[0]->type();
+        outputs.push_back(inputs[0]);
-        std::vector<int> refShape(inputs[0]->size.p, inputs[0]->size.p + dims);
+        int cAxis = clamp(axis, inputs[0]);
-        axisIdx = axis < 0 ? axis + dims : axis;
        int axisSum = 0;
        for (size_t i = 0; i < inputs.size(); i++)
        {
-            CV_Assert(inputs[i]->type() == dtype);
+            MatShape curShape = inputs[i];
-            for (int curAxis = 0; curAxis < dims; curAxis++)
+            CV_Assert(curShape.size() == outputs.back().size());
+            for (int curAxis = 0; curAxis < outputs.back().size(); curAxis++)
            {
-                if (curAxis != axisIdx && inputs[0]->size[curAxis] != inputs[i]->size[curAxis])
+                if (curAxis != cAxis && outputs.back()[curAxis] != curShape[curAxis])
                    CV_Error(Error::StsBadSize, "Inconsitent shape for ConcatLayer");
            }
-            axisSum += inputs[i]->size[axisIdx];
+            axisSum += curShape[cAxis];
        }
-        refShape[axisIdx] = axisSum;
+        outputs.back()[cAxis] = axisSum;
-        outputs.resize(1);
+        return false;
-        outputs[0].create(dims, &refShape[0], dtype);
    }
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
    {
+        int cAxis = clamp(axis, inputs[0]->dims);
        Mat& outMat = outputs[0];
        std::vector<Range> ranges(outputs[0].dims, Range::all());
-        ranges[axisIdx].start = 0;
+        ranges[cAxis].start = 0;
        for (size_t i = 0; i < inputs.size(); i++)
        {
-            ranges[axisIdx].end = ranges[axisIdx].start + inputs[i]->size[axisIdx];
+            ranges[cAxis].end = ranges[cAxis].start + inputs[i]->size[cAxis];
            inputs[i]->copyTo(outMat(&ranges[0]));
-            ranges[axisIdx].start = ranges[axisIdx].end;
+            ranges[cAxis].start = ranges[cAxis].end;
        }
    }
-    int axisIdx;
 };
 Ptr<ConcatLayer> ConcatLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/convolution_layer.cpp
+++ b/modules/dnn/src/layers/convolution_layer.cpp
--- a/modules/dnn/src/layers/crop_layer.cpp
+++ b/modules/dnn/src/layers/crop_layer.cpp
@@ -63,7 +63,26 @@ public:
        }
    }
-    void allocate(const std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
+    {
+        CV_Assert(inputs.size() == 2);
+        MatShape dstShape = inputs[0];
+        int start = clamp(startAxis, dstShape);
+        for (int i = start; i < dstShape.size(); i++)
+        {
+            dstShape[i] = inputs[1][i];
+        }
+        outputs.resize(1, dstShape);
+        return false;
+    }
+    void finalize(const std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
    {
        CV_Assert(2 == inputs.size());
@@ -71,7 +90,7 @@ public:
        const Mat &inpSzBlob = *inputs[1];
        int dims = inpBlob.dims;
-        int start_axis = startAxis < 0 ? startAxis + dims : startAxis;
+        int start_axis = clamp(startAxis, dims);
        std::vector<int> offset_final(dims, 0);
        if (offset.size() == 1)
@@ -82,17 +101,16 @@ public:
        else if (offset.size() > 1)
        {
            if ((int)offset.size() != dims - start_axis)
-                CV_Error(Error::StsBadArg, "number of offset values specified must be equal to the number of dimensions following axis.");
+                CV_Error(Error::StsBadArg, "number of offset values specified must be "
+                                           "equal to the number of dimensions following axis.");
            for (int i = start_axis; i < dims; i++)
                offset_final[i] = offset[i - start_axis];
        }
-        std::vector<int> dstShape(dims);
        crop_ranges.resize(dims, Range::all());
        for (int i = 0; i < dims; i++)
        {
-            dstShape[i] = inpSzBlob.size[i];
            if( i < start_axis )
                continue;
@@ -112,12 +130,9 @@ public:
                crop_ranges[i] = Range(cur_crop, cur_crop + inpSzBlob.size[i]);
            }
        }
-        outputs.resize(1);
-        outputs[0].create(dims, &dstShape[0], inpBlob.type());
    }
-    void forward(std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat *> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        Mat &input = *inputs[0];
        Mat &output = outputs[0];

--- a/modules/dnn/src/layers/detection_output_layer.cpp
+++ b/modules/dnn/src/layers/detection_output_layer.cpp
@@ -94,9 +94,6 @@ public:
    int _keepTopK;
    float _confidenceThreshold;
-    int _num;
-    int _numPriors;
    float _nmsThreshold;
    int _topK;
@@ -184,58 +181,62 @@ public:
        }
    }
-    void allocate(const std::vector<Mat*> &inputs,
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
-                                        std::vector<Mat> &outputs)
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
        CV_Assert(inputs.size() > 0);
-        CV_Assert(inputs[0]->size[0] == inputs[1]->size[0]);
+        CV_Assert(inputs[0][0] == inputs[1][0]);
-        _num = inputs[0]->size[0];
-        _numPriors = inputs[2]->size[2] / 4;
+        int numPriors = inputs[2][2] / 4;
-        CV_Assert((_numPriors * _numLocClasses * 4) == inputs[0]->size[1]);
+        CV_Assert((numPriors * _numLocClasses * 4) == inputs[0][1]);
-        CV_Assert(int(_numPriors * _numClasses) == inputs[1]->size[1]);
+        CV_Assert(int(numPriors * _numClasses) == inputs[1][1]);
        // num() and channels() are 1.
        // Since the number of bboxes to be kept is unknown before nms, we manually
        // set it to (fake) 1.
        // Each row is a 7 dimension std::vector, which stores
        // [image_id, label, confidence, xmin, ymin, xmax, ymax]
-        int outputShape[] = {1, 1, 1, 7};
+        outputs.resize(1, shape(1, 1, 1, 7));
-        outputs[0].create(4, outputShape, CV_32F);
+        return false;
    }
-    void forward(std::vector<Mat*> &inputs,
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
-                                       std::vector<Mat> &outputs)
    {
        const float* locationData = inputs[0]->ptr<float>();
        const float* confidenceData = inputs[1]->ptr<float>();
        const float* priorData = inputs[2]->ptr<float>();
+        int num = inputs[0]->size[0];
+        int numPriors = inputs[2]->size[2] / 4;
        // Retrieve all location predictions.
        std::vector<LabelBBox> allLocationPredictions;
-        GetLocPredictions(locationData, _num, _numPriors, _numLocClasses,
+        GetLocPredictions(locationData, num, numPriors, _numLocClasses,
                          _shareLocation, &allLocationPredictions);
        // Retrieve all confidences.
        std::vector<std::map<int, std::vector<float> > > allConfidenceScores;
-        GetConfidenceScores(confidenceData, _num, _numPriors, _numClasses,
+        GetConfidenceScores(confidenceData, num, numPriors, _numClasses,
                            &allConfidenceScores);
        // Retrieve all prior bboxes. It is same within a batch since we assume all
        // images in a batch are of same dimension.
        std::vector<caffe::NormalizedBBox> priorBBoxes;
        std::vector<std::vector<float> > priorVariances;
-        GetPriorBBoxes(priorData, _numPriors, &priorBBoxes, &priorVariances);
+        GetPriorBBoxes(priorData, numPriors, &priorBBoxes, &priorVariances);
        // Decode all loc predictions to bboxes.
        std::vector<LabelBBox> allDecodedBBoxes;
-        DecodeBBoxesAll(allLocationPredictions, priorBBoxes, priorVariances, _num,
+        DecodeBBoxesAll(allLocationPredictions, priorBBoxes, priorVariances, num,
                        _shareLocation, _numLocClasses, _backgroundLabelId,
                        _codeType, _varianceEncodedInTarget, &allDecodedBBoxes);
        int numKept = 0;
        std::vector<std::map<int, std::vector<int> > > allIndices;
-        for (int i = 0; i < _num; ++i)
+        for (int i = 0; i < num; ++i)
        {
            const LabelBBox& decodeBBoxes = allDecodedBBoxes[i];
            const std::map<int, std::vector<float> >& confidenceScores =
@@ -324,7 +325,7 @@ public:
        float* outputsData = outputs[0].ptr<float>();
        int count = 0;
-        for (int i = 0; i < _num; ++i)
+        for (int i = 0; i < num; ++i)
        {
            const std::map<int, std::vector<float> >& confidenceScores =
            allConfidenceScores[i];

--- a/modules/dnn/src/layers/elementwise_layers.cpp
+++ b/modules/dnn/src/layers/elementwise_layers.cpp
@@ -36,16 +36,16 @@ public:
    ElementWiseLayer(bool run_parallel_=false, const Func &f=Func()) : func(f), run_parallel(run_parallel_) {}
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                                         const int requiredOutputs,
+                                         std::vector<MatShape> &outputs,
+                                         std::vector<MatShape> &internals) const
    {
-        outputs.resize(inputs.size());
+        Layer::getMemoryShapes(inputs, requiredOutputs, outputs, internals);
-        for (size_t i = 0; i < inputs.size(); i++)
+        return true;
-        {
-            outputs[i] = *inputs[i];
-        }
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        for (size_t i = 0; i < inputs.size(); i++)
        {
@@ -169,20 +169,16 @@ public:
        setParamsFrom(params);
    }
-    ////////////////////////////////////////////////////////////////////////////
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                                         const int requiredOutputs,
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+                                         std::vector<MatShape> &outputs,
+                                         std::vector<MatShape> &internals) const
    {
-        CV_Assert(blobs.size() == 1);
+        Layer::getMemoryShapes(inputs, requiredOutputs, outputs, internals);
+        return true;
-        outputs.resize(inputs.size());
-        for (size_t i = 0; i < inputs.size(); i++)
-        {
-            outputs[i].create(inputs[i]->dims, inputs[i]->size.p, inputs[i]->type());
-        }
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        CV_Assert(inputs.size() == 1);
        Mat &inpBlob = *inputs[0];

--- a/modules/dnn/src/layers/eltwise_layer.cpp
+++ b/modules/dnn/src/layers/eltwise_layer.cpp
@@ -41,7 +41,6 @@
 #include "../precomp.hpp"
 #include "layers_common.hpp"
 namespace cv
 {
 namespace dnn
@@ -82,21 +81,26 @@ public:
        }
    }
-    void allocate(const std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        CV_Assert(2 <= inputs.size());
+        CV_Assert(inputs.size() >= 2);
        CV_Assert(coeffs.size() == 0 || coeffs.size() == inputs.size());
        CV_Assert(op == SUM || coeffs.size() == 0);
-        for (size_t i = 1; i < inputs.size(); ++i)
+        for (int i = 1; i < inputs.size(); i++)
        {
-            CV_Assert(inputs[i]->size == inputs[0]->size);
+            CV_Assert(inputs[0] == inputs[i]);
        }
-        outputs.resize(1);
-        outputs[0].create(inputs[0]->dims, inputs[0]->size.p, inputs[0]->type());
+        outputs.assign(1, inputs[0]);
+        return false;
    }
-    void forward(std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat *> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        Mat& output = outputs[0];
        switch (op)

--- a/modules/dnn/src/layers/flatten_layer.cpp
+++ b/modules/dnn/src/layers/flatten_layer.cpp
@@ -43,6 +43,7 @@
 #include "layers_common.hpp"
 #include <float.h>
 #include <algorithm>
+#include <opencv2/dnn/shape_utils.hpp>
 namespace cv
 {
@@ -59,56 +60,60 @@ public:
        setParamsFrom(params);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        size_t i, ninputs = inputs.size();
+        CV_Assert(inputs.size() > 0);
-        CV_Assert(ninputs > 0);
+        for (size_t i = 1; i < inputs.size(); i++)
-        const Mat& inp0 = *inputs[0];
+        {
+            CV_Assert(inputs[i] == inputs[0]);
+        }
-        for (i = 1; i < ninputs; i++)
+        int numAxes = inputs[0].size();
+        int startAxis = clamp(_startAxis, numAxes);
+        int endAxis = clamp(_endAxis, numAxes);
+        for (size_t i = 1; i < inputs.size(); i++)
        {
-            CV_Assert(inputs[i]->size == inp0.size);
+            CV_Assert(inputs[i] == inputs[0]);
        }
-        _numAxes = inp0.dims;
-        _endAxis = _endAxis < 0 ? _endAxis + _numAxes : _endAxis;
-        CV_Assert(_startAxis >= 0);
-        CV_Assert(_endAxis >= _startAxis && _endAxis < (int)_numAxes);
-        size_t flattenedDimensionSize = inp0.total(_startAxis, _endAxis+1);
+        CV_Assert(startAxis >= 0);
+        CV_Assert(endAxis >= startAxis && endAxis < (int)numAxes);
+        size_t flattenedDimensionSize = total(inputs[0], startAxis, endAxis);
-        resultShape.clear();
+        MatShape outputShapeVec;
-        for (int j = 0; j < _startAxis; j++)
+        for (int i = 0; i < startAxis; i++)
        {
-            resultShape.push_back(inp0.size[j]);
+            outputShapeVec.push_back(inputs[0][i]);
        }
-        resultShape.push_back(flattenedDimensionSize);
+        outputShapeVec.push_back(flattenedDimensionSize);
-        for (int j = _endAxis + 1; j < _numAxes; j++)
+        for (size_t i = endAxis + 1; i < numAxes; i++)
        {
-            resultShape.push_back(inp0.size[j]);
+            outputShapeVec.push_back(inputs[0][i]);
        }
-        CV_Assert(resultShape.size() <= 4);
+        CV_Assert(outputShapeVec.size() <= 4);
-        for (i = 0; i < ninputs; i++)
+        outputs.resize(inputs.size(), outputShapeVec);
-        {
-            //in-place
+        return true;
-            outputs[i] = inputs[i]->reshape(1, (int)resultShape.size(), &resultShape[0]);
-        }
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        for (size_t i = 0; i < inputs.size(); i++)
        {
-            outputs[i] = inputs[i]->reshape(1, (int)resultShape.size(), &resultShape[0]);
+            MatShape outShape = shape(outputs[i]);
+            outputs[i] = inputs[i]->reshape(1, (int)outShape.size(), &outShape[0]);
        }
    }
    int _startAxis;
    int _endAxis;
-    size_t _numAxes;
-    std::vector<int> resultShape;
 };
 Ptr<FlattenLayer> FlattenLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/fully_connected_layer.cpp
+++ b/modules/dnn/src/layers/fully_connected_layer.cpp
@@ -57,8 +57,8 @@ public:
        setParamsFrom(params);
        CV_Assert(1 <= blobs.size() && blobs.size() <= 2);
-        numOutput = params.get<int>("num_output");
+        int numOutput = params.get<int>("num_output");
-        innerSize = (int)blobs[0].total() / numOutput;
+        int innerSize = (int)blobs[0].total() / numOutput;
        bias = params.get<bool>("bias_term", true);
        axis = params.get<int>("axis", 1);
@@ -70,43 +70,39 @@ public:
            blobs[1] = blobs[1].reshape(1, 1);
    }
-    void allocate(const std::vector<Mat*> &input, std::vector<Mat> &output)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        CV_Assert(input.size() > 0);
+        CV_Assert(inputs.size() > 0);
-        const Mat& inp0 = *input[0];
        CV_Assert(1 <= blobs.size() && blobs.size() <= 2);
        CV_Assert(blobs[0].dims == 2);
-        bias = (blobs.size() >= 1);
+        int cAxis = clamp(axis, inputs[0]);
-        axisCan = axis < 0 ? axis + inp0.dims : axis;
+        int outerSize = total(inputs[0], 0, cAxis);
-        dtype = inp0.type();
+        int numOutput = blobs[0].size[0];
-        numOutput = blobs[0].size[0];
+        outputs.resize(inputs.size(), shape(outerSize, numOutput));
-        innerSize = blobs[0].size[1];
-        outerSize = inp0.total(0, axisCan);
-        size_t innerSize0 = inp0.total(axisCan);
-        CV_Assert((size_t)innerSize == innerSize0);
+        internals.push_back(shape(outerSize, 1));
-        CV_Assert(!bias || (size_t)numOutput == blobs[1].total());
-        biasOnesBlob.create(outerSize, 1, dtype);
+        CV_Assert(!bias || (size_t)numOutput == blobs[1].total());
-        biasOnesBlob.setTo(1.);
-        output.resize(input.size());
+        return false;
-        for (size_t i = 0; i < input.size(); i++)
-        {
-            CV_Assert(i == 0 || (input[i]->size == input[0]->size && input[i]->type() == dtype));
-            output[i].create(outerSize, numOutput, dtype);
-        }
    }
-    void forward(std::vector<Mat*> &input, std::vector<Mat> &output)
+    void forward(std::vector<Mat*> &input, std::vector<Mat> &output, std::vector<Mat> &internals)
    {
+        internals[0].setTo(1.);
        const Mat &weight = blobs[0];
        const Mat *biasMat = NULL, *biasOnesMat = NULL;
+        int axisCan = clamp(axis, input[0]->dims);
+        int outerSize = input[0]->total(0, axisCan);
        if (bias)
        {
-            biasOnesMat = &biasOnesBlob;
+            biasOnesMat = &internals[0];
            biasMat = &blobs[1];
        }
@@ -121,10 +117,7 @@ public:
        }
    }
-    int axisCan, dtype;
-    int numOutput, innerSize, outerSize;
    bool bias;
-    Mat biasOnesBlob;
 };
 Ptr<InnerProductLayer> InnerProductLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/layers_common.cpp
+++ b/modules/dnn/src/layers/layers_common.cpp
@@ -163,25 +163,19 @@ void getConvolutionKernelParams(const LayerParams &params, int &kernelH, int &ke
 // We pad Pr/2 on the left and Pr - Pr/2 on the right, Pc/2 on the top
 // and Pc - Pc/2 on the bottom.  When Pr or Pc is odd, this means
 // we pad more on the right and bottom than on the top and left.
-void getConvPoolOutParams(const int inputH, const int inputW, const cv::Size &kernel,
+void getConvPoolOutParams(const Size& inp, const Size &kernel,
-                          const cv::Size &stride, cv::Size& pad, const cv::String &padMode,
+                          const Size &stride, const String &padMode,
-                          int &outH, int &outW)
+                          Size& out)
 {
    if (padMode == "VALID")
    {
-        outH = (inputH - kernel.height + stride.height) / stride.height;
+        out.height = (inp.height - kernel.height + stride.height) / stride.height;
-        outW = (inputW - kernel.width + stride.width) / stride.width;
+        out.width = (inp.width- kernel.width + stride.width) / stride.width;
-        pad = cv::Size(0,0);
    }
    else if (padMode == "SAME")
    {
-        outH = (inputH - 1 + stride.height) / stride.height;
+        out.height = (inp.height - 1 + stride.height) / stride.height;
-        outW = (inputW - 1 + stride.width) / stride.width;
+        out.width = (inp.width - 1 + stride.width) / stride.width;
-        int Ph = std::max(0, (outH - 1) * stride.height + kernel.height - inputH);
-        int Pw = std::max(0, (outW - 1) * stride.width + kernel.width - inputW);
-        // For odd values of total padding, add more padding at the 'right'
-        // side of the given dimension.
-        pad = cv::Size(Pw / 2, Ph / 2);
    }
    else
    {
@@ -189,5 +183,23 @@ void getConvPoolOutParams(const int inputH, const int inputW, const cv::Size &ke
    }
 }
+void getConvPoolPaddings(const Size& inp, const Size& out,
+                         const Size &kernel, const Size &stride,
+                         const String &padMode, Size &pad)
+{
+    if (padMode == "VALID")
+    {
+        pad = cv::Size(0,0);
+    }
+    else if (padMode == "SAME")
+    {
+        int Ph = std::max(0, (out.height - 1) * stride.height + kernel.height - inp.height);
+        int Pw = std::max(0, (out.width - 1) * stride.width + kernel.width - inp.width);
+        // For odd values of total padding, add more padding at the 'right'
+        // side of the given dimension.
+        pad = cv::Size(Pw / 2, Ph / 2);
+    }
+}
 }
 }
--- a/modules/dnn/src/layers/layers_common.hpp
+++ b/modules/dnn/src/layers/layers_common.hpp
@@ -44,6 +44,7 @@
 #include <opencv2/dnn.hpp>
 #include "op_blas.hpp"
 #include "op_im2col.hpp"
+#include <opencv2/dnn/shape_utils.hpp>
 namespace cv
 {
@@ -56,10 +57,13 @@ void getConvolutionKernelParams(const LayerParams &params, int &kernelH, int &ke
 void getPoolingKernelParams(const LayerParams &params, int &kernelH, int &kernelW, bool &globalPooling,
                            int &padH, int &padW, int &strideH, int &strideW, cv::String& padMode);
-void getConvPoolOutParams(const int inputH, const int inputW, const cv::Size& kernel,
+void getConvPoolOutParams(const Size& inp, const Size &kernel,
-                          const cv::Size& stride, cv::Size &pad, const cv::String& padMode,
+                          const Size &stride, const String &padMode,
-                          int &outH, int &outW);
+                          Size& out);
+void getConvPoolPaddings(const Size& inp, const Size& out,
+                         const Size &kernel, const Size &stride,
+                         const String &padMode, Size &pad);
 }
 }

--- a/modules/dnn/src/layers/lrn_layer.cpp
+++ b/modules/dnn/src/layers/lrn_layer.cpp
@@ -75,36 +75,28 @@ public:
        normBySize = params.get<bool>("norm_by_size", true);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
-        CV_Assert(inputs.size() == 1 && inputs[0]->dims == 4);
+        CV_Assert(inputs.size() == outputs.size());
-        CV_Assert(type == CHANNEL_NRM || type == SPATIAL_NRM);
+        for (int i = 0; i < inputs.size(); i++)
+        {
-        const Mat& inp0 = *inputs[0];
+            CV_Assert(inputs[i]->dims == 4);
-        if (type == SPATIAL_NRM)
-            buf.create(inp0.size[2], inp0.size[3], inp0.type());
-        outputs.resize(1);
-        outputs[0].create(inp0.dims, inp0.size.p, inp0.type());
-    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+            Mat &src = *inputs[i];
-    {
+            Mat &dst = outputs[i];
-        Mat &src = *inputs[0];
-        Mat &dst = outputs[0];
-        switch (type)
+            switch (type)
-        {
+            {
-            case CHANNEL_NRM:
+                case CHANNEL_NRM:
-                channelNormalization(src, dst);
+                    channelNormalization(src, dst);
-                break;
+                    break;
-            case SPATIAL_NRM:
+                case SPATIAL_NRM:
-                spatialNormalization(src, dst);
+                    spatialNormalization(src, dst);
-                break;
+                    break;
-            default:
+                default:
-                CV_Error(Error::StsNotImplemented, "Unimplemented mode of LRN layer");
+                    CV_Error(Error::StsNotImplemented, "Unimplemented mode of LRN layer");
-                break;
+                    break;
+            }
        }
    }
@@ -179,8 +171,6 @@ public:
            }
        }
    }
-    Mat buf;
 };
 Ptr<LRNLayer> LRNLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/max_unpooling_layer.cpp
+++ b/modules/dnn/src/layers/max_unpooling_layer.cpp
@@ -29,22 +29,25 @@ public:
        poolStride = Size(params.get<int>("pool_stride_w"), params.get<int>("pool_stride_h"));
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
        CV_Assert(inputs.size() == 2);
-        const Mat& inp0 = *inputs[0];
+        CV_Assert(total(inputs[0]) == total(inputs[1]));
-        CV_Assert(inp0.total() == inputs[1]->total());
-        CV_Assert(inp0.dims == 4);
-        int outShape[] = { inp0.size[0], inp0.size[1], inp0.size[2], inp0.size[3] };
+        MatShape outShape = inputs[0];
        outShape[2] = (outShape[2] - 1) * poolStride.height + poolKernel.height - 2 * poolPad.height;
        outShape[3] = (outShape[3] - 1) * poolStride.width + poolKernel.width - 2 * poolPad.width;
-        outputs.resize(1);
+        outputs.clear();
-        outputs[0].create(4, outShape, inp0.type());
+        outputs.push_back(outShape);
+        return false;
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        CV_Assert(inputs.size() == 2);
        Mat& input = *inputs[0];

--- a/modules/dnn/src/layers/mvn_layer.cpp
+++ b/modules/dnn/src/layers/mvn_layer.cpp
@@ -59,18 +59,7 @@ public:
        eps = params.get<double>("eps", 1e-9);
    }
-    void allocate(const std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat *> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
-    {
-        outputs.resize(inputs.size());
-        for (size_t i = 0; i < inputs.size(); i++)
-        {
-            int dims = inputs[i]->dims;
-            CV_Assert(!acrossChannels || dims >= 2);
-            outputs[i].create(dims, inputs[i]->size.p, inputs[i]->type());
-        }
-    }
-    void forward(std::vector<Mat *> &inputs, std::vector<Mat> &outputs)
    {
        for (size_t inpIdx = 0; inpIdx < inputs.size(); inpIdx++)
        {

--- a/modules/dnn/src/layers/normalize_bbox_layer.cpp
+++ b/modules/dnn/src/layers/normalize_bbox_layer.cpp
@@ -51,31 +51,17 @@ namespace cv
 namespace dnn
 {
-class NormalizeBBoxLayerImpl : public NormalizeBBoxLayer
+namespace
 {
-public:
+    const std::string layerName = "NormalizeBBox";
-    Mat _buffer;
+}
-    Mat _sumChannelMultiplier;
-    Mat _sumSpatialMultiplier;
-    Mat _scale;
+class NormalizeBBoxLayerImpl : public NormalizeBBoxLayer
+{
    float _eps;
    bool _across_spatial;
    bool _channel_shared;
+public:
-    size_t _num;
-    size_t _channels;
-    size_t _rows;
-    size_t _cols;
-    size_t _channelSize;
-    size_t _imageSize;
-    static const size_t _numAxes = 4;
-    static const std::string _layerName;
    bool getParameterDict(const LayerParams &params,
                          const std::string &parameterName,
                          DictValue& result)
@@ -102,7 +88,7 @@ public:
        {
            if(required)
            {
-                std::string message = _layerName;
+                std::string message = layerName;
                message += " layer parameter does not contain ";
                message += parameterName;
                message += " parameter.";
@@ -127,60 +113,63 @@ public:
    void checkInputs(const std::vector<Mat*> &inputs)
    {
        CV_Assert(inputs.size() > 0);
+        CV_Assert(inputs[0]->dims == 4 && inputs[0]->type() == CV_32F);
        for (size_t i = 1; i < inputs.size(); i++)
        {
+            CV_Assert(inputs[i]->dims == 4 && inputs[i]->type() == CV_32F);
            CV_Assert(inputs[i]->size == inputs[0]->size);
        }
        CV_Assert(inputs[0]->dims > 2);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        checkInputs(inputs);
+        bool inplace = Layer::getMemoryShapes(inputs, requiredOutputs, outputs, internals);
+        size_t channels = inputs[0][1];
-        const Mat& inp0 = *inputs[0];
+        size_t rows = inputs[0][2];
-        CV_Assert(inp0.dims == 4 && inp0.type() == CV_32F);
+        size_t cols = inputs[0][3];
+        size_t channelSize = rows * cols;
-        _num = inp0.size[0];
+        internals.assign(1, shape(channels, channelSize));
-        _channels = inp0.size[1];
+        internals.push_back(shape(channels, 1));
-        _rows = inp0.size[2];
+        internals.push_back(shape(1, channelSize));
-        _cols = inp0.size[3];
-        _channelSize = _rows * _cols;
+        return inplace;
-        _imageSize = _channelSize * _channels;
+    }
-        _buffer = Mat(_channels, _channelSize, CV_32F);
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
+    {
+        checkInputs(inputs);
-        _sumChannelMultiplier = Mat(_channels, 1, CV_32F, Scalar(1.0));
+        Mat& buffer = internals[0], sumChannelMultiplier = internals[1],
-        _sumSpatialMultiplier = Mat(1, _channelSize, CV_32F, Scalar(1.0));
+                sumSpatialMultiplier = internals[2];
-        _scale = blobs[0];
+        sumChannelMultiplier.setTo(1.0);
-        size_t i, ninputs = inputs.size();
+        sumSpatialMultiplier.setTo(1.0);
-        outputs.resize(ninputs);
-        for(i = 0; i < ninputs; i++)
+        const Mat& inp0 = *inputs[0];
-        {
+        size_t num = inp0.size[0];
-            outputs[i].create(inp0.dims, inp0.size.p, inp0.type());
+        size_t channels = inp0.size[1];
-        }
+        size_t channelSize = inp0.size[2] * inp0.size[3];
-    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+        Mat zeroBuffer(channels, channelSize, CV_32F, Scalar(0));
-    {
-        Mat zeroBuffer(_channels, _channelSize, CV_32F, Scalar(0));
        Mat absDiff;
+        Mat scale = blobs[0];
        for (size_t j = 0; j < inputs.size(); j++)
        {
-            for (size_t n = 0; n < _num; ++n)
+            for (size_t n = 0; n < num; ++n)
            {
-                Mat src = Mat(_channels, _channelSize, CV_32F, inputs[j]->ptr<float>(n));
+                Mat src = Mat(channels, channelSize, CV_32F, inputs[j]->ptr<float>(n));
-                Mat dst = Mat(_channels, _channelSize, CV_32F, outputs[j].ptr<float>(n));
+                Mat dst = Mat(channels, channelSize, CV_32F, outputs[j].ptr<float>(n));
-                _buffer = src.mul(src);
+                buffer = src.mul(src);
                if (_across_spatial)
                {
-                    absdiff(_buffer, zeroBuffer, absDiff);
+                    absdiff(buffer, zeroBuffer, absDiff);
                    // add eps to avoid overflow
                    double absSum = sum(absDiff)[0] + _eps;
@@ -190,34 +179,34 @@ public:
                }
                else
                {
-                    Mat norm(_channelSize, 1, _buffer.type()); // 1 x _channelSize
+                    Mat norm(channelSize, 1, buffer.type()); // 1 x channelSize
-                    // (_channels x_channelSize)T * _channels x 1 -> _channelSize x 1
+                    // (_channels x channelSize)T * _channels x 1 -> channelSize x 1
-                    gemmCPU(_buffer, _sumChannelMultiplier, 1, norm, 0, GEMM_1_T);
+                    gemmCPU(buffer, sumChannelMultiplier, 1, norm, 0, GEMM_1_T);
                    // compute norm
                    pow(norm, 0.5f, norm);
                    // scale the layer
-                    // _channels x 1 * (_channelSize x 1)T -> _channels x _channelSize
+                    // _channels x 1 * (channelSize x 1)T -> _channels x channelSize
-                    gemmCPU(_sumChannelMultiplier, norm, 1, _buffer, 0, GEMM_2_T);
+                    gemmCPU(sumChannelMultiplier, norm, 1, buffer, 0, GEMM_2_T);
-                    dst = src / _buffer;
+                    dst = src / buffer;
                }
                // scale the output
                if (_channel_shared)
                {
                    // _scale: 1 x 1
-                    dst *= _scale.at<float>(0, 0);
+                    dst *= scale.at<float>(0, 0);
                }
                else
                {
                    // _scale: _channels x 1
-                    // _channels x 1 * 1 x _channelSize -> _channels x _channelSize
+                    // _channels x 1 * 1 x channelSize -> _channels x channelSize
-                    gemmCPU(_scale, _sumSpatialMultiplier, 1, _buffer, 0);
+                    gemmCPU(scale, sumSpatialMultiplier, 1, buffer, 0);
-                    dst = dst.mul(_buffer);
+                    dst = dst.mul(buffer);
                }
            }
        }
@@ -225,7 +214,6 @@ public:
 };
-const std::string NormalizeBBoxLayerImpl::_layerName = std::string("NormalizeBBox");
 Ptr<NormalizeBBoxLayer> NormalizeBBoxLayer::create(const LayerParams &params)
 {

--- a/modules/dnn/src/layers/padding_layer.cpp
+++ b/modules/dnn/src/layers/padding_layer.cpp
@@ -33,25 +33,26 @@ public:
            CV_Error(cv::Error::StsNotImplemented, "Negative padding and dim aren't supported");
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        size_t i, ninputs = inputs.size();
+        outputs.clear();
-        outputs.resize(ninputs);
+        for(int i = 0; i < inputs.size(); i++)
-        for( i = 0; i < ninputs; i++ )
        {
-            const Mat& inp = *inputs[i];
+            MatShape shape = inputs[i];
-            int dims = inp.dims;
-            std::vector<int> shape(inp.size.p, inp.size.p + dims);
            int dim = getPadDim(shape);
-            CV_Assert(dim < dims);
+            CV_Assert(dim < shape.size());
            shape[dim] += padding;
-            outputs[i].create(dims, &shape[0], inp.type());
+            outputs.push_back(shape);
        }
+        return false;
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        for(int i = 0; i < inputs.size(); i++)
        {
@@ -59,8 +60,8 @@ public:
            const Mat& inp = *inputs[i];
            Mat& out = outputs[i];
            int dims = inp.dims;
-            std::vector<int> inShape(inp.size.p, inp.size.p + dims);
+            MatShape inShape(inp.size.p, inp.size.p + dims);
-            std::vector<int> outShape(out.size.p, out.size.p + dims);
+            MatShape outShape(out.size.p, out.size.p + dims);
            int dim = getPadDim(inShape);
            int actualIndex = index;
@@ -88,7 +89,7 @@ public:
        }
    }
-    int getPadDim(const std::vector<int>& shape) const
+    int getPadDim(const MatShape& shape) const
    {
        return inputDims > 0 && (int)shape.size() > inputDims ? paddingDim + 1 : paddingDim;
    }

--- a/modules/dnn/src/layers/permute_layer.cpp
+++ b/modules/dnn/src/layers/permute_layer.cpp
@@ -110,7 +110,35 @@ public:
        checkNeedForPermutation();
    }
-    void computeStrides()
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
+    {
+        if(!_needsPermute)
+            return true;
+        CV_Assert(inputs.size() > 0);
+        CV_Assert((int)_numAxes == inputs[0].size());
+        MatShape shapeBefore = inputs[0], shapeAfter;
+        for (size_t i = 0; i < _numAxes; i++)
+        {
+            shapeAfter[i] = shapeBefore[_order[i]];
+        }
+        outputs.clear();
+        for (size_t i = 0; i < inputs.size(); i++)
+        {
+            CV_Assert(inputs[i][2] == shapeBefore[2] && inputs[i][3] == shapeBefore[3]);
+            outputs.push_back(shapeAfter);
+        }
+        return false;
+    }
+    void computeStrides(const MatShape &shapeBefore, const MatShape &shapeAfter)
    {
        _oldStride.resize(_numAxes);
        _newStride.resize(_numAxes);
@@ -120,14 +148,14 @@ public:
        for(int i = _numAxes - 2; i >= 0; i--)
        {
-            _oldStride[i] = _oldStride[i + 1] * _oldDimensionSize[i + 1];
+            _oldStride[i] = _oldStride[i + 1] * shapeBefore[i + 1];
-            _newStride[i] = _newStride[i + 1] * _newDimensionSize[i + 1];
+            _newStride[i] = _newStride[i + 1] * shapeAfter[i + 1];
        }
-        _count = _oldStride[0] * _oldDimensionSize[0];
+        _count = _oldStride[0] * shapeBefore[0];
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void finalize(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
    {
        if(!_needsPermute)
        {
@@ -138,27 +166,10 @@ public:
        const Mat& inp0 = *inputs[0];
        CV_Assert((int)_numAxes == inp0.dims);
-        outputs.resize(inputs.size());
+        computeStrides(shape(*inputs[0]), shape(outputs[0]));
-        _newDimensionSize.resize(_numAxes);
-        _oldDimensionSize.resize(_numAxes);
-        for (size_t i = 0; i < _numAxes; i++)
-        {
-            _oldDimensionSize[i] = inp0.size[i];
-            _newDimensionSize[i] = inp0.size[_order[i]];
-        }
-        for (size_t i = 0; i < inputs.size(); i++)
-        {
-            CV_Assert(inputs[i]->size == inp0.size);
-            outputs[i].create(_numAxes, &_newDimensionSize[0], CV_32F);
-        }
-        computeStrides();
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        size_t k, ninputs = inputs.size();
        if(!_needsPermute)

--- a/modules/dnn/src/layers/pooling_layer.cpp
+++ b/modules/dnn/src/layers/pooling_layer.cpp
@@ -77,39 +77,22 @@ public:
        setParamsFrom(params);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void finalize(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
    {
        CV_Assert(inputs.size() == 1);
-        inp = Size(inputs[0]->size[3], inputs[0]->size[2]);
+        cv::Size inp(inputs[0]->size[3], inputs[0]->size[2]),
+                out(outputs[0].size[3], outputs[0].size[2]);
        if(globalPooling)
        {
            kernel = inp;
        }
-        computeOutputShape(inp);
+        getConvPoolPaddings(inp, out, kernel, stride, padMode, pad);
-        outputs.resize(type == MAX ? 2 * inputs.size() : inputs.size());
-        for (size_t i = 0; i < inputs.size(); i++)
-        {
-            const Mat& inp_i = *inputs[i];
-            CV_Assert(inp_i.size[2] == inp.height && inp_i.size[3] == inp.width);
-            int outsz[] = { inp_i.size[0], inp_i.size[1], out.height, out.width };
-            if (type == MAX)
-            {
-                outputs[2 * i].create(4, outsz, CV_32F);
-                outputs[2 * i + 1].create(4, outsz, CV_32F);
-            }
-            else
-            {
-                outputs[i].create(4, outsz, CV_32F);
-            }
-        }
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        for (size_t ii = 0; ii < inputs.size(); ii++)
        {
@@ -130,7 +113,8 @@ public:
    void maxPooling(Mat &src, Mat &dst, Mat &mask)
    {
-        CV_DbgAssert(dst.size[2] == out.height && dst.size[3] == out.width);
+        Size inp(src.size[3], src.size[2]),
+            out(dst.size[3], dst.size[2]);
        for (int n = 0; n < src.size[0]; ++n)
        {
@@ -175,6 +159,8 @@ public:
    void avePooling(Mat &src, Mat &dst)
    {
+        Size inp(src.size[3], src.size[2]),
+            out(dst.size[3], dst.size[2]);
        for (int n = 0; n < src.size[0]; ++n)
        {
            for (int c = 0; c < src.size[1]; ++c)
@@ -209,35 +195,52 @@ public:
        }
    }
-    void computeOutputShape(Size inpSz)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
+        CV_Assert(inputs.size() != 0);
+        Size in(inputs[0][3], inputs[0][2]), out;
        if (padMode.empty()) {
            //Yeah, something strange Caffe scheme-)
-            out.height = static_cast<int>(ceil(static_cast<float>(inpSz.height + 2 * pad.height -
+            out.height = static_cast<int>(ceil(static_cast<float>(in.height + 2 * pad.height -
                                                                  kernel.height) / stride.height)) + 1;
-            out.width = static_cast<int>(ceil(static_cast<float>(inpSz.width + 2 * pad.width -
+            out.width = static_cast<int>(ceil(static_cast<float>(in.width + 2 * pad.width -
                                                                 kernel.width) / stride.width)) + 1;
            if (pad.height || pad.width)
            {
                // If we have padding, ensure that the last pooling starts strictly
                // inside the image (instead of at the padding); otherwise clip the last.
-                if ((out.height - 1) * stride.height >= inpSz.height + pad.height)
+                if ((out.height - 1) * stride.height >= in.height + pad.height)
                    --out.height;
-                if ((out.width - 1) * stride.width >= inpSz.width + pad.width)
+                if ((out.width - 1) * stride.width >= in.width + pad.width)
                    --out.width;
-                CV_Assert((out.height - 1) * stride.height < inpSz.height + pad.height);
+                CV_Assert((out.height - 1) * stride.height < in.height + pad.height);
-                CV_Assert((out.width - 1) * stride.width < inpSz.width + pad.width);
+                CV_Assert((out.width - 1) * stride.width < in.width + pad.width);
            }
        }
        else
        {
-            getConvPoolOutParams(inpSz.height, inpSz.width, kernel, stride, pad,
+            getConvPoolOutParams(in, kernel, stride,
-                                 padMode, out.height, out.width);
+                                 padMode, out);
        }
-    }
-    Size inp, out;
+        outputs.resize(type == MAX ? 2 * inputs.size() : inputs.size());
+        for (size_t i = 0; i < inputs.size(); i++)
+        {
+            size_t index = type == MAX ? 2*i : i;
+            int dims[] = {inputs[i][0], inputs[i][1], out.height, out.width};
+            outputs[index] = shape(dims);
+            if (type == MAX)
+                outputs[index + 1] = shape(dims);
+        }
+        return false;
+    }
 };
 Ptr<PoolingLayer> PoolingLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/prior_box_layer.cpp
+++ b/modules/dnn/src/layers/prior_box_layer.cpp
@@ -185,34 +185,41 @@ public:
        }
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
        CV_Assert(inputs.size() == 2);
-        _layerWidth = inputs[0]->size[3];
+        int layerHeight = inputs[0][2];
-        _layerHeight = inputs[0]->size[2];
+        int layerWidth = inputs[0][3];
-        _imageWidth = inputs[1]->size[3];
-        _imageHeight = inputs[1]->size[2];
-        _stepX = static_cast<float>(_imageWidth) / _layerWidth;
-        _stepY = static_cast<float>(_imageHeight) / _layerHeight;
        // Since all images in a batch has same height and width, we only need to
        // generate one set of priors which can be shared across all images.
-        int outNum = 1;
+        size_t outNum = 1;
        // 2 channels. First channel stores the mean of each prior coordinate.
        // Second channel stores the variance of each prior coordinate.
-        int outChannels = 2;
+        size_t outChannels = 2;
-        _outChannelSize = _layerHeight * _layerWidth * _numPriors * 4;
+        outputs.resize(1, shape(outNum, outChannels,
+                                layerHeight * layerWidth * _numPriors * 4));
-        int outsz[] = { outNum, outChannels, (int)_outChannelSize };
+        return false;
-        outputs[0].create(3, outsz, CV_32F);
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
-        (void)inputs; // to suppress unused parameter warning
+        int _layerWidth = inputs[0]->size[3];
+        int _layerHeight = inputs[0]->size[2];
+        int _imageWidth = inputs[1]->size[3];
+        int _imageHeight = inputs[1]->size[2];
+        float _stepX = static_cast<float>(_imageWidth) / _layerWidth;
+        float _stepY = static_cast<float>(_imageHeight) / _layerHeight;
+        int _outChannelSize = _layerHeight * _layerWidth * _numPriors * 4;
        float* outputPtr = outputs[0].ptr<float>();
@@ -305,17 +312,6 @@ public:
        }
    }
-    size_t _layerWidth;
-    size_t _layerHeight;
-    size_t _imageWidth;
-    size_t _imageHeight;
-    size_t _outChannelSize;
-    float _stepX;
-    float _stepY;
    float _minSize;
    float _maxSize;

--- a/modules/dnn/src/layers/recurrent_layers.cpp
+++ b/modules/dnn/src/layers/recurrent_layers.cpp
--- a/modules/dnn/src/layers/reshape_layer.cpp
+++ b/modules/dnn/src/layers/reshape_layer.cpp
@@ -48,10 +48,10 @@ namespace cv
 namespace dnn
 {
-static void computeShapeByReshapeMask(const std::vector<int> &srcShape,
+static void computeShapeByReshapeMask(const MatShape &srcShape,
-                                      const std::vector<int> &maskShape,
+                                      const MatShape &maskShape,
                                      Range srcRange /*= Range::all()*/,
-                                      std::vector<int>& dstShape)
+                                      MatShape& dstShape)
 {
    int srcShapeSize = (int)srcShape.size();
    int maskShapeSize = (int)maskShape.size();
@@ -61,7 +61,7 @@ static void computeShapeByReshapeMask(const std::vector<int> &srcShape,
    else
    {
        int sz = srcRange.size();
-        srcRange.start = srcRange.start < 0 ? srcRange.start + srcShapeSize : srcRange.start;
+        srcRange.start = clamp(srcRange.start, srcShapeSize);
        srcRange.end = srcRange.end == INT_MAX ? srcShapeSize : srcRange.start + sz;
    }
@@ -96,8 +96,8 @@ static void computeShapeByReshapeMask(const std::vector<int> &srcShape,
            CV_Error(Error::StsBadArg, "maskShape[i] >= -1");
    }
-    size_t srcTotal = shapeTotal(srcShape);
+    size_t srcTotal = total(srcShape);
-    size_t dstTotal = shapeTotal(dstShape);
+    size_t dstTotal = total(dstShape);
    if (inferDim != -1)
    {
@@ -116,7 +116,8 @@ static void computeShapeByReshapeMask(const std::vector<int> &srcShape,
 class ReshapeLayerImpl : public ReshapeLayer
 {
 public:
-    ReshapeLayerImpl(const LayerParams& params)
+    ReshapeLayerImpl(const LayerParams& params):
+        performReordering(false)
    {
        setParamsFrom(params);
        int axis = params.get<int>("axis", 0);
@@ -136,29 +137,40 @@ public:
        }
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        outputs.resize(inputs.size());
+        outputs.clear();
-        outShapes.resize(inputs.size());
        for (size_t i = 0; i < inputs.size(); i++)
        {
-            std::vector<int> inputShape(inputs[i]->size.p, inputs[i]->size.p + inputs[i]->dims);
+            outputs.push_back(MatShape());
-            computeShapeByReshapeMask(inputShape, newShapeDesc, newShapeRange, outShapes[i]);
+            computeShapeByReshapeMask(inputs[i], newShapeDesc, newShapeRange, outputs.back());
-            outputs[i] = inputs[i]->reshape(1, outShapes[i]);
        }
+        return true;
+    }
+    void finalize(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    {
+        CV_Assert(inputs.size());
+        CV_Assert(outputs.size());
+        Mat srcBlob = *inputs[0];
+        int dims = srcBlob.dims;
+        MatShape inputShape = shape(srcBlob), outShape = shape(outputs[0]);
+        bool channelsReduced = dims > (int)outShape.size() ||
+                (dims == 4 && inputShape[1] > outShape[1]);
+        performReordering = enableReordering && dims == 4 && channelsReduced;
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
-        for (size_t i = 0; i < outputs.size(); i++)
+        for (size_t i = 0; i < inputs.size(); i++)
        {
            Mat srcBlob = *inputs[i];
-            int dims = srcBlob.dims;
+            MatShape inputShape = shape(srcBlob), outShape = shape(outputs[i]);
-            std::vector<int> inputShape(srcBlob.size.p, srcBlob.size.p + dims);
-            bool channelsReduced = dims > (int)outShapes[i].size() ||
-            (dims == 4 && inputShape[1] > outShapes[i][1]);
-            bool performReordering = enableReordering && dims == 4 && channelsReduced;
            if (performReordering)
            {
@@ -185,16 +197,14 @@ public:
                    }
                }
-                srcBlob = reordered_blob;
+                outputs[i] = reordered_blob.reshape(1, outShape);
            }
-            // TODO: we should not assign srcBlob if performReordering is true.
-            outputs[i] = srcBlob.reshape(1, outShapes[i]);
        }
    }
+private:
    std::vector<std::vector<int> > outShapes;
-    bool enableReordering;
+    bool enableReordering, performReordering;
 };
 Ptr<ReshapeLayer> ReshapeLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/scale_layer.cpp
+++ b/modules/dnn/src/layers/scale_layer.cpp
@@ -27,20 +27,10 @@ public:
        hasBias = params.get<bool>("bias_term", false);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        CV_Assert(blobs.size() == 1 + hasBias);
-        outputs.resize(inputs.size());
-        for (size_t i = 0; i < inputs.size(); i++)
-        {
-            const Mat& inp = *inputs[i];
-            outputs[i].create(inp.dims, inp.size.p, inp.type());
-        }
-    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
-    {
        for (size_t ii = 0; ii < outputs.size(); ii++)
        {
            Mat &inpBlob = *inputs[ii];

--- a/modules/dnn/src/layers/shift_layer.cpp
+++ b/modules/dnn/src/layers/shift_layer.cpp
@@ -11,6 +11,7 @@ Implementation of shift layer, which adds up const values to blob.
 #include "../precomp.hpp"
 #include "op_blas.hpp"
+#include <opencv2/dnn/shape_utils.hpp>
 namespace cv
 {
@@ -35,42 +36,17 @@ public:
 #endif
    }
-    virtual void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        CV_Assert(inputs.size() > 0);
+        Layer::getMemoryShapes(inputs, requiredOutputs, outputs, internals);
-        CV_Assert(blobs.size() > 0);
+        internals.assign(1, shape(1, total(inputs[0], 2)));
-        const Mat &inpBlob = *inputs[0];
+        return true;
-        CV_Assert(inpBlob.dims == 4 && inpBlob.type() == CV_32F);
-        const Mat &biasBlob = blobs[0];
-        outputs.resize(inputs.size());
-        if(inpBlob.dims == biasBlob.dims)
-        {
-            for (size_t i = 0; i < inputs.size(); i++)
-            {
-                CV_Assert(inputs[i]->type() == inpBlob.type());
-                CV_Assert(inputs[i]->dims == inpBlob.dims);
-                outputs[i] = *inputs[i];
-            }
-        }
-        else
-        {
-            CV_Assert(biasBlob.total() == (size_t)inpBlob.size[1]);
-            for (size_t i = 0; i < inputs.size(); i++)
-            {
-                CV_Assert(inputs[i]->type() == inpBlob.type());
-                CV_Assert(inputs[i]->dims == 4 && inputs[i]->size[1] == inpBlob.size[1]);
-                outputs[i] = *inputs[i];
-            }
-            biasOnesMat = Mat::ones(1, inpBlob.size[2] * inpBlob.size[3], inpBlob.type());
-        }
    }
-    virtual void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    virtual void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        CV_Assert(inputs.size() > 0);
        CV_Assert(blobs.size() > 0);
@@ -87,6 +63,8 @@ public:
        }
        else
        {
+            Mat biasOnesMat = internals[0];
+            biasOnesMat.setTo(1);
            for (size_t ii = 0; ii < outputs.size(); ii++)
            {
                Mat &inpBlob = *inputs[ii];
@@ -103,8 +81,6 @@ public:
            }
        }
    }
-    Mat biasOnesMat;
 };
 Ptr<ShiftLayer> ShiftLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/slice_layer.cpp
+++ b/modules/dnn/src/layers/slice_layer.cpp
@@ -66,66 +66,69 @@ public:
        }
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                            const int requiredOutputs,
+                            std::vector<MatShape> &outputs,
+                            std::vector<MatShape> &internals) const
    {
        CV_Assert(inputs.size() == 1);
-        const Mat &inpBlob = *inputs[0];
-        int dims = inpBlob.dims;
-        axisIdx = axis < 0 ? axis + dims : axis;
+        outputs.clear();
-        int axisSize = inpBlob.size[axisIdx];
-        std::vector<int> inpShape(inpBlob.size.p, inpBlob.size.p + dims);
+        MatShape inpShape = inputs[0];
+        int cAxis = clamp(axis, inpShape.size());
+        int axisSize = inpShape[cAxis];
        if (sliceIndices.size()) //divide blob with respect to passed parameters
        {
-            std::vector<int> outAxisSize;
+           std::vector<int> outAxisSize;
-            int prevSlice = 0;
+           int prevSlice = 0;
-            for (size_t i = 0; i < sliceIndices.size(); i++)
+           for (size_t i = 0; i < sliceIndices.size(); i++)
-            {
+           {
-                if (!(prevSlice < sliceIndices[i] && sliceIndices[i] < axisSize))
+               if (!(prevSlice < sliceIndices[i] && sliceIndices[i] < axisSize))
-                    CV_Error(Error::StsBadArg, "Slice indices should be positive, increased and don't exceed size of sliced dimension");
+                   CV_Error(Error::StsBadArg, "Slice indices should be positive, increased and don't exceed size of sliced dimension");
-                outAxisSize.push_back(sliceIndices[i] - prevSlice);
+               outAxisSize.push_back(sliceIndices[i] - prevSlice);
-                prevSlice = sliceIndices[i];
+               prevSlice = sliceIndices[i];
            }
            outAxisSize.push_back(axisSize - prevSlice);
-            outputs.resize(outAxisSize.size());
            for (size_t i = 0; i < outAxisSize.size(); i++)
            {
-                inpShape[axisIdx] = outAxisSize[i];
+               inpShape[cAxis] = outAxisSize[i];
-                outputs[i].create(inpShape, inpBlob.type());
+              outputs.push_back(inpShape);
            }
        }
        else //divide blob with respect to count of output blobs
        {
-            CV_Assert(outputs.size() > 0 && axisSize % outputs.size() == 0);
+           CV_Assert(requiredOutputs > 0 && axisSize % requiredOutputs == 0);
-            int outAxisSize = axisSize / (int)outputs.size();
+           int outAxisSize = axisSize / (int)requiredOutputs;
-            for (size_t i = 0; i < outputs.size(); i++)
+           for (size_t i = 0; i < requiredOutputs; i++)
            {
-                inpShape[axisIdx] = outAxisSize;
+               inpShape[cAxis] = outAxisSize;
-                outputs[i].create(inpShape, inpBlob.type());
+               outputs.push_back(inpShape);
            }
        }
+        return false;
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        const Mat& inpMat = *inputs[0];
        std::vector<Range> ranges(inpMat.dims, Range::all());
+        int cAxis = clamp(axis, inpMat.dims);
-        ranges[axisIdx].start = 0;
+        ranges[cAxis].start = 0;
        for (size_t i = 0; i < outputs.size(); i++)
        {
-            ranges[axisIdx].end = ranges[axisIdx].start + outputs[i].size[axisIdx];
+            ranges[cAxis].end = ranges[cAxis].start + outputs[i].size[cAxis];
            inpMat(&ranges[0]).copyTo(outputs[i]);
-            ranges[axisIdx].start = ranges[axisIdx].end;
+            ranges[cAxis].start = ranges[cAxis].end;
        }
    }
-    int axisIdx;
 };
 Ptr<SliceLayer> SliceLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/softmax_layer.cpp
+++ b/modules/dnn/src/layers/softmax_layer.cpp
@@ -60,36 +60,34 @@ public:
        setParamsFrom(params);
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
-        CV_Assert(inputs.size() == 1);
+        bool inplace = Layer::getMemoryShapes(inputs, requiredOutputs, outputs, internals);
-        const Mat& inp0 = *inputs[0];
+        MatShape shape = inputs[0];
-        int dims = inp0.dims;
+        int cAxis = clamp(axisRaw, shape.size());
-        axis = axisRaw < 0 ? axisRaw + dims : axisRaw;
+        shape[cAxis] = 1;
+        internals.assign(1, shape);
-        outerSize = inp0.total(0, axis);
+        return inplace;
-        channels = inp0.size[axis];
-        innerSize = inp0.total(axis + 1);
-        std::vector<int> shape(inp0.size.p, inp0.size.p + dims);
-        shape[axis] = 1;
-        buf.create(shape, inp0.type());
-        outputs.resize(1);
-        outputs[0].create(inp0.dims, inp0.size.p, inp0.type());
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        const Mat &src = *inputs[0];
        Mat &dst = outputs[0];
+        int axis = clamp(axisRaw, src.dims);
+        size_t outerSize = src.total(0, axis), channels = src.size[axis],
+                innerSize = src.total(axis + 1);
        CV_Assert(src.type() == CV_32F);
        CV_Assert(src.isContinuous() && dst.isContinuous());
        const float *srcPtr = src.ptr<float>();
        float *dstPtr = dst.ptr<float>();
-        float *bufPtr = buf.ptr<float>();
+        float *bufPtr = internals[0].ptr<float>();
        size_t outerStep = src.total(axis);
        size_t cnStep = src.total(axis + 1);
@@ -148,9 +146,7 @@ public:
        }
    }
-    int axis, axisRaw;
+    int axisRaw;
-    Mat buf;
-    size_t outerSize, channels, innerSize;
 };
 Ptr<SoftmaxLayer> SoftmaxLayer::create(const LayerParams& params)

--- a/modules/dnn/src/layers/split_layer.cpp
+++ b/modules/dnn/src/layers/split_layer.cpp
@@ -65,19 +65,20 @@ public:
        }
    }
-    void allocate(const std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    bool getMemoryShapes(const std::vector<MatShape> &inputs,
+                         const int requiredOutputs,
+                         std::vector<MatShape> &outputs,
+                         std::vector<MatShape> &internals) const
    {
        CV_Assert(inputs.size() == 1);
-        const Mat& inp0 = *inputs[0];
-        if (outputsCount >= 0)
+        outputs.resize(outputsCount >= 0 ? outputsCount : requiredOutputs,
-            outputs.resize(outputsCount);
+                       inputs[0]);
-        for (size_t i = 0; i < outputs.size(); i++)
+        return false;
-            outputs[i].create(inp0.dims, inp0.size.p, inp0.type());
    }
-    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs)
+    void forward(std::vector<Mat*> &inputs, std::vector<Mat> &outputs, std::vector<Mat> &internals)
    {
        for (size_t i = 0; i < outputs.size(); i++)
        {

--- a/modules/dnn/src/tensorflow/tf_importer.cpp
+++ b/modules/dnn/src/tensorflow/tf_importer.cpp
@@ -51,7 +51,7 @@ struct Pin
    int blobIndex;
 };
-void blobShapeFromTensor(const tensorflow::TensorProto &tensor, std::vector<int>& shape)
+void blobShapeFromTensor(const tensorflow::TensorProto &tensor, MatShape& shape)
 {
    shape.clear();
    if (tensor.has_tensor_shape())
@@ -72,7 +72,7 @@ void blobShapeFromTensor(const tensorflow::TensorProto &tensor, std::vector<int>
 template <typename T>
 void parseTensor(const tensorflow::TensorProto &tensor, Mat &dstBlob)
 {
-    std::vector<int> shape;
+    MatShape shape;
    blobShapeFromTensor(tensor, shape);
    int dims = (int)shape.size();
@@ -236,7 +236,7 @@ void setStrides(LayerParams &layerParams, const tensorflow::NodeDef &layer)
 }
 DictValue parseDims(const tensorflow::TensorProto &tensor) {
-    std::vector<int> shape;
+    MatShape shape;
    blobShapeFromTensor(tensor, shape);
    int dims = (int)shape.size();
@@ -396,7 +396,7 @@ TFImporter::TFImporter(const char *model)
 void TFImporter::kernelFromTensor(const tensorflow::TensorProto &tensor, Mat &dstBlob)
 {
-    std::vector<int> shape;
+    MatShape shape;
    blobShapeFromTensor(tensor, shape);
    int dims = (int)shape.size();

--- a/modules/dnn/test/npy_blob.hpp
+++ b/modules/dnn/test/npy_blob.hpp
@@ -60,75 +60,6 @@ inline void saveBlobToNPY(const Mat &blob, const String &path)
    cnpy::npy_save(path.c_str(), blob.ptr<float>(), (unsigned*)&blob.size.p[0], blob.dims);
 }
-inline size_t shapeTotal(const std::vector<int>& shape)
-{
-    size_t p = 1, i, n = shape.size();
-    for( i = 0; i < n; i++)
-        p *= shape[i];
-    return p;
-}
-inline bool shapeEqual(const std::vector<int>& shape1, const std::vector<int>& shape2)
-{
-    size_t i, n1 = shape1.size(), n2 = shape2.size();
-    if( n1 != n2 )
-        return false;
-    for( i = 0; i < n1; i++ )
-        if( shape1[i] != shape2[i] )
-            return false;
-    return true;
-}
-inline std::vector<int> getShape(const Mat& m)
-{
-    return m.empty() ? std::vector<int>() : std::vector<int>(&m.size.p[0], &m.size.p[0] + m.dims);
-}
-inline std::vector<int> makeShape(int a0, int a1=-1, int a2=-1, int a3=-1, int a4=-1, int a5=-1)
-{
-    std::vector<int> s;
-    s.push_back(a0);
-    if(a1 > 0)
-    {
-        s.push_back(a1);
-        if(a2 > 0)
-        {
-            s.push_back(a2);
-            if(a3 > 0)
-            {
-                s.push_back(a3);
-                if(a4 > 0)
-                {
-                    s.push_back(a4);
-                    if(a5 > 0)
-                        s.push_back(a5);
-                }
-            }
-        }
-    }
-    return s;
-}
-inline std::vector<int> concatShape(const std::vector<int>& a, const std::vector<int>& b)
-{
-    size_t na = a.size(), nb = b.size();
-    std::vector<int> c(na + nb);
-    std::copy(a.begin(), a.end(), c.begin());
-    std::copy(b.begin(), b.end(), c.begin() + na);
-    return c;
-}
-inline void printShape(const String& name, const std::vector<int>& shape)
-{
-    printf("%s: [", name.c_str());
-    size_t i, n = shape.size();
-    for( i = 0; i < n; i++ )
-        printf(" %d", shape[i]);
-    printf(" ]\n");
-}
 }
 #endif
--- a/modules/dnn/test/test_layers.cpp
+++ b/modules/dnn/test/test_layers.cpp
@@ -43,6 +43,7 @@
 #include <opencv2/core/ocl.hpp>
 #include <iostream>
 #include "npy_blob.hpp"
+#include <opencv2/dnn/shape_utils.hpp>
 #include <opencv2/dnn/all_layers.hpp>
 #include <opencv2/ts/ocl_test.hpp>
@@ -67,16 +68,28 @@ void runLayer(Ptr<Layer> layer, std::vector<Mat> &inpBlobs, std::vector<Mat> &ou
    size_t i, ninputs = inpBlobs.size();
    std::vector<Mat> inp_(ninputs);
    std::vector<Mat*> inp(ninputs);
-    std::vector<Mat> outp;
+    std::vector<Mat> outp, intp;
+    std::vector<MatShape> inputs, outputs, internals;
    for( i = 0; i < ninputs; i++ )
    {
        inp_[i] = inpBlobs[i].clone();
        inp[i] = &inp_[i];
+        inputs.push_back(shape(inp_[i]));
    }
-    layer->allocate(inp, outp);
+    layer->getMemoryShapes(inputs, 0, outputs, internals);
-    layer->forward(inp, outp);
+    for(int i = 0; i < outputs.size(); i++)
+    {
+        outp.push_back(Mat(outputs[i], CV_32F));
+    }
+    for(int i = 0; i < internals.size(); i++)
+    {
+        intp.push_back(Mat(internals[i], CV_32F));
+    }
+    layer->finalize(inp, outp);
+    layer->forward(inp, outp, intp);
    size_t noutputs = outp.size();
    outBlobs.resize(noutputs);
@@ -165,18 +178,17 @@ TEST(Layer_Test_Reshape, squeeze)
    int sz[] = {4, 3, 1, 2};
    Mat inp(4, sz, CV_32F);
-    std::vector<Mat*> inpVec(1, &inp);
+    std::vector<Mat> inpVec(1, inp);
-    std::vector<Mat> outVec;
+    std::vector<Mat> outVec, intVec;
    Ptr<Layer> rl = LayerFactory::createLayerInstance("Reshape", params);
-    rl->allocate(inpVec, outVec);
+    runLayer(rl, inpVec, outVec);
-    rl->forward(inpVec, outVec);
    Mat& out = outVec[0];
-    std::vector<int> shape(out.size.p, out.size.p + out.dims);
+    MatShape shape(out.size.p, out.size.p + out.dims);
    int sh0[] = {4, 3, 2};
-    std::vector<int> shape0(sh0, sh0+3);
+    MatShape shape0(sh0, sh0+3);
-    EXPECT_TRUE(shapeEqual(shape, shape0));
+    EXPECT_EQ(shape, shape0);
 }
 TEST(Layer_Test_BatchNorm, Accuracy)
@@ -253,10 +265,10 @@ public:
    Layer_LSTM_Test() {}
-    void init(const std::vector<int> &inpShape_, const std::vector<int> &outShape_)
+    void init(const MatShape &inpShape_, const MatShape &outShape_)
    {
-        numInp = (int)shapeTotal(inpShape_);
+        numInp = total(inpShape_);
-        numOut = (int)shapeTotal(outShape_);
+        numOut = total(outShape_);
        Wh = Mat::ones(4 * numOut, numOut, CV_32F);
        Wx = Mat::ones(4 * numOut, numInp, CV_32F);
@@ -271,10 +283,10 @@ public:
 TEST_F(Layer_LSTM_Test, get_set_test)
 {
    const int TN = 4;
-    std::vector<int> inpShape = makeShape(5, 3, 2);
+    MatShape inpShape = shape(5, 3, 2);
-    std::vector<int> outShape = makeShape(3, 1, 2);
+    MatShape outShape = shape(3, 1, 2);
-    std::vector<int> inpResShape = concatShape(makeShape(TN), inpShape);
+    MatShape inpResShape = concat(shape(TN), inpShape);
-    std::vector<int> outResShape = concatShape(makeShape(TN), outShape);
+    MatShape outResShape = concat(shape(TN), outShape);
    init(inpShape, outShape);
    layer->setProduceCellOutput(true);
@@ -285,8 +297,6 @@ TEST_F(Layer_LSTM_Test, get_set_test)
    randu(C, -1., 1.);
    Mat H = C.clone();
    randu(H, -1., 1.);
-    layer->setC(C);
-    layer->setH(H);
    Mat inp((int)inpResShape.size(), &inpResShape[0], CV_32F);
    randu(inp, -1., 1.);
@@ -296,17 +306,12 @@ TEST_F(Layer_LSTM_Test, get_set_test)
    EXPECT_EQ(2u, outputs.size());
-    printShape("outResShape", outResShape);
+    print(outResShape, "outResShape");
-    printShape("out0", getShape(outputs[0]));
+    print(shape(outputs[0]), "out0");
-    printShape("out1", getShape(outputs[0]));
+    print(shape(outputs[0]), "out1");
-    printShape("C", getShape(layer->getC()));
-    printShape("H", getShape(layer->getH()));
-    EXPECT_TRUE(shapeEqual(outResShape, getShape(outputs[0])));
-    EXPECT_TRUE(shapeEqual(outResShape, getShape(outputs[1])));
-    EXPECT_TRUE(shapeEqual(outResShape, getShape(layer->getC())));
+    EXPECT_EQ(outResShape, shape(outputs[0]));
-    EXPECT_TRUE(shapeEqual(outResShape, getShape(layer->getH())));
+    EXPECT_EQ(outResShape, shape(outputs[1]));
    EXPECT_EQ(0, layer->inputNameToIndex("x"));
    EXPECT_EQ(0, layer->outputNameToIndex("h"));
@@ -387,8 +392,8 @@ TEST_F(Layer_RNN_Test, get_set_test)
    runLayer(layer, inputs, outputs);
    EXPECT_EQ(outputs.size(), 2u);
-    EXPECT_TRUE(shapeEqual(getShape(outputs[0]), makeShape(nT, nS, nO)));
+    EXPECT_EQ(shape(outputs[0]), shape(nT, nS, nO));
-    EXPECT_TRUE(shapeEqual(getShape(outputs[1]), makeShape(nT, nS, nH)));
+    EXPECT_EQ(shape(outputs[1]), shape(nT, nS, nH));
 }
 }