clang format

8eb31b78 · fenglei.tian · d172456c · 8eb31b78 · 8eb31b78 · 8eb31b78
Commit 8eb31b78 authored Mar 07, 2018 by fenglei.tian
Showing with 384 additions and 373 deletions

gpu_emitter.cpp src/ngraph/runtime/gpu/gpu_emitter.cpp +373 -367

gpu_emitter.hpp src/ngraph/runtime/gpu/gpu_emitter.hpp +1 -1

gpu_external_function.cpp src/ngraph/runtime/gpu/gpu_external_function.cpp +10 -5

No files found.
--- a/src/ngraph/runtime/gpu/gpu_emitter.cpp
+++ b/src/ngraph/runtime/gpu/gpu_emitter.cpp
@@ -104,27 +104,27 @@ namespace ngraph
    {
        namespace gpu
        {
-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Abs)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer << "ngraph::runtime::gpu::emit_abs((void*) " << args[0].get_name() << ", (void*) "
-           << out[0].get_name() << ", count);\n";
-    writer.indent--;
-    writer << "}\n";
-}
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer << "ngraph::runtime::gpu::emit_abs((void*) " << args[0].get_name()
+                       << ", (void*) " << out[0].get_name() << ", count);\n";
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Add)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer += R"(
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer += R"(
 float alpha1 = 1.0, alpha2 = 1.0, beta = 0;
 cudnnTensorDescriptor_t descriptor;
 cudnnCreateTensorDescriptor(&descriptor);
@@ -144,148 +144,151 @@ cudnnSetOpTensorDescriptor(opTensorDesc,
                            CUDNN_NOT_PROPAGATE_NAN);
    )";

-    writer << "cudnnOpTensor(cudnn_handle,"
-           << "opTensorDesc,"
-           << "&alpha1,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&alpha2,"
-           << "descriptor," << args[1].get_name() << ","
-           << "&beta,"
-           << "descriptor," << out[0].get_name() << ");\n";
-    writer.indent--;
-    writer << "}\n";
-}
+                writer << "cudnnOpTensor(cudnn_handle,"
+                       << "opTensorDesc,"
+                       << "&alpha1,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&alpha2,"
+                       << "descriptor," << args[1].get_name() << ","
+                       << "&beta,"
+                       << "descriptor," << out[0].get_name() << ");\n";
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Dot)
-{
-    const ngraph::op::Dot* dot = static_cast<const ngraph::op::Dot*>(node);
-    const Shape& arg0_shape = args[0].get_shape();
-    const Shape& arg1_shape = args[1].get_shape();
-    if (arg0_shape.empty() || arg1_shape.empty())
-    {
-        auto& first = (arg0_shape.empty() ? args[0] : args[1]);
-        auto& second = (arg0_shape.empty() ? args[1] : args[0]);
-        writer << "{  // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "int count = " << second.get_size() << ";\n";
-        writer << "if(count == 0) return;\n";
-        writer << "cublasScopy("
-               << "cublas_handle,"
-               << "count ," << second.get_name() << ","
-               << "1," << out[0].get_name() << ", 1);\n";
-        writer << "cublasSscal("
-               << "cublas_handle,"
-               << "count ," << first.get_name() << "," << out[0].get_name() << ", 1);\n";
-        writer.indent--;
-        writer << "}\n";
-        return;
-    }
-
-    //return if output size is 0;
-    if (out[0].get_size() == 0)
-    {
-        writer << "{   // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "return;\n";
-        writer.indent--;
-        writer << "}\n";
-        return;
-    }
-
-    //set output to 0 if input size is 0
-    if (args[0].get_size() == 0 || args[1].get_size() == 0)
-    {
-        writer << "{   // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "runtime::gpu::cuda_memset(" << out[0].get_name() << ", 0, " << out[0].get_size()
-               << " * sizeof(float));\n";
-        writer << "return;\n";
-        writer.indent--;
-        writer << "}\n";
-        return;
-    }
-
-    if ((arg0_shape.size() == 1) && (arg1_shape.size() == 1))
-    {
-        writer << "{   // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "cublasSdot("
-               << "cublas_handle," << arg0_shape[0] << "," << args[0].get_name() << ","
-               << "1," << args[1].get_name() << ","
-               << "1," << out[0].get_name() << ");\n";
-        writer.indent--;
-        writer << "}\n";
-    }
-    else if ((arg0_shape.size() == 2) && (arg1_shape.size() == 1))
-    {
-        writer << "{   // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "const float alpha = 1.0;\n";
-        writer << "const float beta  = 0;\n";
-        writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_HOST);\n";
-        writer << "cublasSgemv("
-               << "cublas_handle,"
-               << "CUBLAS_OP_T," << arg0_shape[0] << "," << arg0_shape[1] << ","
-               << "&alpha," // Alpha
-               << args[0].get_name() << "," << arg0_shape[1] << "," << args[1].get_name() << ","
-               << "1,"
-               << "&beta," // beta
-               << out[0].get_name() << ","
-               << "1);\n";
-        writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_DEVICE);\n";
-        writer.indent--;
-        writer << "}\n";
-    }
-    else if ((arg0_shape.size() == 2) && (arg1_shape.size() == 2))
-    {
-        // GEMM Call
-        if (arg0_shape[0] != out[0].get_shape()[0] || // m
-            arg1_shape[1] != out[0].get_shape()[1] || // n
-            arg0_shape[1] != arg1_shape[0])           // k
-        {
-            throw std::runtime_error("input and output shape is not correct for dot;");
-        }
-        writer << "{   // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "const float alpha = 1.0;\n";
-        writer << "const float beta  = 0.0;\n";
-        writer << "int m = " << arg0_shape[0] << ";\n";
-        writer << "int n = " << arg1_shape[1] << ";\n";
-        writer << "int k = " << arg0_shape[0] << ";\n";
-        writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_HOST);\n";
-        writer << "cublasSgemm("
-               << "cublas_handle,"
-               << "CUBLAS_OP_N,"
-               << "CUBLAS_OP_N,"
-               << "n,"
-               << "m,"
-               << "k,"
-               << "&alpha," // Alpha
-               << args[1].get_name() << ","
-               << "n," << args[0].get_name() << ","
-               << "k,"
-               << "&beta," // beta
-               << out[0].get_name() << ","
-               << "n);\n";
-        writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_DEVICE);\n";
-        writer.indent--;
-        writer << "}\n";
-    }
-    else
-    {
-        throw std::runtime_error(node->get_name() + " with more then 2D is not implemented.");
-    }
-}
+            {
+                const ngraph::op::Dot* dot = static_cast<const ngraph::op::Dot*>(node);
+                const Shape& arg0_shape = args[0].get_shape();
+                const Shape& arg1_shape = args[1].get_shape();
+                if (arg0_shape.empty() || arg1_shape.empty())
+                {
+                    auto& first = (arg0_shape.empty() ? args[0] : args[1]);
+                    auto& second = (arg0_shape.empty() ? args[1] : args[0]);
+                    writer << "{  // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "int count = " << second.get_size() << ";\n";
+                    writer << "if(count == 0) return;\n";
+                    writer << "cublasScopy("
+                           << "cublas_handle,"
+                           << "count ," << second.get_name() << ","
+                           << "1," << out[0].get_name() << ", 1);\n";
+                    writer << "cublasSscal("
+                           << "cublas_handle,"
+                           << "count ," << first.get_name() << "," << out[0].get_name()
+                           << ", 1);\n";
+                    writer.indent--;
+                    writer << "}\n";
+                    return;
+                }
+
+                //return if output size is 0;
+                if (out[0].get_size() == 0)
+                {
+                    writer << "{   // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "return;\n";
+                    writer.indent--;
+                    writer << "}\n";
+                    return;
+                }
+
+                //set output to 0 if input size is 0
+                if (args[0].get_size() == 0 || args[1].get_size() == 0)
+                {
+                    writer << "{   // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "runtime::gpu::cuda_memset(" << out[0].get_name() << ", 0, "
+                           << out[0].get_size() << " * sizeof(float));\n";
+                    writer << "return;\n";
+                    writer.indent--;
+                    writer << "}\n";
+                    return;
+                }
+
+                if ((arg0_shape.size() == 1) && (arg1_shape.size() == 1))
+                {
+                    writer << "{   // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "cublasSdot("
+                           << "cublas_handle," << arg0_shape[0] << "," << args[0].get_name() << ","
+                           << "1," << args[1].get_name() << ","
+                           << "1," << out[0].get_name() << ");\n";
+                    writer.indent--;
+                    writer << "}\n";
+                }
+                else if ((arg0_shape.size() == 2) && (arg1_shape.size() == 1))
+                {
+                    writer << "{   // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "const float alpha = 1.0;\n";
+                    writer << "const float beta  = 0;\n";
+                    writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_HOST);\n";
+                    writer << "cublasSgemv("
+                           << "cublas_handle,"
+                           << "CUBLAS_OP_T," << arg0_shape[0] << "," << arg0_shape[1] << ","
+                           << "&alpha," // Alpha
+                           << args[0].get_name() << "," << arg0_shape[1] << ","
+                           << args[1].get_name() << ","
+                           << "1,"
+                           << "&beta," // beta
+                           << out[0].get_name() << ","
+                           << "1);\n";
+                    writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_DEVICE);\n";
+                    writer.indent--;
+                    writer << "}\n";
+                }
+                else if ((arg0_shape.size() == 2) && (arg1_shape.size() == 2))
+                {
+                    // GEMM Call
+                    if (arg0_shape[0] != out[0].get_shape()[0] || // m
+                        arg1_shape[1] != out[0].get_shape()[1] || // n
+                        arg0_shape[1] != arg1_shape[0])           // k
+                    {
+                        throw std::runtime_error("input and output shape is not correct for dot;");
+                    }
+                    writer << "{   // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "const float alpha = 1.0;\n";
+                    writer << "const float beta  = 0.0;\n";
+                    writer << "int m = " << arg0_shape[0] << ";\n";
+                    writer << "int n = " << arg1_shape[1] << ";\n";
+                    writer << "int k = " << arg0_shape[0] << ";\n";
+                    writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_HOST);\n";
+                    writer << "cublasSgemm("
+                           << "cublas_handle,"
+                           << "CUBLAS_OP_N,"
+                           << "CUBLAS_OP_N,"
+                           << "n,"
+                           << "m,"
+                           << "k,"
+                           << "&alpha," // Alpha
+                           << args[1].get_name() << ","
+                           << "n," << args[0].get_name() << ","
+                           << "k,"
+                           << "&beta," // beta
+                           << out[0].get_name() << ","
+                           << "n);\n";
+                    writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_DEVICE);\n";
+                    writer.indent--;
+                    writer << "}\n";
+                }
+                else
+                {
+                    throw std::runtime_error(node->get_name() +
+                                             " with more then 2D is not implemented.");
+                }
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Maximum)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer += R"(
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer += R"(
 float alpha1 = 1.0, alpha2 = 1.0, beta = 0;
 cudnnTensorDescriptor_t descriptor;
 cudnnCreateTensorDescriptor(&descriptor);
@@ -305,26 +308,26 @@ cudnnSetOpTensorDescriptor(opTensorDesc,
                            CUDNN_NOT_PROPAGATE_NAN);
    )";

-    writer << "cudnnOpTensor(cudnn_handle,"
-           << "opTensorDesc,"
-           << "&alpha1,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&alpha2,"
-           << "descriptor," << args[1].get_name() << ","
-           << "&beta,"
-           << "descriptor," << out[0].get_name() << ");\n";
-    writer.indent--;
-    writer << "}\n";
-}
+                writer << "cudnnOpTensor(cudnn_handle,"
+                       << "opTensorDesc,"
+                       << "&alpha1,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&alpha2,"
+                       << "descriptor," << args[1].get_name() << ","
+                       << "&beta,"
+                       << "descriptor," << out[0].get_name() << ");\n";
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Minimum)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer += R"(
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer += R"(
 float alpha1 = 1.0, alpha2 = 1.0, beta = 0;
 cudnnTensorDescriptor_t descriptor;
 cudnnCreateTensorDescriptor(&descriptor);
@@ -344,26 +347,26 @@ cudnnSetOpTensorDescriptor(opTensorDesc,
                            CUDNN_NOT_PROPAGATE_NAN);
    )";

-    writer << "cudnnOpTensor(cudnn_handle,"
-           << "opTensorDesc,"
-           << "&alpha1,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&alpha2,"
-           << "descriptor," << args[1].get_name() << ","
-           << "&beta,"
-           << "descriptor," << out[0].get_name() << ");\n";
-    writer.indent--;
-    writer << "}\n";
-}
+                writer << "cudnnOpTensor(cudnn_handle,"
+                       << "opTensorDesc,"
+                       << "&alpha1,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&alpha2,"
+                       << "descriptor," << args[1].get_name() << ","
+                       << "&beta,"
+                       << "descriptor," << out[0].get_name() << ");\n";
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Negative)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer += R"(
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer += R"(
 float alpha1 = -1.0, alpha2 = 0, beta = 0;
 cudnnTensorDescriptor_t descriptor;
 cudnnCreateTensorDescriptor(&descriptor);
@@ -383,164 +386,167 @@ cudnnSetOpTensorDescriptor(opTensorDesc,
                            CUDNN_NOT_PROPAGATE_NAN);
    )";

-    writer << "cudnnOpTensor(cudnn_handle,"
-           << "opTensorDesc,"
-           << "&alpha1,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&alpha2,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&beta,"
-           << "descriptor," << out[0].get_name() << ");\n";
-    writer.indent--;
-    writer << "}\n";
-}
+                writer << "cudnnOpTensor(cudnn_handle,"
+                       << "opTensorDesc,"
+                       << "&alpha1,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&alpha2,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&beta,"
+                       << "descriptor," << out[0].get_name() << ");\n";
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Broadcast)
-{
-    auto broadcast = static_cast<const ngraph::op::Broadcast*>(node);
-    auto arg_shape = args[0].get_shape();
-    auto result_shape = out[0].get_shape();
-
-    auto& axes = broadcast->get_broadcast_axes();
-    //broadcast axes is empty, do a copy
-    if (axes.empty())
-    {
-        writer << "{   // " << node->get_name() << " \n";
-        writer.indent++;
-        writer << "runtime::gpu::cuda_memcpyDtD(" << out[0].get_name() << ", " << args[0].get_name()
-               << ", " << out[0].get_size() << " * " << out[0].get_element_type().size() << ");\n";
-        writer.indent--;
-        writer << "}\n";
-        return;
-    }
-
-    //broadcast axes size is 1, or can be group to 1 (consecutive axes, like 01 or 12 or 123 etc)
-    vector<int> axes_v;
-    std::copy(axes.begin(), axes.end(), std::back_inserter(axes_v));
-    std::sort(axes_v.begin(), axes_v.end());
-    bool is_one_axes = true;
-    if (axes.size() != 1)
-    {
-        for (int i = 1; i < axes_v.size(); i++)
-        {
-            if (axes_v[i] != axes_v[i - 1] + 1)
            {
-                is_one_axes = false;
-                break;
+                auto broadcast = static_cast<const ngraph::op::Broadcast*>(node);
+                auto arg_shape = args[0].get_shape();
+                auto result_shape = out[0].get_shape();
+
+                auto& axes = broadcast->get_broadcast_axes();
+                //broadcast axes is empty, do a copy
+                if (axes.empty())
+                {
+                    writer << "{   // " << node->get_name() << " \n";
+                    writer.indent++;
+                    writer << "runtime::gpu::cuda_memcpyDtD(" << out[0].get_name() << ", "
+                           << args[0].get_name() << ", " << out[0].get_size() << " * "
+                           << out[0].get_element_type().size() << ");\n";
+                    writer.indent--;
+                    writer << "}\n";
+                    return;
+                }
+
+                //broadcast axes size is 1, or can be group to 1 (consecutive axes, like 01 or 12 or 123 etc)
+                vector<int> axes_v;
+                std::copy(axes.begin(), axes.end(), std::back_inserter(axes_v));
+                std::sort(axes_v.begin(), axes_v.end());
+                bool is_one_axes = true;
+                if (axes.size() != 1)
+                {
+                    for (int i = 1; i < axes_v.size(); i++)
+                    {
+                        if (axes_v[i] != axes_v[i - 1] + 1)
+                        {
+                            is_one_axes = false;
+                            break;
+                        }
+                    }
+                }
+                if (is_one_axes)
+                {
+                    int repeat_times = 1;
+                    for (int i = 0; i < axes_v.size(); i++)
+                    {
+                        repeat_times *= result_shape[axes_v[i]];
+                    }
+
+                    int repeat_size = 1;
+                    for (int i = *axes_v.rbegin() + 1; i < result_shape.size(); i++)
+                    {
+                        repeat_size *= result_shape[i];
+                    }
+
+                    writer << "{   // " << node->get_name() << " \n";
+                    writer.indent++;
+                    writer << "runtime::gpu::emit_broadcast(" << args[0].get_name() << ", "
+                           << out[0].get_name() << ", " << repeat_size << ", " << repeat_times
+                           << ", " << out[0].get_size() << ");\n";
+                    writer.indent--;
+                    writer << "}\n";
+                }
+                else
+                {
+                    throw std::runtime_error(node->get_name() + " is not implemented.");
+                }
            }
-        }
-    }
-    if (is_one_axes)
-    {
-        int repeat_times = 1;
-        for (int i = 0; i < axes_v.size(); i++)
-        {
-            repeat_times *= result_shape[axes_v[i]];
-        }
-
-        int repeat_size = 1;
-        for (int i = *axes_v.rbegin() + 1; i < result_shape.size(); i++)
-        {
-            repeat_size *= result_shape[i];
-        }
-
-        writer << "{   // " << node->get_name() << " \n";
-        writer.indent++;
-        writer << "runtime::gpu::emit_broadcast(" << args[0].get_name() << ", " << out[0].get_name()
-               << ", " << repeat_size << ", " << repeat_times << ", " << out[0].get_size()
-               << ");\n";
-        writer.indent--;
-        writer << "}\n";
-    }
-    else
-    {
-        throw std::runtime_error(node->get_name() + " is not implemented.");
-    }
-}

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Constant)
-{
-}
+            {
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Reshape)
-{
-    auto reshape = static_cast<const op::Reshape*>(node);
-    writer << "{   // " << node->get_name() << "\n";
-    writer.indent++;
-    auto arg_shape = args[0].get_shape();
-    auto arg_rank = arg_shape.size();
-
-    auto result_shape = out[0].get_shape();
-    auto& result_element_type = out[0].get_element_type();
-
-    auto input_order = reshape->get_input_order();
-
-    bool same_layout = is_sorted(input_order.begin(), input_order.end());
-
-    size_t result_shape_product = 1;
-    for (auto i : result_shape)
-    {
-        result_shape_product *= i;
-    }
-    // If there is no layout change or we are just going from 1^n to 1^m or a zero-size tensor,
-    //  we can just copy.
-    if (same_layout || result_shape_product < 2)
-    {
-        writer << "{   // " << node->get_name() << " 1\n";
-        writer.indent++;
-        writer << "runtime::gpu::cuda_memcpyDtD(" << out[0].get_name() << ", " << args[0].get_name()
-               << ", " << out[0].get_size() << " * " << out[0].get_element_type().size() << ");\n";
-        writer.indent--;
-        writer << "}\n";
-    }
-    // If there *is* a layout change in the 2D case, we transpose the input.
-    else if (arg_rank == 2)
-    {
-        // TODO Assert arg0_shape[0] == arg1_shape[0]?
-        writer << "{   // " << node->get_name() << "\n";
-        writer.indent++;
-        writer << "const float alpha = 1.0;\n";
-        writer << "const float beta = 0;\n";
-        writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_HOST);\n";
-        writer << "cublasSgeam("
-               << "cublas_handle,"
-               << "CUBLAS_OP_T,"
-               << "CUBLAS_OP_T," << arg_shape[0] << "," << arg_shape[1] << ","
-               << "&alpha," // Alpha
-               << args[0].get_name() << "," << arg_shape[1] << ","
-               << "&beta," // beta
-               << args[0].get_name() << "," << arg_shape[1] << "," << out[0].get_name() << ","
-               << result_shape[1] << ");\n";
-        writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_DEVICE);\n";
-        writer.indent--;
-        writer << "}\n";
-    }
-    // Other cases (reordering of axes for tensors with rank>2) are not handled yet.
-    else
-    {
-        throw runtime_error(
-            "Axis permutation in reshape is not implemented yet for tensors with rank>2");
-    }
-    writer.indent--;
-    writer << "}\n";
-}
+            {
+                auto reshape = static_cast<const op::Reshape*>(node);
+                writer << "{   // " << node->get_name() << "\n";
+                writer.indent++;
+                auto arg_shape = args[0].get_shape();
+                auto arg_rank = arg_shape.size();
+
+                auto result_shape = out[0].get_shape();
+                auto& result_element_type = out[0].get_element_type();
+
+                auto input_order = reshape->get_input_order();
+
+                bool same_layout = is_sorted(input_order.begin(), input_order.end());
+
+                size_t result_shape_product = 1;
+                for (auto i : result_shape)
+                {
+                    result_shape_product *= i;
+                }
+                // If there is no layout change or we are just going from 1^n to 1^m or a zero-size tensor,
+                //  we can just copy.
+                if (same_layout || result_shape_product < 2)
+                {
+                    writer << "{   // " << node->get_name() << " 1\n";
+                    writer.indent++;
+                    writer << "runtime::gpu::cuda_memcpyDtD(" << out[0].get_name() << ", "
+                           << args[0].get_name() << ", " << out[0].get_size() << " * "
+                           << out[0].get_element_type().size() << ");\n";
+                    writer.indent--;
+                    writer << "}\n";
+                }
+                // If there *is* a layout change in the 2D case, we transpose the input.
+                else if (arg_rank == 2)
+                {
+                    // TODO Assert arg0_shape[0] == arg1_shape[0]?
+                    writer << "{   // " << node->get_name() << "\n";
+                    writer.indent++;
+                    writer << "const float alpha = 1.0;\n";
+                    writer << "const float beta = 0;\n";
+                    writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_HOST);\n";
+                    writer << "cublasSgeam("
+                           << "cublas_handle,"
+                           << "CUBLAS_OP_T,"
+                           << "CUBLAS_OP_T," << arg_shape[0] << "," << arg_shape[1] << ","
+                           << "&alpha," // Alpha
+                           << args[0].get_name() << "," << arg_shape[1] << ","
+                           << "&beta," // beta
+                           << args[0].get_name() << "," << arg_shape[1] << "," << out[0].get_name()
+                           << "," << result_shape[1] << ");\n";
+                    writer << "cublasSetPointerMode(cublas_handle, CUBLAS_POINTER_MODE_DEVICE);\n";
+                    writer.indent--;
+                    writer << "}\n";
+                }
+                // Other cases (reordering of axes for tensors with rank>2) are not handled yet.
+                else
+                {
+                    throw runtime_error(
+                        "Axis permutation in reshape is not implemented yet for tensors with "
+                        "rank>2");
+                }
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::FunctionCall)
-{
-}
+            {
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Multiply)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer += R"(
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer += R"(
 float alpha1 = 1.0, alpha2 = 1.0, beta = 0;
 cudnnTensorDescriptor_t descriptor;
 cudnnCreateTensorDescriptor(&descriptor);
@@ -560,26 +566,26 @@ cudnnSetOpTensorDescriptor(opTensorDesc,
                            CUDNN_NOT_PROPAGATE_NAN);
    )";

-    writer << "cudnnOpTensor(cudnn_handle,"
-           << "opTensorDesc,"
-           << "&alpha1,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&alpha2,"
-           << "descriptor," << args[1].get_name() << ","
-           << "&beta,"
-           << "descriptor," << out[0].get_name() << ");\n";
-    writer.indent--;
-    writer << "}\n";
-}
+                writer << "cudnnOpTensor(cudnn_handle,"
+                       << "opTensorDesc,"
+                       << "&alpha1,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&alpha2,"
+                       << "descriptor," << args[1].get_name() << ","
+                       << "&beta,"
+                       << "descriptor," << out[0].get_name() << ");\n";
+                writer.indent--;
+                writer << "}\n";
+            }

-template <>
+            template <>
            void GPU_Emitter::EMITTER_DECL(ngraph::op::Sqrt)
-{
-    writer << "{  // " << node->get_name() << "\n";
-    writer.indent++;
-    writer << "int count = " << out[0].get_size() << ";\n";
-    writer << "if(count == 0) return;\n";
-    writer += R"(
+            {
+                writer << "{  // " << node->get_name() << "\n";
+                writer.indent++;
+                writer << "int count = " << out[0].get_size() << ";\n";
+                writer << "if(count == 0) return;\n";
+                writer += R"(
 float alpha1 = 1.0, alpha2 = 0, beta = 0;
 cudnnTensorDescriptor_t descriptor;
 cudnnCreateTensorDescriptor(&descriptor);
@@ -599,17 +605,17 @@ cudnnSetOpTensorDescriptor(opTensorDesc,
                            CUDNN_NOT_PROPAGATE_NAN);
    )";

-    writer << "cudnnOpTensor(cudnn_handle,"
-           << "opTensorDesc,"
-           << "&alpha1,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&alpha2,"
-           << "descriptor," << args[0].get_name() << ","
-           << "&beta,"
-           << "descriptor," << out[0].get_name() << ");\n";
-    writer.indent--;
-    writer << "}\n";
-}
+                writer << "cudnnOpTensor(cudnn_handle,"
+                       << "opTensorDesc,"
+                       << "&alpha1,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&alpha2,"
+                       << "descriptor," << args[0].get_name() << ","
+                       << "&beta,"
+                       << "descriptor," << out[0].get_name() << ");\n";
+                writer.indent--;
+                writer << "}\n";
+            }
        }
    }
 }
--- a/src/ngraph/runtime/gpu/gpu_emitter.hpp
+++ b/src/ngraph/runtime/gpu/gpu_emitter.hpp
@@ -28,7 +28,7 @@
    emit<op_name>(GPU_ExternalFunction * external_function,                                        \
                  codegen::CodeWriter & writer,                                                    \
                  const ngraph::Node* node,                                                        \
-                  const std::vector<GPU_TensorViewWrapper>& args,                                      \
+                  const std::vector<GPU_TensorViewWrapper>& args,                                  \
                  const std::vector<GPU_TensorViewWrapper>& out)
 namespace ngraph
 {

--- a/src/ngraph/runtime/gpu/gpu_external_function.cpp
+++ b/src/ngraph/runtime/gpu/gpu_external_function.cpp
@@ -169,7 +169,8 @@ static const runtime::gpu::OpMap dispatcher{
    {TI(ngraph::op::Concat), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Concat>},
    {TI(ngraph::op::Divide), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Divide>},
    {TI(ngraph::op::Equal), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Equal>},
-    {TI(ngraph::op::GetOutputElement), &runtime::gpu::GPU_Emitter::emit<ngraph::op::GetOutputElement>},
+    {TI(ngraph::op::GetOutputElement),
+     &runtime::gpu::GPU_Emitter::emit<ngraph::op::GetOutputElement>},
    {TI(ngraph::op::Greater), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Greater>},
    {TI(ngraph::op::GreaterEq), &runtime::gpu::GPU_Emitter::emit<ngraph::op::GreaterEq>},
    {TI(ngraph::op::Less), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Less>},
@@ -216,13 +217,17 @@ static const runtime::gpu::OpMap dispatcher{
    {TI(ngraph::op::Reverse), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Reverse>},
    {TI(ngraph::op::Result), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Result>},
    {TI(ngraph::op::ReduceWindow), &runtime::gpu::GPU_Emitter::emit<ngraph::op::ReduceWindow>},
-    {TI(ngraph::op::SelectAndScatter), &runtime::gpu::GPU_Emitter::emit<ngraph::op::SelectAndScatter>},
+    {TI(ngraph::op::SelectAndScatter),
+     &runtime::gpu::GPU_Emitter::emit<ngraph::op::SelectAndScatter>},
    {TI(ngraph::op::AvgPool), &runtime::gpu::GPU_Emitter::emit<ngraph::op::AvgPool>},
-    {TI(ngraph::op::AvgPoolBackprop), &runtime::gpu::GPU_Emitter::emit<ngraph::op::AvgPoolBackprop>},
+    {TI(ngraph::op::AvgPoolBackprop),
+     &runtime::gpu::GPU_Emitter::emit<ngraph::op::AvgPoolBackprop>},
    {TI(ngraph::op::Pad), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Pad>},
    {TI(ngraph::op::BatchNorm), &runtime::gpu::GPU_Emitter::emit<ngraph::op::BatchNorm>},
-    {TI(ngraph::op::BatchNormBackprop), &runtime::gpu::GPU_Emitter::emit<ngraph::op::BatchNormBackprop>},
-    {TI(ngraph::op::MaxPoolBackprop), &runtime::gpu::GPU_Emitter::emit<ngraph::op::MaxPoolBackprop>},
+    {TI(ngraph::op::BatchNormBackprop),
+     &runtime::gpu::GPU_Emitter::emit<ngraph::op::BatchNormBackprop>},
+    {TI(ngraph::op::MaxPoolBackprop),
+     &runtime::gpu::GPU_Emitter::emit<ngraph::op::MaxPoolBackprop>},
    {TI(ngraph::op::Product), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Product>},
    {TI(ngraph::op::Max), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Max>},
    {TI(ngraph::op::Min), &runtime::gpu::GPU_Emitter::emit<ngraph::op::Min>},