Merge branch 'main' into dev/asolovev_tbb_upd

Alexandr-Solovev · web-flow · commit 1b5a08840036 · 2026-04-16T07:43:59.000+02:00
diff --git a/cpp/oneapi/dal/algo/covariance/backend/cpu/compute_kernel_dense.cpp b/cpp/oneapi/dal/algo/covariance/backend/cpu/compute_kernel_dense.cpp
@@ -18,10 +18,14 @@
 
 #include "oneapi/dal/algo/covariance/backend/cpu/compute_kernel.hpp"
 #include "oneapi/dal/algo/covariance/backend/cpu/compute_kernel_common.hpp"
+#include "oneapi/dal/algo/covariance/backend/cpu/partial_compute_kernel.hpp"
+#include "oneapi/dal/algo/covariance/backend/cpu/finalize_compute_kernel.hpp"
 #include "oneapi/dal/backend/interop/common.hpp"
 #include "oneapi/dal/backend/interop/error_converter.hpp"
 #include "oneapi/dal/backend/interop/table_conversion.hpp"
 
+#include "oneapi/dal/backend/primitives/utils.hpp"
+
 #include "oneapi/dal/table/row_accessor.hpp"
 
 namespace oneapi::dal::covariance::backend {
@@ -30,13 +34,83 @@ using dal::backend::context_cpu;
 using descriptor_t = detail::descriptor_base<task::compute>;
 using parameters_t = detail::compute_parameters<task::compute>;
 
+namespace be = dal::backend;
+namespace pr = be::primitives;
 namespace daal_covariance = daal::algorithms::covariance;
 namespace interop = dal::backend::interop;
 
 template <typename Float, daal::internal::CpuType Cpu>
 using daal_covariance_kernel_t = daal_covariance::internal::
     CovarianceDenseBatchKernel<Float, daal_covariance::Method::defaultDense, Cpu>;
 
+template <typename Float, typename Task>
+static compute_result<Task> call_daal_spmd_kernel(const context_cpu& ctx,
+                                                  const detail::descriptor_base<Task>& desc,
+                                                  const detail::compute_parameters<Task>& params,
+                                                  const table& data) {
+    auto& comm = ctx.get_communicator();
+    const std::int64_t component_count = data.get_column_count();
+
+    // Compute partial results locally on this rank's data
+    partial_compute_input<Task> partial_input(data);
+    auto partial_result =
+        partial_compute_kernel_cpu<Float, method::by_default, Task>{}(ctx, desc, partial_input);
+
+    // Extract partial results as mutable arrays
+    auto nobs_nd = pr::table2ndarray<Float>(partial_result.get_partial_n_rows());
+    auto sums_nd = pr::table2ndarray<Float>(partial_result.get_partial_sum());
+    auto crossproduct_nd = pr::table2ndarray<Float>(partial_result.get_partial_crossproduct());
+
+    auto nobs_ary = dal::array<Float>::wrap(nobs_nd.get_mutable_data(), nobs_nd.get_count());
+    auto sums_ary = dal::array<Float>::wrap(sums_nd.get_mutable_data(), sums_nd.get_count());
+    auto crossproduct_ary =
+        dal::array<Float>::wrap(crossproduct_nd.get_mutable_data(), crossproduct_nd.get_count());
+
+    // The DAAL online kernel stores centered crossproducts:
+    //   cp = X^T*X - sums*sums^T/nobs
+    // Simple allreduce of centered crossproducts is incorrect because each
+    // rank uses its local mean. Un-center before allreduce, then re-center
+    // with global statistics after.
+    const Float local_nobs = *nobs_ary.get_data();
+    if (!desc.get_assume_centered() && local_nobs >= 1.0) {
+        Float* cp_ptr = crossproduct_ary.get_mutable_data();
+        const Float* sums_ptr = sums_ary.get_data();
+        const Float inv_nobs = Float(1) / local_nobs;
+        for (std::int64_t i = 0; i < component_count; ++i) {
+            for (std::int64_t j = 0; j < component_count; ++j) {
+                cp_ptr[i * component_count + j] += inv_nobs * sums_ptr[i] * sums_ptr[j];
+            }
+        }
+    }
+
+    // Allreduce raw crossproduct, sums, and nobs across all ranks
+    comm.allreduce(nobs_ary).wait();
+    comm.allreduce(sums_ary).wait();
+    comm.allreduce(crossproduct_ary).wait();
+
+    // Re-center with global statistics
+    const Float global_nobs = *nobs_ary.get_data();
+    if (!desc.get_assume_centered() && global_nobs >= 1.0) {
+        Float* cp_ptr = crossproduct_ary.get_mutable_data();
+        const Float* sums_ptr = sums_ary.get_data();
+        const Float inv_nobs = Float(1) / global_nobs;
+        for (std::int64_t i = 0; i < component_count; ++i) {
+            for (std::int64_t j = 0; j < component_count; ++j) {
+                cp_ptr[i * component_count + j] -= inv_nobs * sums_ptr[i] * sums_ptr[j];
+            }
+        }
+    }
+
+    // Reconstruct aggregated partial result and finalize
+    partial_compute_result<Task> aggregated;
+    aggregated.set_partial_n_rows(homogen_table::wrap(nobs_ary, 1, 1));
+    aggregated.set_partial_sum(homogen_table::wrap(sums_ary, 1, component_count));
+    aggregated.set_partial_crossproduct(
+        homogen_table::wrap(crossproduct_ary, component_count, component_count));
+
+    return finalize_compute_kernel_cpu<Float, method::by_default, Task>{}(ctx, desc, aggregated);
+}
+
 template <typename Float, typename Task>
 static compute_result<Task> call_daal_kernel(const context_cpu& ctx,
                                              const detail::descriptor_base<Task>& desc,
@@ -121,6 +195,9 @@ static compute_result<Task> compute(const context_cpu& ctx,
                                     const detail::descriptor_base<Task>& desc,
                                     const detail::compute_parameters<Task>& params,
                                     const compute_input<Task>& input) {
+    if (ctx.get_communicator().get_rank_count() > 1) {
+        return call_daal_spmd_kernel<Float, Task>(ctx, desc, params, input.get_data());
+    }
     return call_daal_kernel<Float, Task>(ctx, desc, params, input.get_data());
 }
 
diff --git a/cpp/oneapi/dal/algo/covariance/detail/compute_ops.cpp b/cpp/oneapi/dal/algo/covariance/detail/compute_ops.cpp
@@ -34,7 +34,7 @@ struct compute_ops_dispatcher<Policy, Float, Method, Task> {
     compute_parameters<Task> select_parameters(const Policy& ctx,
                                                const descriptor_base<Task>& desc,
                                                const compute_input<Task>& input) const {
-        using kernel_dispatcher_t = dal::backend::kernel_dispatcher<KERNEL_SINGLE_NODE_CPU(
+        using kernel_dispatcher_t = dal::backend::kernel_dispatcher<KERNEL_UNIVERSAL_SPMD_CPU(
             parameters::compute_parameters_cpu<Float, Method, Task>)>;
         return kernel_dispatcher_t{}(ctx, desc, input);
     }
@@ -51,7 +51,7 @@ struct compute_ops_dispatcher<Policy, Float, Method, Task> {
                                const descriptor_base<Task>& desc,
                                const compute_parameters<Task>& params,
                                const compute_input<Task>& input) const {
-        using kernel_dispatcher_t = dal::backend::kernel_dispatcher<KERNEL_SINGLE_NODE_CPU(
+        using kernel_dispatcher_t = dal::backend::kernel_dispatcher<KERNEL_UNIVERSAL_SPMD_CPU(
             backend::compute_kernel_cpu<Float, Method, Task>)>;
         return kernel_dispatcher_t()(ctx, desc, params, input);
     }
diff --git a/cpp/oneapi/dal/algo/covariance/test/spmd.cpp b/cpp/oneapi/dal/algo/covariance/test/spmd.cpp
@@ -84,7 +84,6 @@ TEMPLATE_LIST_TEST_M(covariance_spmd_test,
                      "covariance common flow",
                      "[covariance][integration][spmd]",
                      covariance_types) {
-    SKIP_IF(this->get_policy().is_cpu());
     SKIP_IF(this->not_float64_friendly());
 
     using Float = std::tuple_element_t<0, TestType>;
diff --git a/dev/bazel/daal.bzl b/dev/bazel/daal.bzl
@@ -54,7 +54,7 @@ def daal_module(name, features=[], lib_tag="daal",
         srcs = auto_srcs + srcs,
         copts = copts + select({
             "@platforms//os:windows": [],
-            "//conditions:default": ["-fvisibility=hidden"],
+            "//conditions:default": ["-fvisibility=hidden", "-fvisibility-inlines-hidden"],
         }),
         local_defines = select({
             "@config//:assert_enabled": local_defines + ["__DAAL_IMPLEMENTATION", "DEBUG_ASSERT=1"],
diff --git a/dev/bazel/dal.bzl b/dev/bazel/dal.bzl
@@ -496,7 +496,7 @@ def _dal_module(name, lib_tag="dal", is_dpc=False, features=[],
         },
         copts = copts + select({
             "@platforms//os:windows": [],
-            "//conditions:default": ["-fvisibility=hidden"],
+            "//conditions:default": ["-fvisibility=hidden", "-fvisibility-inlines-hidden"],
         }),
         local_defines = local_defines + [
             # Enable ONEDAL_EXPORT visibility annotations, matching Make's
diff --git a/dev/bazel/deps/opencl.tpl.BUILD b/dev/bazel/deps/opencl.tpl.BUILD
@@ -8,7 +8,7 @@ cc_library(
             "*.so.*",
         ],
         allow_empty = True,
-        exclude = ["*.py", "*.cmake", "*.a"],
+        exclude = ["*.py", "*.cmake", "*.a", "*.so.*-*"],
     ),
     linkopts = ["-lOpenCL"],
     visibility = ["//visibility:public"],
diff --git a/makefile b/makefile
@@ -131,7 +131,7 @@ y              := $(notdir $(filter $(_OS)/%,lnx/so win/dll mac/dylib))
 -cxx17         := $(if $(COMPILER_is_vc),/std:c++17,$(-Q)std=c++17)
 -optlevel      := $(-optlevel.$(COMPILER))
 -fPIC          := $(if $(OS_is_win),,-fPIC)
--visibility    := $(if $(OS_is_win),,-fvisibility=hidden)
+-visibility    := $(if $(OS_is_win),,-fvisibility=hidden -fvisibility-inlines-hidden)
 -DMKL_ILP64    := $(if $(filter mkl,$(BACKEND_CONFIG)),-DMKL_ILP64)
 -DMKL_LP64     := $(if $(filter mkl,$(BACKEND_CONFIG)),-DMKL_LP64)
 -Zl            := $(-Zl.$(COMPILER))
diff --git a/samples/oneapi/cpp/ccl/sources/covariance_distr_ccl.cpp b/samples/oneapi/cpp/ccl/sources/covariance_distr_ccl.cpp
@@ -0,0 +1,65 @@
+/*******************************************************************************
+* Copyright contributors to the oneDAL project
+*
+* Licensed under the Apache License, Version 2.0 (the "License");
+* you may not use this file except in compliance with the License.
+* You may obtain a copy of the License at
+*
+*     http://www.apache.org/licenses/LICENSE-2.0
+*
+* Unless required by applicable law or agreed to in writing, software
+* distributed under the License is distributed on an "AS IS" BASIS,
+* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+* See the License for the specific language governing permissions and
+* limitations under the License.
+*******************************************************************************/
+
+#include <iomanip>
+#include <iostream>
+
+#include "oneapi/dal/algo/covariance.hpp"
+#include "oneapi/dal/io/csv.hpp"
+#include "oneapi/dal/spmd/ccl/communicator.hpp"
+
+#include "utils.hpp"
+
+namespace dal = oneapi::dal;
+
+void run() {
+    const auto data_file_name = get_data_path("data/covcormoments_dense.csv");
+
+    const auto data = dal::read<dal::table>(dal::csv::data_source{ data_file_name });
+
+    const auto cov_desc = dal::covariance::descriptor<float>{}.set_result_options(
+        dal::covariance::result_options::cov_matrix | dal::covariance::result_options::means);
+
+    auto comm = dal::preview::spmd::make_communicator<dal::preview::spmd::backend::ccl>();
+    auto rank_id = comm.get_rank();
+    auto rank_count = comm.get_rank_count();
+
+    auto input_vec = split_table_by_rows<float>(data, rank_count);
+
+    const auto result = dal::preview::compute(comm, cov_desc, input_vec[rank_id]);
+
+    if (comm.get_rank() == 0) {
+        std::cout << "Sample covariance:\n" << result.get_cov_matrix() << std::endl;
+
+        std::cout << "Means:\n" << result.get_means() << std::endl;
+    }
+}
+
+int main(int argc, char const *argv[]) {
+    ccl::init();
+    int status = MPI_Init(nullptr, nullptr);
+    if (status != MPI_SUCCESS) {
+        throw std::runtime_error{ "Problem occurred during MPI init" };
+    }
+
+    run();
+
+    status = MPI_Finalize();
+    if (status != MPI_SUCCESS) {
+        throw std::runtime_error{ "Problem occurred during MPI finalize" };
+    }
+    return 0;
+}
diff --git a/samples/oneapi/cpp/mpi/sources/covariance_distr_mpi.cpp b/samples/oneapi/cpp/mpi/sources/covariance_distr_mpi.cpp
@@ -0,0 +1,64 @@
+/*******************************************************************************
+* Copyright contributors to the oneDAL project
+*
+* Licensed under the Apache License, Version 2.0 (the "License");
+* you may not use this file except in compliance with the License.
+* You may obtain a copy of the License at
+*
+*     http://www.apache.org/licenses/LICENSE-2.0
+*
+* Unless required by applicable law or agreed to in writing, software
+* distributed under the License is distributed on an "AS IS" BASIS,
+* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+* See the License for the specific language governing permissions and
+* limitations under the License.
+*******************************************************************************/
+
+#include <iomanip>
+#include <iostream>
+
+#include "oneapi/dal/algo/covariance.hpp"
+#include "oneapi/dal/io/csv.hpp"
+#include "oneapi/dal/spmd/mpi/communicator.hpp"
+
+#include "utils.hpp"
+
+namespace dal = oneapi::dal;
+
+void run() {
+    const auto data_file_name = get_data_path("data/covcormoments_dense.csv");
+
+    const auto data = dal::read<dal::table>(dal::csv::data_source{ data_file_name });
+
+    const auto cov_desc = dal::covariance::descriptor<float>{}.set_result_options(
+        dal::covariance::result_options::cov_matrix | dal::covariance::result_options::means);
+
+    auto comm = dal::preview::spmd::make_communicator<dal::preview::spmd::backend::mpi>();
+    auto rank_id = comm.get_rank();
+    auto rank_count = comm.get_rank_count();
+
+    auto input_vec = split_table_by_rows<float>(data, rank_count);
+
+    const auto result = dal::preview::compute(comm, cov_desc, input_vec[rank_id]);
+
+    if (comm.get_rank() == 0) {
+        std::cout << "Sample covariance:\n" << result.get_cov_matrix() << std::endl;
+
+        std::cout << "Means:\n" << result.get_means() << std::endl;
+    }
+}
+
+int main(int argc, char const *argv[]) {
+    int status = MPI_Init(nullptr, nullptr);
+    if (status != MPI_SUCCESS) {
+        throw std::runtime_error{ "Problem occurred during MPI init" };
+    }
+
+    run();
+
+    status = MPI_Finalize();
+    if (status != MPI_SUCCESS) {
+        throw std::runtime_error{ "Problem occurred during MPI finalize" };
+    }
+    return 0;
+}