async multithreaded

akroviakov · akroviakov · commit d58406a85840 · 2023-10-25T07:39:57.000-07:00
diff --git a/omniscidb/QueryEngine/Execute.cpp b/omniscidb/QueryEngine/Execute.cpp
@@ -2990,82 +2990,169 @@ FetchResult Executor::fetchChunks(
   std::vector<std::vector<const int8_t*>> all_frag_col_buffers;
   std::vector<std::vector<int64_t>> all_num_rows;
   std::vector<std::vector<uint64_t>> all_frag_offsets;
-  for (const auto& selected_frag_ids : frag_ids_crossjoin) {
-    std::vector<const int8_t*> frag_col_buffers(
-        plan_state_->global_to_local_col_ids_.size());
-    for (const auto& col_id : col_global_ids) {
-      if (interrupted_.load()) {
-        throw QueryExecutionError(ERR_INTERRUPTED);
-      }
-      CHECK(col_id);
-      if (col_id->isVirtual()) {
-        continue;
-      }
-      const auto fragments_it = all_tables_fragments.find(col_id->getTableRef());
-      CHECK(fragments_it != all_tables_fragments.end());
-      const auto fragments = fragments_it->second;
-      auto it = plan_state_->global_to_local_col_ids_.find(*col_id);
-      CHECK(it != plan_state_->global_to_local_col_ids_.end());
-      CHECK_LT(static_cast<size_t>(it->second),
-               plan_state_->global_to_local_col_ids_.size());
-      const size_t frag_id = selected_frag_ids[local_col_to_frag_pos[it->second]];
-      if (!fragments->size()) {
-        return {};
-      }
-      auto memory_level_for_column = memory_level;
-      if (plan_state_->columns_to_fetch_.find(*col_id) ==
-          plan_state_->columns_to_fetch_.end()) {
-        memory_level_for_column = Data_Namespace::CPU_LEVEL;
-      }
-      if (needFetchAllFragments(*col_id, ra_exe_unit, selected_fragments)) {
-        // determine if we need special treatment to linearlize multi-frag table
-        // i.e., a column that is classified as varlen type, i.e., array
-        // for now, we can support more types in this way
-        if (needLinearizeAllFragments(
-                *col_id, ra_exe_unit, selected_fragments, memory_level)) {
-          bool for_lazy_fetch = false;
-          if (plan_state_->columns_to_not_fetch_.find(*col_id) !=
-              plan_state_->columns_to_not_fetch_.end()) {
-            for_lazy_fetch = true;
-            VLOG(2) << "Try to linearize lazy fetch column (col_id: "
-                    << col_id->getColId() << ")";
+  if(memory_level == Data_Namespace::MemoryLevel::GPU_LEVEL){
+    std::mutex all_frag;
+    tbb::task_arena limitedArena(16);
+    limitedArena.execute([&]() {
+      tbb::parallel_for_each(
+          frag_ids_crossjoin.begin(),
+          frag_ids_crossjoin.end(),
+          [&](const std::vector<size_t>& selected_frag_ids) {
+          // for (const auto& selected_frag_ids : frag_ids_crossjoin) {
+            std::vector<const int8_t*> frag_col_buffers(
+                plan_state_->global_to_local_col_ids_.size());
+            for (const auto& col_id : col_global_ids) {
+              if (interrupted_.load()) {
+                throw QueryExecutionError(ERR_INTERRUPTED);
+              }
+              CHECK(col_id);
+              if (col_id->isVirtual()) {
+                continue;
+              }
+              const auto fragments_it = all_tables_fragments.find(col_id->getTableRef());
+              CHECK(fragments_it != all_tables_fragments.end());
+              const auto fragments = fragments_it->second;
+              auto it = plan_state_->global_to_local_col_ids_.find(*col_id);
+              CHECK(it != plan_state_->global_to_local_col_ids_.end());
+              CHECK_LT(static_cast<size_t>(it->second),
+                      plan_state_->global_to_local_col_ids_.size());
+              const size_t frag_id = selected_frag_ids[local_col_to_frag_pos[it->second]];
+              if (!fragments->size()) {
+                continue;
+              }
+              auto memory_level_for_column = memory_level;
+              if (plan_state_->columns_to_fetch_.find(*col_id) ==
+                  plan_state_->columns_to_fetch_.end()) {
+                memory_level_for_column = Data_Namespace::CPU_LEVEL;
+              }
+              if (needFetchAllFragments(*col_id, ra_exe_unit, selected_fragments)) {
+                // determine if we need special treatment to linearlize multi-frag table
+                // i.e., a column that is classified as varlen type, i.e., array
+                // for now, we can support more types in this way
+                if (needLinearizeAllFragments(
+                        *col_id, ra_exe_unit, selected_fragments, memory_level)) {
+                  bool for_lazy_fetch = false;
+                  if (plan_state_->columns_to_not_fetch_.find(*col_id) !=
+                      plan_state_->columns_to_not_fetch_.end()) {
+                    for_lazy_fetch = true;
+                    VLOG(2) << "Try to linearize lazy fetch column (col_id: "
+                            << col_id->getColId() << ")";
+                  }
+                  frag_col_buffers[it->second] = column_fetcher.linearizeColumnFragments(
+                      col_id->getColInfo(),
+                      all_tables_fragments,
+                      chunks,
+                      chunk_iterators,
+                      for_lazy_fetch ? Data_Namespace::CPU_LEVEL : memory_level,
+                      for_lazy_fetch ? 0 : device_id,
+                      device_allocator,
+                      thread_idx);
+                } else {
+                  frag_col_buffers[it->second] =
+                      column_fetcher.getAllTableColumnFragments(col_id->getColInfo(),
+                                                                all_tables_fragments,
+                                                                memory_level_for_column,
+                                                                device_id,
+                                                                device_allocator,
+                                                                thread_idx);
+                }
+              } else {
+                frag_col_buffers[it->second] =
+                    column_fetcher.getOneTableColumnFragment(col_id->getColInfo(),
+                                                            frag_id,
+                                                            all_tables_fragments,
+                                                            chunks,
+                                                            chunk_iterators,
+                                                            memory_level_for_column,
+                                                            device_id,
+                                                            device_allocator);
+              }
+            }
+            all_frag.lock();
+            all_frag_col_buffers.push_back(frag_col_buffers);
+            all_frag.unlock();
+        });
+      });
+  } else {
+    for (const auto& selected_frag_ids : frag_ids_crossjoin) {
+            std::vector<const int8_t*> frag_col_buffers(
+                plan_state_->global_to_local_col_ids_.size());
+            for (const auto& col_id : col_global_ids) {
+              if (interrupted_.load()) {
+                throw QueryExecutionError(ERR_INTERRUPTED);
+              }
+              CHECK(col_id);
+              if (col_id->isVirtual()) {
+                continue;
+              }
+              const auto fragments_it = all_tables_fragments.find(col_id->getTableRef());
+              CHECK(fragments_it != all_tables_fragments.end());
+              const auto fragments = fragments_it->second;
+              auto it = plan_state_->global_to_local_col_ids_.find(*col_id);
+              CHECK(it != plan_state_->global_to_local_col_ids_.end());
+              CHECK_LT(static_cast<size_t>(it->second),
+                      plan_state_->global_to_local_col_ids_.size());
+              const size_t frag_id = selected_frag_ids[local_col_to_frag_pos[it->second]];
+              if (!fragments->size()) {
+                return{};
+              }
+              auto memory_level_for_column = memory_level;
+              if (plan_state_->columns_to_fetch_.find(*col_id) ==
+                  plan_state_->columns_to_fetch_.end()) {
+                memory_level_for_column = Data_Namespace::CPU_LEVEL;
+              }
+              if (needFetchAllFragments(*col_id, ra_exe_unit, selected_fragments)) {
+                // determine if we need special treatment to linearlize multi-frag table
+                // i.e., a column that is classified as varlen type, i.e., array
+                // for now, we can support more types in this way
+                if (needLinearizeAllFragments(
+                        *col_id, ra_exe_unit, selected_fragments, memory_level)) {
+                  bool for_lazy_fetch = false;
+                  if (plan_state_->columns_to_not_fetch_.find(*col_id) !=
+                      plan_state_->columns_to_not_fetch_.end()) {
+                    for_lazy_fetch = true;
+                    VLOG(2) << "Try to linearize lazy fetch column (col_id: "
+                            << col_id->getColId() << ")";
+                  }
+                  frag_col_buffers[it->second] = column_fetcher.linearizeColumnFragments(
+                      col_id->getColInfo(),
+                      all_tables_fragments,
+                      chunks,
+                      chunk_iterators,
+                      for_lazy_fetch ? Data_Namespace::CPU_LEVEL : memory_level,
+                      for_lazy_fetch ? 0 : device_id,
+                      device_allocator,
+                      thread_idx);
+                } else {
+                  frag_col_buffers[it->second] =
+                      column_fetcher.getAllTableColumnFragments(col_id->getColInfo(),
+                                                                all_tables_fragments,
+                                                                memory_level_for_column,
+                                                                device_id,
+                                                                device_allocator,
+                                                                thread_idx);
+                }
+              } else {
+                auto timer1 = DEBUG_TIMER("getOneTableColumnFragment");
+                frag_col_buffers[it->second] =
+                    column_fetcher.getOneTableColumnFragment(col_id->getColInfo(),
+                                                            frag_id,
+                                                            all_tables_fragments,
+                                                            chunks,
+                                                            chunk_iterators,
+                                                            memory_level_for_column,
+                                                            device_id,
+                                                            device_allocator);
+                timer1.stop();
+              }
+            }
+            all_frag_col_buffers.push_back(frag_col_buffers);
           }
-          frag_col_buffers[it->second] = column_fetcher.linearizeColumnFragments(
-              col_id->getColInfo(),
-              all_tables_fragments,
-              chunks,
-              chunk_iterators,
-              for_lazy_fetch ? Data_Namespace::CPU_LEVEL : memory_level,
-              for_lazy_fetch ? 0 : device_id,
-              device_allocator,
-              thread_idx);
-        } else {
-          frag_col_buffers[it->second] =
-              column_fetcher.getAllTableColumnFragments(col_id->getColInfo(),
-                                                        all_tables_fragments,
-                                                        memory_level_for_column,
-                                                        device_id,
-                                                        device_allocator,
-                                                        thread_idx);
-        }
-      } else {
-        auto timer1 = DEBUG_TIMER("getOneTableColumnFragment");
-        frag_col_buffers[it->second] =
-            column_fetcher.getOneTableColumnFragment(col_id->getColInfo(),
-                                                     frag_id,
-                                                     all_tables_fragments,
-                                                     chunks,
-                                                     chunk_iterators,
-                                                     memory_level_for_column,
-                                                     device_id,
-                                                     device_allocator);
-        timer1.stop();
-      }
-    }
-    all_frag_col_buffers.push_back(frag_col_buffers);
   }
   std::tie(all_num_rows, all_frag_offsets) = getRowCountAndOffsetForAllFrags(
       ra_exe_unit, frag_ids_crossjoin, ra_exe_unit.input_descs, all_tables_fragments);
+  CHECK_EQ(all_num_rows.size(), all_frag_col_buffers.size());
+  CHECK_EQ(all_frag_offsets.size(), all_frag_col_buffers.size());
   return {all_frag_col_buffers, all_num_rows, all_frag_offsets};
 }