apache · alamb · Jun 22, 2022 · Jun 11, 2022 · Jun 19, 2022 · Jun 19, 2022
diff --git a/datafusion/core/src/physical_plan/hash_join.rs b/datafusion/core/src/physical_plan/hash_join.rs
@@ -22,13 +22,17 @@ use ahash::RandomState;
 
 use arrow::{
     array::{
-        ArrayData, ArrayRef, BooleanArray, Date32Array, Date64Array, LargeStringArray,
+        as_dictionary_array, as_string_array, ArrayData, ArrayRef, BooleanArray,
+        Date32Array, Date64Array, DecimalArray, DictionaryArray, LargeStringArray,
         PrimitiveArray, TimestampMicrosecondArray, TimestampMillisecondArray,
         TimestampSecondArray, UInt32BufferBuilder, UInt32Builder, UInt64BufferBuilder,
         UInt64Builder,
     },
     compute,
-    datatypes::{UInt32Type, UInt64Type},
+    datatypes::{
+        Int16Type, Int32Type, Int64Type, Int8Type, UInt16Type, UInt32Type, UInt64Type,
+        UInt8Type,
+    },
 };
 use smallvec::{smallvec, SmallVec};
 use std::sync::Arc;
@@ -38,7 +42,7 @@ use std::{time::Instant, vec};
 use futures::{ready, Stream, StreamExt, TryStreamExt};
 
 use arrow::array::{as_boolean_array, new_null_array, Array};
-use arrow::datatypes::DataType;
+use arrow::datatypes::{ArrowNativeType, DataType};
 use arrow::datatypes::{Schema, SchemaRef};
 use arrow::error::Result as ArrowResult;
 use arrow::record_batch::RecordBatch;
@@ -947,6 +951,58 @@ macro_rules! equal_rows_elem {
     }};
 }
 
+macro_rules! equal_rows_elem_with_string_dict {
+    ($key_array_type:ident, $l: ident, $r: ident, $left: ident, $right: ident, $null_equals_null: ident) => {{
+        let left_array: &DictionaryArray<$key_array_type> =
+            as_dictionary_array::<$key_array_type>($l);
+        let right_array: &DictionaryArray<$key_array_type> =
+            as_dictionary_array::<$key_array_type>($r);
+
+        let (left_values, left_values_index) = {
+            let keys_col = left_array.keys();
+            if keys_col.is_valid($left) {
+                let values_index = keys_col.value($left).to_usize().ok_or_else(|| {
+                    DataFusionError::Internal(format!(
+                    "Can not convert index to usize in dictionary of type creating group by value {:?}",
+                    keys_col.data_type()
+                ))
+                });
+
+                match values_index {
+                    Ok(index) => (as_string_array(left_array.values()), Some(index)),
+                    _ => (as_string_array(left_array.values()), None)
+                }
+            } else {
+                (as_string_array(left_array.values()), None)
+            }
+        };
+        let (right_values, right_values_index) = {
+            let keys_col = right_array.keys();
+            if keys_col.is_valid($right) {
+                let values_index = keys_col.value($right).to_usize().ok_or_else(|| {
+                    DataFusionError::Internal(format!(
+                    "Can not convert index to usize in dictionary of type creating group by value {:?}",
+                    keys_col.data_type()
+                ))
+                });
+
+                match values_index {
+                    Ok(index) => (as_string_array(right_array.values()), Some(index)),
+                    _ => (as_string_array(right_array.values()), None)
+                }
+            } else {
+                (as_string_array(right_array.values()), None)
+            }
+        };
+
+        match (left_values_index, right_values_index) {
+            (Some(left_values_index), Some(right_values_index)) => left_values.value(left_values_index) == right_values.value(right_values_index),
+            (None, None) => $null_equals_null,
+            _ => false,
+        }
+    }};
+}
+
 /// Left and right row have equal values
 /// If more data types are supported here, please also add the data types in can_hash function
 /// to generate hash join logical plan.
@@ -1054,6 +1110,124 @@ fn equal_rows(
             DataType::LargeUtf8 => {
                 equal_rows_elem!(LargeStringArray, l, r, left, right, null_equals_null)
             }
+            DataType::Decimal(_, lscale) => match r.data_type() {
+                DataType::Decimal(_, rscale) => {
+                    if lscale == rscale {
+                        equal_rows_elem!(
+                            DecimalArray,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    } else {
+                        err = Some(Err(DataFusionError::Internal(
+                            "Inconsistent Decimal data type in hasher, the scale should be same".to_string(),
+                        )));
+                        false
+                    }
+                }
+                _ => {
+                    err = Some(Err(DataFusionError::Internal(
+                        "Unsupported data type in hasher".to_string(),
+                    )));
+                    false
+                }
+            },
+            DataType::Dictionary(key_type, value_type)
+                if *value_type.as_ref() == DataType::Utf8 =>
+            {
+                match key_type.as_ref() {
+                    DataType::Int8 => {
+                        equal_rows_elem_with_string_dict!(
+                            Int8Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::Int16 => {
+                        equal_rows_elem_with_string_dict!(
+                            Int16Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::Int32 => {
+                        equal_rows_elem_with_string_dict!(
+                            Int32Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::Int64 => {
+                        equal_rows_elem_with_string_dict!(
+                            Int64Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::UInt8 => {
+                        equal_rows_elem_with_string_dict!(
+                            UInt8Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::UInt16 => {
+                        equal_rows_elem_with_string_dict!(
+                            UInt16Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::UInt32 => {
+                        equal_rows_elem_with_string_dict!(
+                            UInt32Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    DataType::UInt64 => {
+                        equal_rows_elem_with_string_dict!(
+                            UInt64Type,
+                            l,
+                            r,
+                            left,
+                            right,
+                            null_equals_null
+                        )
+                    }
+                    _ => {
+                        // should not happen
+                        err = Some(Err(DataFusionError::Internal(
+                            "Unsupported data type in hasher".to_string(),
+                        )));
+                        false
+                    }
+                }
+            }
             other => {
                 // This is internal because we should have caught this before.
                 err = Some(Err(DataFusionError::Internal(format!(