LadybugDB
diff --git a/‎CMakeLists.txt‎
Lines changed: 7 additions & 2 deletions b/‎CMakeLists.txt‎
Lines changed: 7 additions & 2 deletions
diff --git a/‎src_cpp/include/numpy/numpy_scan.h‎
Lines changed: 15 additions & 0 deletions b/‎src_cpp/include/numpy/numpy_scan.h‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎src_cpp/include/numpy/numpy_type.h‎
Lines changed: 40 additions & 0 deletions b/‎src_cpp/include/numpy/numpy_type.h‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎src_cpp/include/pandas/pandas_bind.h‎
Lines changed: 42 additions & 0 deletions b/‎src_cpp/include/pandas/pandas_bind.h‎
Lines changed: 42 additions & 0 deletions
diff --git a/‎src_cpp/include/pandas/pandas_column.h‎
Lines changed: 37 additions & 0 deletions b/‎src_cpp/include/pandas/pandas_column.h‎
Lines changed: 37 additions & 0 deletions
diff --git a/‎src_cpp/include/pandas/pandas_scan.h‎
Lines changed: 73 additions & 0 deletions b/‎src_cpp/include/pandas/pandas_scan.h‎
Lines changed: 73 additions & 0 deletions
diff --git a/‎src_cpp/include/py_connection.h‎
Lines changed: 2 additions & 0 deletions b/‎src_cpp/include/py_connection.h‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src_cpp/numpy/numpy_scan.cpp‎
Lines changed: 124 additions & 0 deletions b/‎src_cpp/numpy/numpy_scan.cpp‎
Lines changed: 124 additions & 0 deletions
@@ -13,7 +13,11 @@ pybind11_add_module(_kuzu
         src_cpp/py_database.cpp
         src_cpp/py_prepared_statement.cpp
         src_cpp/py_query_result.cpp
-        src_cpp/py_query_result_converter.cpp)
+        src_cpp/py_query_result_converter.cpp
+        src_cpp/pandas/pandas_bind.cpp
+        src_cpp/pandas/pandas_scan.cpp
+        src_cpp/numpy/numpy_type.cpp
+        src_cpp/numpy/numpy_scan.cpp)
 
 set_target_properties(_kuzu
         PROPERTIES
@@ -28,7 +32,8 @@ target_link_libraries(_kuzu
 target_include_directories(
         _kuzu
         PUBLIC
-        ../../src/include)
+        ../../src/include
+        src_cpp/include)
 
 get_target_property(PYTHON_DEST _kuzu LIBRARY_OUTPUT_DIRECTORY)
 
 
@@ -0,0 +1,15 @@
+#pragma once
+
+#include "common/vector/value_vector.h"
+#include "pybind_include.h"
+
+namespace kuzu {
+
+struct PandasColumnBindData;
+
+struct NumpyScan {
+    static void scan(PandasColumnBindData* bindData, uint64_t count, uint64_t offset,
+        common::ValueVector* outputVector);
+};
+
+} // namespace kuzu
@@ -0,0 +1,40 @@
+#pragma once
+
+#include "common/types/types.h"
+#include "pybind_include.h"
+
+namespace kuzu {
+
+// Pandas has two different sets of types
+// NumPy dtypes (e.g., bool, int8,...)
+// Pandas Specific Types (e.g., categorical, datetime_tz,...)
+// TODO(Ziyi): Support more timestamp types, object and category(enum) type.
+enum class NumpyNullableType : uint8_t {
+    //! NumPy dtypes
+    BOOL,        //! bool_, bool8
+    INT_8,       //! byte, int8
+    UINT_8,      //! ubyte, uint8
+    INT_16,      //! int16, short
+    UINT_16,     //! uint16, ushort
+    INT_32,      //! int32, intc
+    UINT_32,     //! uint32, uintc,
+    INT_64,      //! int64, int0, int_, intp, matrix
+    UINT_64,     //! uint64, uint, uint0, uintp
+    FLOAT_16,    //! float16, half
+    FLOAT_32,    //! float32, single
+    FLOAT_64,    //! float64, float_, double
+    DATETIME_US, //! datetime64[us], <M8[us]
+    DATETIME_NS, //! datetime64[ns], <M8[ns]
+    TIMEDELTA,   //! timedelta64[D], timedelta64
+};
+
+struct NumpyType {
+    NumpyNullableType type;
+};
+
+struct NumpyTypeUtils {
+    static NumpyType convertNumpyType(const py::handle& colType);
+    static std::unique_ptr<common::LogicalType> numpyToLogicalType(const NumpyType& npType);
+};
+
+} // namespace kuzu
@@ -0,0 +1,42 @@
+#pragma once
+
+#include "numpy/numpy_type.h"
+#include "pandas_column.h"
+#include "pybind_include.h"
+
+namespace kuzu {
+
+namespace main {
+class ClientContext;
+}
+
+struct RegisteredArray {
+    explicit RegisteredArray(py::array npArray) : npArray(std::move(npArray)) {}
+    py::array npArray;
+};
+
+struct PandasColumnBindData {
+    NumpyType npType;
+    std::unique_ptr<PandasColumn> pandasCol;
+    std::unique_ptr<RegisteredArray> mask;
+
+    PandasColumnBindData() = default;
+
+    PandasColumnBindData(NumpyType npType, std::unique_ptr<PandasColumn> pandasCol,
+        std::unique_ptr<RegisteredArray> mask)
+        : npType{npType}, pandasCol{std::move(pandasCol)}, mask{std::move(mask)} {}
+
+    std::unique_ptr<PandasColumnBindData> copy() {
+        return std::make_unique<PandasColumnBindData>(npType, pandasCol->copy(),
+            mask == nullptr ? nullptr : std::make_unique<RegisteredArray>(mask->npArray));
+    }
+};
+
+struct Pandas {
+    static void bind(py::handle dfToBind,
+        std::vector<std::unique_ptr<PandasColumnBindData>>& columnBindData,
+        std::vector<std::unique_ptr<common::LogicalType>>& returnTypes,
+        std::vector<std::string>& names);
+};
+
+} // namespace kuzu
@@ -0,0 +1,37 @@
+#pragma once
+
+#include <cstdint>
+
+namespace kuzu {
+
+// We currently only support NUMPY as backend.
+enum class PandasColumnBackend : uint8_t { NUMPY = 0 };
+
+class PandasColumn {
+public:
+    PandasColumn(PandasColumnBackend backend) : backend(backend) {}
+    virtual ~PandasColumn() = default;
+
+public:
+    PandasColumnBackend getBackEnd() const { return backend; }
+
+    virtual std::unique_ptr<PandasColumn> copy() const = 0;
+
+protected:
+    PandasColumnBackend backend;
+};
+
+class PandasNumpyColumn : public PandasColumn {
+public:
+    PandasNumpyColumn(py::array array)
+        : PandasColumn{PandasColumnBackend::NUMPY}, array{std::move(array)} {}
+
+    std::unique_ptr<PandasColumn> copy() const override {
+        return std::make_unique<PandasNumpyColumn>(array);
+    }
+
+public:
+    py::array array;
+};
+
+} // namespace kuzu
@@ -0,0 +1,73 @@
+#pragma once
+
+#include "function/scalar_function.h"
+#include "function/table_functions.h"
+#include "function/table_functions/bind_data.h"
+#include "function/table_functions/scan_functions.h"
+#include "pandas_bind.h"
+#include "pybind_include.h"
+
+namespace kuzu {
+
+struct PandasScanLocalState : public function::TableFuncLocalState {
+    PandasScanLocalState(uint64_t start, uint64_t end) : start{start}, end{end} {}
+
+    uint64_t start;
+    uint64_t end;
+};
+
+struct PandasScanSharedState : public function::BaseScanSharedState {
+    explicit PandasScanSharedState(uint64_t numRows) : BaseScanSharedState{numRows}, position{0} {}
+
+    std::mutex lock;
+    uint64_t position;
+};
+
+struct PandasScanFunction {
+    static function::function_set getFunctionSet();
+
+    static void tableFunc(function::TableFunctionInput& input, common::DataChunk& outputChunk);
+
+    static std::unique_ptr<function::TableFuncBindData> bindFunc(main::ClientContext* /*context*/,
+        function::TableFuncBindInput* input, catalog::CatalogContent* catalog);
+
+    static std::unique_ptr<function::TableFuncSharedState> initSharedState(
+        function::TableFunctionInitInput& input);
+
+    static std::unique_ptr<function::TableFuncLocalState> initLocalState(
+        function::TableFunctionInitInput& input, function::TableFuncSharedState* state);
+
+    static bool sharedStateNext(const function::TableFuncBindData* bindData,
+        PandasScanLocalState* localState, function::TableFuncSharedState* sharedState);
+
+    static void pandasBackendScanSwitch(PandasColumnBindData* bindData, uint64_t count,
+        uint64_t offset, common::ValueVector* outputVector);
+};
+
+struct PandasScanFunctionData : public function::TableFuncBindData {
+    py::handle df;
+    uint64_t numRows;
+    std::vector<std::unique_ptr<PandasColumnBindData>> columnBindData;
+
+    PandasScanFunctionData(std::vector<std::unique_ptr<common::LogicalType>> columnTypes,
+        std::vector<std::string> columnNames, py::handle df, uint64_t numRows,
+        std::vector<std::unique_ptr<PandasColumnBindData>> columnBindData)
+        : TableFuncBindData{std::move(columnTypes), std::move(columnNames)}, df{df},
+          numRows{numRows}, columnBindData{std::move(columnBindData)} {}
+
+    ~PandasScanFunctionData() override {
+        py::gil_scoped_acquire acquire;
+        columnBindData.clear();
+    }
+
+    std::vector<std::unique_ptr<PandasColumnBindData>> copyColumnBindData();
+
+    std::unique_ptr<function::TableFuncBindData> copy() override {
+        return std::make_unique<PandasScanFunctionData>(
+            common::LogicalType::copy(columnTypes), columnNames, df, numRows, copyColumnBindData());
+    }
+};
+
+std::unique_ptr<common::Value> replacePD(common::Value* value);
+
+} // namespace kuzu
@@ -30,6 +30,8 @@ class PyConnection {
         const std::string& srcTableName, const std::string& relName,
         const std::string& dstTableName, size_t queryBatchSize);
 
+    static bool isPandasDataframe(const py::object& object);
+
 private:
     std::unordered_map<std::string, std::shared_ptr<kuzu::common::Value>> transformPythonParameters(
         py::dict params);
 
@@ -0,0 +1,124 @@
+#include "numpy/numpy_scan.h"
+
+#include "common/types/timestamp_t.h"
+#include "pandas/pandas_bind.h"
+
+namespace kuzu {
+
+using namespace kuzu::common;
+
+template<class T>
+void ScanNumpyColumn(
+    py::array& npArray, uint64_t offset, ValueVector* outputVector, uint64_t count) {
+    auto srcData = (T*)npArray.data();
+    memcpy(outputVector->getData(), srcData + offset, count * sizeof(T));
+}
+
+template<class T>
+void scanNumpyMasked(
+    PandasColumnBindData* bindData, uint64_t count, uint64_t offset, ValueVector* outputVector) {
+    KU_ASSERT(bindData->pandasCol->getBackEnd() == PandasColumnBackend::NUMPY);
+    auto& npColumn = reinterpret_cast<PandasNumpyColumn&>(*bindData->pandasCol);
+    ScanNumpyColumn<T>(npColumn.array, offset, outputVector, count);
+    if (bindData->mask != nullptr) {
+        KU_UNREACHABLE;
+    }
+}
+
+template<typename T>
+void setNullIfNan(T value, uint64_t pos, ValueVector* outputVector) {
+    if (std::isnan(value)) {
+        outputVector->setNull(pos, true /* isNull */);
+    }
+}
+
+template<class T>
+void ScanNumpyFpColumn(
+    const T* srcData, uint64_t count, uint64_t offset, ValueVector* outputVector) {
+    memcpy(outputVector->getData(), srcData + offset, count * sizeof(T));
+    for (auto i = 0u; i < count; i++) {
+        setNullIfNan(outputVector->getValue<T>(i), i, outputVector);
+    }
+}
+
+void NumpyScan::scan(PandasColumnBindData* bindData, uint64_t count, uint64_t offset,
+    common::ValueVector* outputVector) {
+    KU_ASSERT(bindData->pandasCol->getBackEnd() == PandasColumnBackend::NUMPY);
+    auto& npCol = reinterpret_cast<PandasNumpyColumn&>(*bindData->pandasCol);
+    auto& array = npCol.array;
+
+    switch (bindData->npType.type) {
+    case NumpyNullableType::BOOL:
+        scanNumpyMasked<bool>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::UINT_8:
+        scanNumpyMasked<uint8_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::UINT_16:
+        scanNumpyMasked<uint16_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::UINT_32:
+        scanNumpyMasked<uint32_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::UINT_64:
+        scanNumpyMasked<uint64_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::INT_8:
+        scanNumpyMasked<int8_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::INT_16:
+        scanNumpyMasked<int16_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::INT_32:
+        scanNumpyMasked<int32_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::INT_64:
+        scanNumpyMasked<int64_t>(bindData, count, offset, outputVector);
+        break;
+    case NumpyNullableType::FLOAT_32:
+        ScanNumpyFpColumn<float>(
+            reinterpret_cast<const float*>(array.data()), count, offset, outputVector);
+        break;
+    case NumpyNullableType::FLOAT_64:
+        ScanNumpyFpColumn<double>(
+            reinterpret_cast<const double*>(array.data()), count, offset, outputVector);
+        break;
+    case NumpyNullableType::DATETIME_NS:
+    case NumpyNullableType::DATETIME_US: {
+        auto sourceData = reinterpret_cast<const int64_t*>(array.data());
+        auto dstData = reinterpret_cast<timestamp_t*>(outputVector->getData());
+        auto timestampCastFunc = bindData->npType.type == NumpyNullableType::DATETIME_NS ?
+                                     Timestamp::fromEpochNanoSeconds :
+                                     Timestamp::fromEpochMicroSeconds;
+        for (auto i = 0u; i < count; i++) {
+            auto pos = offset + i;
+            dstData[i] = timestampCastFunc(sourceData[pos]);
+            outputVector->setNull(i, false /* isNull */);
+        }
+        break;
+    }
+    case NumpyNullableType::TIMEDELTA: {
+        auto sourceData = reinterpret_cast<const int64_t*>(array.data());
+        auto dstData = reinterpret_cast<interval_t*>(outputVector->getData());
+        for (auto i = 0u; i < count; i++) {
+            auto pos = offset + i;
+            auto micro = sourceData[pos] / 1000;
+            auto days = micro / Interval::MICROS_PER_DAY;
+            micro = micro % Interval::MICROS_PER_DAY;
+            auto months = days / Interval::DAYS_PER_MONTH;
+            days = days % Interval::DAYS_PER_MONTH;
+            interval_t interval;
+            interval.months = months;
+            interval.days = days;
+            interval.micros = micro;
+            dstData[i] = interval;
+            outputVector->setNull(i, false /* isNull */);
+        }
+        break;
+    }
+    default:
+        KU_UNREACHABLE;
+    }
+}
+
+} // namespace kuzu