Связи c видом на массив NumPy, используя API-интерфейс c
В модуле расширения Python, написанном на языке C++, я использую следующий фрагмент кода для преобразования массива NumPy в массивArmadillo для использования в части кода на языке C++:
static arma::mat convertPyArrayToArma(PyArrayObject* pyarr, int nrows, int ncols)
{
// Check if the dimensions are what I expect.
if (!checkPyArrayDimensions(pyarr, nrows, ncols)) throw WrongDimensions();
const std::vector<int> dims = getPyArrayDimensions(pyarr); // Gets the dimensions using the API
PyArray_Descr* reqDescr = PyArray_DescrFromType(NPY_DOUBLE);
if (reqDescr == NULL) throw std::bad_alloc();
// Convert the array to Fortran-ordering as required by Armadillo
PyArrayObject* cleanArr = (PyArrayObject*)PyArray_FromArray(pyarr, reqDescr,
NPY_ARRAY_FARRAY);
if (cleanArr == NULL) throw std::bad_alloc();
reqDescr = NULL; // The new reference from DescrFromType was stolen by FromArray
double* dataPtr = static_cast<double*>(PyArray_DATA(cleanArr));
arma::mat result (dataPtr, dims[0], dims[1], true); // this copies the data from cleanArr
Py_DECREF(cleanArr);
return result;
}
Проблема в том, что когда я передаю это представление массива NumPy (т. е. my_array[:, 3]
), он, кажется, не обрабатывает шаги базового массива C правильно. Исходя из выходных данных, кажется, что массив pyarr
, полученный функцией, на самом деле является полным базовым массивом, а не представление (или, по крайней мере, когда я обращаюсь к данным с помощью PyArray_DATA
, я, кажется, получаю указатель на полный базовый массив). Если я вместо этого передам этой функции копию представления (т. е. my_array[:, 3].copy()
), она будет работать так, как ожидалось, но я не хочу, чтобы мне приходилось помнить об этом каждый раз.
PyArray_FromArray
копировать только тот срез матрицы, который я хочу? Я попытался использовать флаг NPY_ARRAY_ENSURECOPY
, но это не помогло.
Edit 1
Как было предложено в комментариях, вот полная рабочая пример:
В файле example.cpp
:
#define NPY_NO_DEPRECATED_API NPY_1_9_API_VERSION
extern "C" {
#include <Python.h>
#include <numpy/arrayobject.h>
}
#include <exception>
#include <cassert>
#include <string>
#include <type_traits>
#include <map>
#include <vector>
#include <armadillo>
class WrongDimensions : public std::exception
{
public:
WrongDimensions() {}
const char* what() const noexcept { return msg.c_str(); }
private:
std::string msg = "The dimensions were incorrect";
};
class NotImplemented : public std::exception
{
public:
NotImplemented() {}
const char* what() const noexcept { return msg.c_str(); }
private:
std::string msg = "Not implemented";
};
class BadArrayLayout : public std::exception
{
public:
BadArrayLayout() {}
const char* what() const noexcept { return msg.c_str(); }
private:
std::string msg = "The matrix was not contiguous";
};
static const std::vector<npy_intp> getPyArrayDimensions(PyArrayObject* pyarr)
{
npy_intp ndims = PyArray_NDIM(pyarr);
npy_intp* dims = PyArray_SHAPE(pyarr);
std::vector<npy_intp> result;
for (int i = 0; i < ndims; i++) {
result.push_back(dims[i]);
}
return result;
}
/* Checks the dimensions of the given array. Pass -1 for either dimension to say you don't
* care what the size is in that dimension. Pass dimensions (X, 1) for a vector.
*/
static bool checkPyArrayDimensions(PyArrayObject* pyarr, const npy_intp dim0, const npy_intp dim1)
{
const auto dims = getPyArrayDimensions(pyarr);
assert(dims.size() <= 2 && dims.size() > 0);
if (dims.size() == 1) {
return (dims[0] == dim0 || dim0 == -1) && (dim1 == 1 || dim1 == -1);
}
else {
return (dims[0] == dim0 || dim0 == -1) && (dims[1] == dim1 || dim1 == -1);
}
}
template<typename outT>
static arma::Mat<outT> convertPyArrayToArma(PyArrayObject* pyarr, int nrows, int ncols)
{
if (!checkPyArrayDimensions(pyarr, nrows, ncols)) throw WrongDimensions();
int arrTypeCode;
if (std::is_same<outT, uint16_t>::value) {
arrTypeCode = NPY_UINT16;
}
else if (std::is_same<outT, double>::value) {
arrTypeCode = NPY_DOUBLE;
}
else {
throw NotImplemented();
}
const auto dims = getPyArrayDimensions(pyarr);
if (dims.size() == 1) {
outT* dataPtr = static_cast<outT*>(PyArray_DATA(pyarr));
return arma::Col<outT>(dataPtr, dims[0], true);
}
else {
PyArray_Descr* reqDescr = PyArray_DescrFromType(arrTypeCode);
if (reqDescr == NULL) throw std::bad_alloc();
PyArrayObject* cleanArr = (PyArrayObject*)PyArray_FromArray(pyarr, reqDescr, NPY_ARRAY_FARRAY);
if (cleanArr == NULL) throw std::bad_alloc();
reqDescr = NULL; // The new reference from DescrFromType was stolen by FromArray
outT* dataPtr = static_cast<outT*>(PyArray_DATA(cleanArr));
arma::Mat<outT> result (dataPtr, dims[0], dims[1], true); // this copies the data from cleanArr
Py_DECREF(cleanArr);
return result;
}
}
static PyObject* convertArmaToPyArray(const arma::mat& matrix)
{
npy_intp ndim = matrix.is_colvec() ? 1 : 2;
npy_intp nRows = static_cast<npy_intp>(matrix.n_rows); // NOTE: This narrows the integer
npy_intp nCols = static_cast<npy_intp>(matrix.n_cols);
npy_intp dims[2] = {nRows, nCols};
PyObject* result = PyArray_SimpleNew(ndim, dims, NPY_DOUBLE);
if (result == NULL) throw std::bad_alloc();
double* resultDataPtr = static_cast<double*>(PyArray_DATA((PyArrayObject*)result));
for (int i = 0; i < nRows; i++) {
for (int j = 0; j < nCols; j++) {
resultDataPtr[i * nCols + j] = matrix(i, j);
}
}
return result;
}
extern "C" {
// An example function that takes a NumPy array and converts it to
// an arma::mat and back. This should return the array unchanged.
static PyObject* example_testFunction(PyObject* self, PyObject* args)
{
PyArrayObject* myArray = NULL;
if (!PyArg_ParseTuple(args, "O!", &PyArray_Type, &myArray)) {
return NULL;
}
PyObject* output = NULL;
try {
arma::mat myMat = convertPyArrayToArma<double>(myArray, -1, -1);
output = convertArmaToPyArray(myMat);
}
catch (const std::bad_alloc&) {
PyErr_NoMemory();
Py_XDECREF(output);
return NULL;
}
catch (const std::exception& err) {
PyErr_SetString(PyExc_RuntimeError, err.what());
Py_XDECREF(output);
return NULL;
}
return output;
}
static PyMethodDef example_methods[] =
{
{"test_function", example_testFunction, METH_VARARGS, "A test function"},
{NULL, NULL, 0, NULL}
};
static struct PyModuleDef example_module = {
PyModuleDef_HEAD_INIT,
"example", /* name of module */
NULL, /* module documentation, may be NULL */
-1, /* size of per-interpreter state of the module,
or -1 if the module keeps state in global variables. */
example_methods
};
PyMODINIT_FUNC
PyInit_example(void)
{
import_array();
PyObject* m = PyModule_Create(&example_module);
if (m == NULL) return NULL;
return m;
}
}
И setup.py
для компиляции:
from setuptools import setup, Extension
import numpy as np
example_module = Extension(
'example',
include_dirs=[np.get_include(), '/usr/local/include'],
libraries=['armadillo'],
library_dirs=['/usr/local/lib'],
sources=['example.cpp'],
language='c++',
extra_compile_args=['-std=c++11', '-mmacosx-version-min=10.10'],
)
setup(name='example',
ext_modules=[example_module],
)
Теперь предположим, что у нас есть пример массива
a = np.array([[ 1, 2, 3, 4, 5, 6],
[ 7, 8, 9,10,11,12],
[13,14,15,16,17,18]], dtype='float64')
Функция, кажется, отлично работает для многомерных срезов, таких как a[:, :3]
, и она возвращает матрицу неизмененной, как я и ожидал. Но если я дам ему одномерный срез, я получу неправильные компоненты, если не сделаю копию:
>>> example.test_function(a[:, 3])
array([ 4., 5., 6.])
>>> example.test_function(a[:, 3].copy())
array([ 4., 10., 16.])
1 ответ:
Представление массива - это просто еще одна информационная оболочка для того же массива данных.
Numpy
не копирует здесь никаких данных. Корректируется только информация для интерпретации данных, и указатель на данные перемещается, если это полезно.В своем коде вы предполагаете, что данные вектора
a[:, 3]
представлены в виде вектора в памяти, который не будет отличаться дляNPY_ARRAY_CARRAY
иNPY_ARRAY_FARRAY
. Но это представление вы получите только после создания (fortran ordered) копии массива сам.Чтобы заставить его работать, я немного изменил вашу функцию
convertPyArrayToArma()
, чтобы создать копию, даже если это вектор:template<typename outT> static arma::Mat<outT> convertPyArrayToArma(PyArrayObject* pyarr, int nrows, int ncols) { if (!checkPyArrayDimensions(pyarr, nrows, ncols)) throw WrongDimensions(); int arrTypeCode; if (std::is_same<outT, uint16_t>::value) { arrTypeCode = NPY_UINT16; } else if (std::is_same<outT, double>::value) { arrTypeCode = NPY_DOUBLE; } else { throw NotImplemented(); } PyArray_Descr* reqDescr = PyArray_DescrFromType(arrTypeCode); if (reqDescr == NULL) throw std::bad_alloc(); PyArrayObject* cleanArr = (PyArrayObject*)PyArray_FromArray(pyarr, reqDescr, NPY_ARRAY_FARRAY); if (cleanArr == NULL) throw std::bad_alloc(); reqDescr = NULL; // The new reference from DescrFromType was stolen by FromArray const auto dims = getPyArrayDimensions(pyarr); outT* dataPtr = static_cast<outT*>(PyArray_DATA(cleanArr)); // this copies the data from cleanArr arma::Mat<outT> result; if (dims.size() == 1) { result = arma::Col<outT>(dataPtr, dims[0], true); } else { result = arma::Mat<outT>(dataPtr, dims[0], dims[1], true); } Py_DECREF(cleanArr); return result; }