Python-размерность фрейма данных


новый для Python.

в R, вы можете получить размерность матрицы с помощью dim(...). Какова соответствующая функция в Python Pandas для их фрейма данных?

3 58

3 ответа:

df.shape, где df Это ваш фрейм данных.

сводка всех способов получения информации о размерах фрейма данных или серии

существует несколько способов получения информации об атрибутах вашего фрейма данных или серии.

создать образец фрейма данных и серии

df = pd.DataFrame({'a':[5, 2, np.nan], 'b':[ 9, 2, 4]})
df

     a  b
0  5.0  9
1  2.0  2
2  NaN  4

s = df['a']
s

0    5.0
1    2.0
2    NaN
Name: a, dtype: float64

shape атрибут

The shape атрибут возвращает двухэлементный кортеж из числа строк и числа столбцов в фрейме данных. Для серии он возвращает один элемент кортеж.

df.shape
(3, 2)

s.shape
(3,)

len функции

чтобы получить количество строк фрейма данных или получить длину ряда, используйте . Для фреймов данных это произведение числа строк и числа столбцов. Для серии это будет эквивалентно len функция:

df.size
6

s.size
3

ndim атрибут

The ndim атрибут возвращает количество измерений вашего фрейма данных или ряда. Это всегда будет 2 для фреймов данных и 1 для серии:

df.ndim
2

s.ndim
1

хитрый count метод

The count метод может быть использован для возврата количества не пропущенных значений для каждого столбца / строки фрейма данных. Это может быть очень запутанным, потому что большинство люди обычно думают о подсчете как о длине каждой строки, а это не так. При вызове фрейма данных возвращается ряд с именами столбцов в индексе и количеством не пропущенных значений в качестве значений.

df.count() # by default, get the count of each column

a    2
b    3
dtype: int64


df.count(axis='columns') # change direction to get count of each row

0    2
1    2
2    1
dtype: int64

для ряда существует только одна ось для вычисления, и поэтому она просто возвращает скаляр:

s.count()
2

использовать info метод получения метаданных

The info метод возвращает количество не хватает значения и типы данных каждого столбца

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
a    2 non-null float64
b    3 non-null int64
dtypes: float64(1), int64(1)
memory usage: 128.0 bytes

форма фрейма данных находится в виде строк * столбцов, поэтому функция поиска формы

dataframe_name.shape()