pandas
можно ли добавить некоторую метаинформацию / метаданные в фрейм данных pandas? например, название инструмента, используемого для измерения данных приборов несет ответственность и т. д. одним из обходных путей было бы создать столбец с этой информацией, но кажется расточительным хранить одну часть информации...
Я хотел бы фильтровать строки по функции каждой строки, например def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] или для другого более сложного, надуманного примера, def g(row): if row['col1'].method1() == 1: va...
У меня есть следующие вопросы о производительности HDF5 и параллелизме: поддерживает ли HDF5 параллельный доступ на запись? соображения параллелизма в сторону, как производительность HDF5 с точки зрения производительность ввода/вывода (не степень сжатия влияет на производительность)? поскольку я использую ...
у меня есть фрейм данных pandas и я хотел бы построить значения из одного столбца по сравнению со значениями из другого столбца. К счастью, есть plot метод, связанный с фреймами данных, которые, кажется, делают то, что мне нужно: df.plot(x='col_name_1', y='col_name_2') к сожалению, это выглядит как среди с...
у меня проблема с созданием гистограмм из объектов серии pandas, и я не могу понять, почему это не работает. Код работал нормально раньше, но теперь это не так. вот немного моего кода (в частности, объект серии pandas, который я пытаюсь сделать гистограммой): type(dfj2_MARKET1['VSPD2_perc']) который вывод...
у меня есть две панды dataframes: from pandas import DataFrame df1 = DataFrame({'col1':[1,2],'col2':[3,4]}) df2 = DataFrame({'col3':[5,6]}) какова лучшая практика, чтобы получить их декартово произведение (конечно, не записывая его явно, как я)? #df1, df2 cartesian product df_cartesian = DataFrame({'...
я загружаю txt-файл, содержащий смесь данных float и string. Я хочу хранить их в массиве, где я могу получить доступ к каждому элементу. Теперь я просто делаю import pandas as pd data = pd.read_csv('output_list.txt', header = None) print data Это структура входного файла: 1 0 2000.0 70.2836942112 1347.28...
учитывая фрейм данных pandas, содержащий (возможно) значения NaN, разбросанные здесь и там: вопрос: как определить, какие столбцы содержат значения NaN? В частности, могу ли я получить список имен столбцов, содержащих NaNs? спасибо...
у меня есть список панд dataframes, которые я хотел бы объединить в один панд dataframe. Я использую Python 2.7.10 и панды 0.16.2 Я создал список фреймов данных из: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(...
у меня есть большой (около 12 м строк) dataframe df С сказать: df.columns = ['word','documents','frequency'] так что следующие побежали своевременно: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.column...