Фильтрация выбросов в панды фрейма данных с подвижного медиана
Я пытаюсь отфильтровать некоторые выбросы из точечной диаграммы смещений высот GPS с датами
Я пытаюсь использовать df.Роллинг, чтобы вычислить медиану и стандартное отклонение для каждого окна, а затем удалить точку, если она больше 3 стандартных отклонений.
Однако, я не могу найти способ сделать петлю через столбец и сравнить вычисленное значение медианы.
Вот код, который у меня есть до сих пор
import pandas as pd
import numpy as np
def median_filter(df, window):
cnt = 0
median = df['b'].rolling(window).median()
std = df['b'].rolling(window).std()
for row in df.b:
#compare each value to its median
df = pd.DataFrame(np.random.randint(0,100,size=(100,2)), columns = ['a', 'b'])
median_filter(df, 10)
Как я могу пройти через цикл и сравнить каждую точку и удалить ее?
2 ответа:
Просто отфильтруйте фрейм данных
df['median']= df['b'].rolling(window).median() df['std'] = df['b'].rolling(window).std() #filter setup df = df[(df.b <= df['median']+3*df['std']) & (df.b >= df['median']-3*df['std'])]
Вполне может быть более пандастический способ сделать это - это немного Хак, полагаясь на своего рода ручной способ отображения исходного индекса df к каждому скользящему окну. (Я выбрал размер 6). Записи до и до строки 6 связаны с первым окном ; строка 7 является вторым окном и т. д.
n = 100 df = pd.DataFrame(np.random.randint(0,n,size=(n,2)), columns = ['a','b']) ## set window size window=6 std = 1 # I set it at just 1; with real data and larger windows, can be larger ## create df with rolling stats, upper and lower bounds bounds = pd.DataFrame({'median':df['b'].rolling(window).median(), 'std':df['b'].rolling(window).std()}) bounds['upper']=bounds['median']+bounds['std']*std bounds['lower']=bounds['median']-bounds['std']*std ## here, we set an identifier for each window which maps to the original df ## the first six rows are the first window; then each additional row is a new window bounds['window_id']=np.append(np.zeros(window),np.arange(1,n-window+1)) ## then we can assign the original 'b' value back to the bounds df bounds['b']=df['b'] ## and finally, keep only rows where b falls within the desired bounds bounds.loc[bounds.eval("lower<b<upper")]