dataframe

Я использую spark-csv для загрузки данных в фрейм данных. Я хочу сделать простой запрос и отобразить содержание: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() ...

у меня есть некоторые проблемы, чтобы преобразовать мои data.frame от широкого стола к длинному столу. На данный момент это выглядит так: Code Country 1950 1951 1952 1953 1954 AFG Afghanistan 20,249 21,352 22,532 23,557 24,555 ALB Albania 8,097 8,986 10,058 11,123 12,...

работа с фреймом данных, подобным этому: set.seed(100) df <- data.frame(cat = c(rep("aaa", 5), rep("bbb", 5), rep("ccc", 5)), val = runif(15)) df <- df[order(df$cat, df$val), ] df cat val 1 aaa 0.05638315 2 aaa 0.25767250 3 aaa 0.30776611 4 aaa 0.46854928 5 ...

df <- data.frame(var1=c('a', 'b', 'c'), var2=c('d', 'e', 'f'), freq=1:3) каков самый простой способ развернуть первые два столбца данных.рамка выше, так что каждая строка отображается количество раз, указанное в столбце 'freq'? другими словами, перейти от этого: df var1 var2 freq 1 a d 1 2 ...

Я пытаюсь выделить именно то, что изменилось между двумя таблиц данных. Предположим, у меня есть два фрейма данных Python Pandas: "StudentRoster Jan-1": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick ...

я хочу заказать фрейм данных, основанный на разных столбцах, один за другим. У меня есть вектор символов с соответствующими именами столбцов, на которых order должно быть основано: parameter <- c("market_value_LOCAL", "ep", "book_price", "sales_price", "dividend_yield", "beta", "TOTAL_RATIN...

Я хочу знать, как опустить NA значений во фрейме данных, но только в некоторых столбцах, которые меня интересуют. например, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) но я только хочу опустить данные, где y и NA, поэтому результат должен быть x y z 1 1 0 NA 2 2 10 33 na...

у меня есть фрейм данных, и я хотел бы подсчитать количество строк в каждой группе. Я регулярно использую aggregate функция для суммирования данных следующим образом: df2 <- aggregate(x ~ Year + Month, data = df1, sum) теперь я хотел бы подсчитать наблюдения, но не могу найти правильный аргумент для FUN...

Я хочу создать вектор из строки фрейма данных. Но я не хочу иметь имена строк и столбцов. Я попробовал несколько вещей... но не повезло. Это мой фрейм данных: > df <- data.frame(a=c(1,2,4,2),b=c(2,6,2,1),c=c(2.6,8.2,7.5,3)) > df a b c 1 1 2 2.6 2 2 6 8.2 3 4 2 7.5 4 2 1 3.0 пробовал: > ne...