Укажите пользовательский формат даты для аргумента colClasses в read.таблица / читать.csv
вопрос:
есть ли способ указать формат даты при использовании аргумента colClasses в read.таблица / читать.csv?
(Я понимаю, что я могу обменять после импорта, но со многими столбцами дат, как это было бы проще сделать это на этапе импорта)
пример:
у меня есть .csv со столбцами дат в формате %d/%m/%Y
.
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
это приводит к неправильному преобразованию. Например, 15/07/2008
становится 0015-07-20
.
воспроизводимый код:
data <-
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L,
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007",
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L,
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02",
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L,
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008",
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008",
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type",
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")
write.csv(data,"data.csv", row.names = F)
dataImport <- read.csv("data.csv")
str(dataImport)
dataImport
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport
и вот как выглядит вывод:
3 ответа:
вы можете написать свою собственную функцию, которая принимает строку и преобразует ее в дату, используя нужный формат, а затем использовать
setAs
установить какas
метод. Затем вы можете использовать свою функцию как часть colClasses.попробуй:
setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") ) tmp <- c("1, 15/08/2008", "2, 23/05/2010") con <- textConnection(tmp) tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE) str(tmp2)
затем измените, если это необходимо для работы с вашими данными.
правка ---
вы, возможно, захотите, чтобы запустить
setClass('myDate')
во-первых, чтобы избежать предупреждения (вы можете игнорировать предупреждение, но это может раздражать, если вы это сделаете много и это простой вызов, который избавляется от него).
Если есть только 1 формат даты, который вы хотите изменить, вы могли бы использовать
Defaults
пакет для изменения формата по умолчанию вas.Date.character
library(Defaults) setDefaults('as.Date.character', format = '%d/%M/%Y') dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date")) str(dataImport) ## 'data.frame': 10 obs. of 3 variables: ## $ func_loc : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5 ## $ order_type : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1 ## $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...
Я думаю, что ответ @Greg Snow намного лучше, так как он не изменяет поведение по умолчанию часто используемой функции.
в случае, если вам нужно время, также:
setClass('yyyymmdd-hhmmss') setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S")) d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153") str(d) ## 'data.frame': 1 obs. of 1 variable: ## $ V1: POSIXct, format: "2015-07-11 13:01:53"