Re: [問題] readxl小問題

作者: Edster (Edster)   2016-06-23 18:06:31
我也來問問,
readxl::read_excel 讀入日期/時間的精準度的問題
偶而還是會遇到讀取Excel的情形
在Windows下,讀MS Excel創造出來的 YYYY-mm-dd HH:MM:SS 這種格式
例:讀取內容
2009-01-03 07:00:00
col_type
1. date: 2009-01-03 06:59:59
2. text: 39997.291666666664
3. numeric: 39997.29
用text屬性差距很少, 但也不是7點整, 因為7/24不能整除.
7/24 = 0.291666666667
(0.291666666664)*24 = 6.999999999936
不知是微軟的問題還是誰的問題.
(Excel好像存到小數點十位(且是用截斷的方式), 但用readxl讀進來卻是12位)
因為我處理的資料都是整點, 也就偷懶這樣處理了.
這支function還有別的用途, 才寫成這樣. 在這邊功能是一樣的就直接貼上來了.
TS是 POSIX 格式: redaxl::read_excel(file, col_type="date")
TS2Oclock <- function (TS) {
MM = as.numeric(format(TS, "%M"))/60; MM[MM>=0.5] <- 1; MM[MM<0.5] <- 0
HH = as.numeric(format(TS, "%H")) + MM
TS = as.POSIXct(paste(format(TS, "%Y-%m-%d")," ", HH, ":00",sep=""))
}
TS2Oclock(as.POSIXct(2009-01-03 06:59:59))
各位用哪支function去重新處理?
我知道用 csv 且用ISOdatetime格式儲存就沒有這種問題, 但總會遇到excel
※ 引述《clansoda (小笨)》之銘言:
: 各位好,我有個xls檔案,他是用general格式去儲存時間格式
: 所以外部顯示會長得像2016/06/21 11:39:25 AM 這樣
: 但其實裡面是用電腦化的紀錄時間會變成42535.49413
: 這個應該是以1990-01-01為止到現在的天數 所以是
: 42535.49413天從那天算起,我用readxl的read_excel讀入
: 但是他的function在讀入的時候只會讀入兩個小數點
: 因此會變成42535.49天,接著我用openxlsx的convertDateTime
: 將這個數字轉換成我們和R看得懂的格式,結果雖然前面都一樣
: 但是差三位小數導致真實的時間差了五分鐘,如果我想將這個數字導正
: 請問除了直接在excel加工之外還有其他的方法嗎,openxlsx的read.xlsx
: 我已經試過了,但是他一直顯示亂碼,我不確定是不是中文太多導致
: 他沒有可以encoding的選項,而xlsx的read.xlsx是太慢無法使用
: 如果要人工去調整excel會很辛苦,因為數量不小
: 不知道有沒有人知道如何解決這個問題呢?
作者: clansoda (小笨)   2016-06-23 19:22:00
所以是差一秒嗎? 我的也會 就是讀近來會差一秒
作者: Edster (Edster)   2016-06-23 19:36:00
差約5微秒. 資料先處理成 YYYY mm dd HH MM SS 六個欄位好像是Excel儲存時間最沒問題的方式.我自己平常是直接存成YYYYmmddHH 這樣存成一欄.讀進來後再自己切. 用 strptime
作者: clansoda (小笨)   2016-06-23 19:59:00
痾 看不太懂 我自己是只存一欄 他是以EXCEL 1990年為起點,再用openxlsx 為converttoDatetime 這個function我好像取到第六位會差一秒,明天可以試試取到第十位但是因為我這個資料對時間沒有敏感到秒這麼誇張,差一秒我可能就讓他去了吧
作者: Edster (Edster)   2016-06-23 20:04:00
因為我是用時間做ID把兩組資料拼在一起. 才會這麼在意如果你只有一個excel檔案的話, 存成 YYYYmmddHH 之類的中間沒有 / : 跟空格. 之類的東西, 就是一串10碼數字.

Links booklink

Contact Us: admin [ a t ] ucptt.com