※ 引述《FoxTz (福斯梯Z)》之銘言:
: 個人沒有程式基礎,最近老闆建議我去碰碰ML/DL,
: (偏向生醫訊號,老闆可能想試試看公司是否發展得出軟體)
: 搜尋了一下~目前是用ANACONDA
: 想詢問 (才碰兩三天,不是當伸手牌,真的不懂才發問)
: 1. 我看了一堆網路資料,真的看不懂絕對/相對路徑
: 比如我去外國公開資料庫抓5000個正常/許多病理分類的心電圖,想讓程式跑跑,分類
: e.g 把資料放在 D:\ECG ,裡面都是CSV (panda好像可以呼叫叫CSV),
: 請問如何把全部資料叫出來跑?
: (程式抓不到資料,不論設定D:\ECG 、D:\\ECG、D:/ECG )
: 然後如何設定 A,B,C,D等等正常與病,給程式試試看正確率
: (資料庫抓的時候已分類好了)
不是很清楚你這個問題的核心是什麼,應該可以分成幾個部分來說:
## 絕對路徑與相對路徑
從根目錄開始表示路徑的稱為絕對路徑,除此之外可能還需要考慮
到文件系統與資料來源的部份,比如:
C:\data\my_dataset.csv
hdfs://myhub.com:8020/root/tmp/data/movies.txt
而相對路徑,則是根據當前位置去推算,在 Unix-like 作業系統
下可以使用 pwd 先查看當前路徑位置,透過 ../ 表示上一層目
錄,據此來推算相對路徑:
假設當前目錄是 /home/user/workspace
那麼 ../ 就是表示 /home/user
那麼 ../../ 就是表示 /home
## 不同作業系統下的路徑表示方式
在不同作業系統下的路徑表示方式不一樣,比如在 Windows 中採
用 '\' (backslash) 字元作為目錄的分隔符號,而在 Linux 下使
用 '/' (fowardslash) 字元作為目錄的分隔符號:
e.g.
- Microsoft Windows: .\data\file1.txt
- Unix/Linux: ./data/file1.txt
早期在 Python 裡面用 os.path.join() 方法來處理,在 Python
3.4 添加了官方函數庫 pathlib 來處理,不用寫死路徑也不用先判
斷作業系統,只需要這樣做:
```python
from pathlib import Path
file = Path(f'./data/file1.txt')
```
## 存取目錄下的檔案
通常在做分析的時候,多半會用 pandas 來將資料讀入 dataframe
再進行操作,但他本身上有一些限制,這個我建議你可以參考下面
這個網站中的內容。
https://pythonspeed.com/memory/
注意的是讀入一個大檔跟多個小檔分批處理會有不同的方式去做,
需要根據你自己的狀況去做調整,這個也跟設備的硬體規格有關。
: 2. 所謂測試training data,如何和really data (TEST DATA)比較??
: (Validation????)
: 然後如何比較呢? ROC CURVE嗎? 還是不同資料有不同比較法
: 或是有類似的書,會step by step,教讀者如何做上述動作,可給予建議,感謝
主要看你使用哪一種訓練方式,不過一般常見的話是拆成三種資料
集: training / testing / validation
- training 拿來訓練模型, 並使用 validation 進行預測並調整參數
- testing 用來比較不同 model 的能力
至於怎麼做比較,需要根據不同狀況選擇適合的評價指標,比如像
是 RMSE, MAE, MAPE 等,這些指標都有自己適合的場景和缺陷,
可以參考這篇:
https://medium.com/analytics-vidhya/forecast-kpi-rmse-mae-mape-bias-cdc5703d242d
: 3. 目前NB記憶體只有8G,請問加大記憶體是否會比較有效率
: (顯卡2G,I7 10代)
加大記憶體絕對有他的優勢在,至於能夠有多麼顯著的效率提升,
要看你對資料做什麼操作,還有你怎麼去寫程式,以及資料本身長
什麼樣……
: 感謝~~~完全不懂程式的人敬上