※ 引述《intangible (~*)》之銘言:
: 各位好
: 想請教一正規表式問題
: 有一個字串他長
: 質詢(Vt) 進入(Vt) 第二(DET) 天(M) ,(COMMACATEGORY) 民進黨(N) 議員(N)
: 就(ADV)
: 我想擷取出裡面所有(N)前面的詞
: 我是使用PHP
: 我寫
: preg_match_all("/(.*)\(N/",$ckvalue,$outputN);
: $numN = count($outputN[0]);
: for($valueN=0;$valueN<$numN;$valueN++) {
: echo $outputN[1][$valueN]."\n";
: }
: 他會變成輸出
: 前面的字都有到議員兩個字停止
: 只過濾掉最後一個(N)
: 請問我的正規表式應該如何修改才能過濾出所有的(N)前的詞呢?
: 感謝你們
假設你的資料用 BIG5 編碼:
((?:[\xA1-\xF9][\x40-\xF0])+)\(N\)
不過現在 BIG5 已經式微,我猜你的資料應該是用 UNICODE
([\x{4e00}-\x{9fff}]+)\(N\)