[問題] 資料擷取

作者: aattsat (Tala)   2012-06-11 10:25:04
各位大大好
最近在撰寫一個程式
是在一筆資料中(為.dat檔)要擷取部分資料成為fasta檔
範例為其中一筆序列資料 如下
ID 104K_THEPA STANDARD; PRT; 924 AA.
AC P15711;
DT 01-APR-1990 (Rel. 14, Created)
DE 104 kDa microneme-rhoptry antigen.
OS Theileria parva.
OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;
OC Theileria.
OX NCBI_TaxID=5875;
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=Muguga;
RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;
RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,
RA Musoke A.J.;
RT "Characterisation of the gene encoding a 104-kilodalton microneme-
RT rhoptry protein of Theileria parva.";
RL Mol. Biochem. Parasitol. 39:47-60(1990).
CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.
CC
作者: iFEELing (ing)   2012-06-11 22:15:00
每行開頭兩個字是空白的?啊 沒看到底下還有
作者: OneGuilty (喵`)   2012-06-13 17:06:00
一般正規化做得到這麼複雜嗎@@?不考慮用split等之類的處理??
作者: piglon (TEST123)   2012-06-15 22:01:00
何不一行一行處理
作者: s4553711   2012-06-16 17:35:00
序列都在最後面,所以讀到SQ之後跳下一行,之後全讀,再把空白拿掉,應該就可以了吧
作者: windincloud (虹霓之戀)   2012-06-21 11:31:00
NCBI應該沒那摸麻煩吧~直接選fasta就可以下載seq不是?

Links booklink

Contact Us: admin [ a t ] ucptt.com