FTP GenBank and Daily Updates:
1. GenBank普通文件格式 — 參見GenBank記錄樣本和在GenBank公布通知中的詳細描述,下載大多數最近的完全公告和日常積累或非積累更新數據。
2. ASN.1格式 — 摘要句法記號1,國際標準組織(ISO)數據表示格式,下載大多數最近的完全公告和日常積累或非積累更新數據。
3.
FASTA格式 —
定義行號后只跟隨序列數據(示例),參見描述數據庫的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸數據庫,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST,
STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白質),est.Z, gss.Z, htg.Z,
sts.Z,和其它文件。
分子數據庫:
1. 核酸序列
1、 Entrez核酸: 用accession
number,作者姓名,物種,基因/蛋白名字,以及很多其它的文本術語來搜索核酸序列記錄(在GenBank +
PDB中)。更多的關于Entrez的信息見下。如果要檢索大量數據,也可使用Batch Entrez(批量Entrez)。
2、
RefSeq : NCBI數據庫的參考序列。校正的,非冗余集合,包括基因組DNA
contigs,已知基因的mRNAs和蛋白,在將來,整個的染色體。Accession numbers用NT_xxxxxx, NM_xxxxxx,
NP_xxxxxx, 和NC_xxxxxx的形式來表示。
3、 dbEST :表達序列標簽數據庫,短的、單次(測序)閱讀的cDNA序列。也包括來自于差異顯示和RACE實驗的cDNA序列。
4、 dbGSS :基因組調查序列的數據庫,短的、單次(測序)閱讀的cDNA序列,exon trap獲得的序列,cosmid/BAC/YAC末端,及其他。
5、 dbSTS :序列標簽位點的數據庫,短的在基因組上可以被唯一操作的序列,用于產生作圖位點。
6、 dbSNP :單核苷酸多態性數據庫,包括SNPs,小范圍的插入/缺失,多態重復單元,和微衛星變異。
2. 完整的基因組 :
1、 參見下面Genome和Maps部分,包括各種物種資源,人,小鼠,大鼠,酵母,線蟲,瘧原蟲,細菌,病毒,viroids,質粒。
2、
發UniGene :
被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的人類基因,有定位圖和表達信息以及同其它資源的交叉參考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載。
1) 人類:UniGene
2) 小鼠:UniGene
3) 大鼠:UniGene
4) 斑馬魚:UniGene
3、 BLAST :將你的序列同核酸庫中的的序列比較,檢索相似的序列。(更詳細的信息見下面Tools/Sequence相似搜索部分)
蛋白序列 :
1、
Entrez蛋白 :用accession
number,作者姓名,物種,基因/蛋白名字,以及很多其它的文本術語來搜索蛋白序列記錄(在GenPept + Swiss-Prot + PIR +
RPF + PDB中)。更多的關于Entrez的信息見下。如果要檢索大量數據,也可使用Batch Entrez(批量Entrez)。
RefSeq — NCBI數據庫的參考序列。Curated, 非冗余集合包括基因組DNA
contigs,已知基因的mRNAs和蛋白,在將來,整個的染色體。Accession numbers用NT_xxxxxx, NM_xxxxxx,
NP_xxxxxx, 和NC_xxxxxx的形式來表示。 FTPGenPept —
下載“genpept.fsa.Z”文件,這個文件包含了從GenBank/EMBL/DDBJ記錄中翻譯過來的FASTA格式的氨基酸序列,這些記錄都有一到兩個CDS特性的描述。
2、 完整基因組 :參見下面Genome和Maps部分,包括各種物種資源,人,小鼠,大鼠,酵母,線蟲,瘧原蟲,細菌,病毒,viroids,質粒。
1)
Entrez基因組
:提供了一個編碼區的概要和各種物種的分類表(TaxTable)。編碼區概要列出了在基因組中所有的的蛋白,并提供鏈接到FASTA文件和BLAST。分類表總結了蛋白BLAST分析的結果,建議他們的可能功能,并用顏色編碼的圖來顯示物種同其它物種之間的關系(參見下面''''Genomes和Maps,''''部分Entrez基因組的一般描述)
2) FTP基因組蛋白 :從ftp站點的genbank/genomes目錄下下載各種物種的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。參見readme文件。蛋白表也可以在Entrez基因組中看到。
3、 PROW : Web上的蛋白資源,關于大約200種人類的CD細胞表面分子的簡短官方向導。互相檢索,為每個CD抗原提供大約20中標準信息的分類(生化功能,配體,等等)
4、 BLAST : 將你的序列同蛋白庫中的的序列比較,檢索相似的序列。(更詳細的信息見下面Tools/Sequence相似搜索部分)