5:表達序列標簽(expressed sequence tag ,EST) 是Venter.J.Cadams及Adams等于1991年提出。EST是從cDNA文庫中隨機挑取的cDNA克隆的外源插入片段的一端或兩端進行一次性測序(Single-runsequencing)產生的DNA序列。每一個EST代表一個表達基因的部分轉錄片段,能說明該組織中各基因的表達水平。EST在數據庫中其長度一般從20到7000bp不等,平均長度為60±120bp。EST的總體步驟為總mRNA提取,cDNA文庫構建,隨機挑取cDNA克隆,測序,數據庫比對,電子雜交和電子延伸。EST目前主要用于構建基因圖譜、充當探針、進行定位克隆并尋找新的基因、作為一種新的分子標記或新的SSR標記來源、用于研究生物群體多態性、進行功能基因的研究、進行基因表達信息及表達差異分析。
EST研究中所需的數據庫主要為 National Center of Biotechnology Information,NCBI GenBank (http://www.nchi.nlm.nih.gov/web/GenBank/imdex. Html); European Molecular Biology Laboratory European Bioinformatics Institute,EMBL-EBI (http://www.ebi.ac.uk/databases/index.html);DNA Data Bank of Japan,DDBJ (http://www.ddbj.nig.ac.jp/)我國生物信息中心CBI(http://www.chi.pku.edu.cn);美國Brookhaven國家實驗室蛋白質結構數據庫(PDB);適于核酸序列查詢的BLASTN、BLASTX、TBLASTX(主要用于EST分析)和適于蛋白質序列查詢的BLASTN、BLASTP數據庫;及DBEST(DatabaseEST,集成了Genbank、EMBL-EBI、DDBJ、PDB的非冗余的EST數據庫);Nr(集成瑞士蛋白質數據庫(SWISS-PROT)、蛋白質信息資源數據庫(PIR)、日本蛋白質研究基金會蛋白質數據庫(PRF)以及從Genbank序列編碼區中的蛋白質和PDB中擁有原子座標的蛋白質的非冗余蛋白質數據庫,
是一個非冗余DNA數據庫)。