高通量測序技術的原理及各平臺優勢和實踐應用的分析

發布時間：2020-08-18 10:39 原文鏈接：高通量測序技術的原理及各平臺優勢和實踐應用的分析

　　隨著人類基因組計劃（human genome project ）在2003年順利完成，基因組測序技術取得了長足的進步，這直接導致了每兆基因組成本的大幅下降以及檢測的基因組數量越來越多。人們對基因組的復雜性深感震驚，這也引導著測序技術的進一步發展。最近的一些突破性技術使得測序技術在更短的時間內可以獲得更多的數據量。與之對應的是，還有一些技術的進步使得單條序列的測序讀長變得更長——這對解析結構性的復合區段是極其必要的。這些進展給科研人員以及醫療診斷人員提供了一個絕佳的平臺使得人們對基因組變異導致的表型變化以及疾病發生有了進一步的了解。

　　近日，美國冷泉港實驗室聯合加州大學戴維斯分校的研究人員在國際著名評論型綜述雜志Nature Reviews Genetics（影響因子41）上發表了一篇評論型綜述。該綜述對高通量測序的技術原理以及各平臺的優勢比較和實踐應用進行了深入淺出的分析。

　　介紹

　　自從DNA的雙螺旋結構被人們解析開始1，人們在探究健康與疾病的基因組的復雜性與差異性上做出了巨大的努力。為了支持人類基因組計劃的順利進行2，人們在儀器和試劑上做出了巨大的改進。該計劃的完成使得人們強烈的意識到人們需要更多更好的技術與數據分析能力來回答隨之而來的一系列生物學問題。然而，通量的限制以及居高不下的測序成本成為了人們進一步了解基因組的一道坎。2000年之后推出的高通量測序平臺很好地解決了這個問題，人類基因組測序的成本直接因此下降50000倍，并且由此產生了一個新的名詞：下一代測序（next-generation sequencing，NGS）3。在過去的十年中，NGS技術不停的在進步——測序的數據量增加了100-1000倍4。這些技術上的進展使得人們甚至可以在一條read上讀出整條基因組序列。根據Veritas Genomics的數據5，人類基因組測序的成本也已經下降到1000美元/人。不僅如此，該技術已經廣泛在臨床診斷上得到應用3,6。

　　但是，盡管NGS技術非常重要，卻并非完美。與NGS技術一道出現的是該技術帶來的一系列問題。NGS可以提供海量的數據量，但是其質量卻有待提高（有報道，NGS在序列拼接過程中，錯誤率在0.1-15%范圍內），并且NGS的序列讀長普遍較低（每條read的長度在35-700bp之內7，這比普通的Sanger測序要短），這意味著需要更嚴格復雜的序列拼接。盡管長讀長測序可以克服NGS的這一大弱點，但相對而言，成本較高并且通量較低，這也限制了該技術的進一步應用。最后，NGS同時還和其他的技術之間存在著競爭的關系。

　　短讀長（read）的NGS測序

　　測序模版克隆法生成綜述

　　短讀長測序方法包含兩種：邊連接邊測序（sequencing by ligation, SBL）以及邊合成邊測序（sequencing by synthesis, SBS）。在SBL方法中，帶有熒光基團的探針與DNA片段雜交并且與臨近的寡核糖核酸連接從而得以成像。人們通過熒光基團的發射波長來判斷堿基或者其互補堿基的序列。SBS方法通常使用聚合酶，而且，諸如熒光基團在鏈的延伸過程中被插入其中。絕大多數的SBL和SBS方法，DNA都是在一個固體的表面上被克隆。一個特定區域內成千上萬個拷貝的DNA分子可以增加信號和背景信號的區分度。大量的平行同樣對上百萬的reads的讀取大有幫助，每個平行只有唯一的DNA模板。一個測序平臺可以同時從上百萬的類似反應中讀取數據，因此可以同時對上百萬的DNA分子進行測序。

　　產生模板的克隆有幾個方法：基于磁珠（bead-based），固相介質（solid-state）以及DNA微球技術（DNA nanoball）（圖1）。DNA模板產生的第一步就是樣本DNA的片段化，接著是連接到一個為了克隆和測序而設計的接頭上。在磁珠法的準備過程中，一個接頭和寡核糖核酸片段互補并且固定在珠子上（圖1a）。DNA模板通過使用油包水PCR（emulsion PCR，emPCR）8得以擴增。單個珠子上被克隆得到的DNA片段可以達到上百萬個9。這些珠子可以被分為glass surface10或者PicoTiterPlate（羅氏診斷）11。固相介質擴增12避免了油包水PCR，取而代之的是在固相介質上直接進行PCR13（圖1b,c）。該方法中，正向和反向引物結合在芯片的表面，這些引物給單鏈DNA（single-stranded DNA，ssDNA）提供了末端的互補序列供其結合。最近，幾個NGS的平臺都是用了模塊化的flow cells。

　　BGI使用的Complete Genomics technology測序技術是唯一一個在溶液中完成模板富集的技術。在這種情況下，DNA被多次連接，成環以及剪切從而為了產生一個包含4個不同接頭的環狀的模板。通過旋轉環狀擴增（rolling circle amplification，RCA），可以最多產生超過200億的DNA微球（圖1d）。微球混合物隨后被分配到芯片表面上，使得每個微球可以占據芯片的一個位點14。

　　圖1:模板擴增策略。

　　邊連接邊測序（SOLiD和Complete Genomics）

　　從根本上來說，SBL法包含了雜交和對標記的探針的連接15。探針包含了一到兩個特定堿基序列和一系列通用序列，這可以使得探針與模板之間進行互補配對。錨定的片段則包含一段已知的和接頭互補的序列用于提供連接位點。連接之后，模板被系統進行測序反應16。在錨和探針復合物或者熒光基團被完全移除之后，也或者連接位點重新生成之后，新的循環又重新開始了。

　　SOLiD平臺使用的是雙堿基編碼的探針，每個熒光基團信號代表了一個二核糖核酸17。因此，原始輸出的數據并非直接和已知的核糖核酸相連。因為有16種可能的二核糖核酸組合并不能單獨結合熒光基團。每四種組合使用一種熒光信號，共有四種熒光信號。所以，每種連接信號代表了幾種可能的二核糖核酸組合。SOLiD測序過程由一系列的探針-錨的結合，連接，圖像獲取以及切割的循環組成。

　　Complete Genomics使用探針-錨的連接方式（cPAL）或者探針-錨的合成方式（cPAS）來進行測序14。在cPAL中（圖2b），錨的序列（與四種接頭序列其中之一的互補）以及探針雜交到DNA微球的不同位置。每個循環中，雜交探針是一組特定位置已知堿基序列的探針的一員。每個探針包涵一段已知序列的堿基以及對應的熒光基團。獲取圖像之后，全部的探針-錨復合物被移除，新的探針-錨復合物被雜交。cPAS方法是cPAL的修改版，增加了read的長度；然而，目前來說，該方法還是有局限性的。

　　圖2: SBL測序原理。

　　邊合成邊測序（Sequencing-by-synthesis）

　　SBS的方法是指那些依賴于大量的DNA聚合酶來進行測序的方法。但是，SBS中依然包括了各種不同的測序原理。本文中，SBS方法被分為循環可逆終止（Cyclic reversible termination, CRT）以及單核糖核酸增加（single-nucleotide addition, SNA）18。

　　邊合成邊測序：CRT（Illumina，Qiagen）

　　CRT方法是根據類似于Sanger測序的終止反應來界定的，其3'-OH基團被屏蔽而被阻止繼續延伸19,20。在反應開始時，DNA模板被一段和探針序列互補的接頭結合，DNA聚合酶也是從這段序列開始結合。每個循環過程中，四種單獨標記的復合物和3'屏蔽的脫氧核糖核酸被添加進反應中。在延伸過程中每結合一個dNTP，其他沒有被結合的dNTPs被移除，并且獲取圖像來確定是那個堿基在某個簇中被結合。熒光基團以及屏蔽基團隨后被移除并且開始一輪新的反應。

　　Illumina的CRT和其他平臺相比，代表了最大的測序平臺市場。Illumina短讀長測序的設備可以從臺式的低通量單位到大型的超高通量，如應用于全基因組關聯分析（whole-genome sequencing，WGS）。dNTPs是通過兩個或者四個激光通道來對熒光進行分析的。在絕大多數Illumina平臺上，每種dNTP結合一種熒光基團，因此需要四種不同的激光通道。而NextSeq和Mini-Seq則使用的是雙熒光基團系統。

　　圖3: SBS測序原理。

　　2012年，Qiagen獲得了Intelligent BioSystems CRT平臺，并且在2015年將該平臺命名為GeneReader重新推出并且使之商業化22（圖3b）。與其他平臺不同的是，該平臺打算做一站式的NGS平臺，從樣本制備到數據分析，全部一站式解決。為此，GeneReader系統整合了QIAcube樣本制備系統和Qiagen Clinical Insight平臺用于不同的數據分析。GeneReader平臺的技術原理與Illumina平臺基本一致。然而，該平臺并非讓每個DNA模板都去結合帶有熒光基團的dNTPs23，而是只要足夠的dNTPs結合到模板上就可以完成鑒定。

　　邊合成邊測序：SNA（454，Ion Torrent）

　　與CRT不同的是，SNA方法依賴于單信號標記dNTP來對鏈進行延伸。四種核糖核酸都必須反復添加到測序反應過程中。不僅如此，SNA不需要將dNTP屏蔽，因為測序反應過程中下一個堿基的缺失會阻止鏈的延伸。堿基的寡聚體則是一個例外，在這種情況下，信號的強度會隨著dNTP數量的增加而成比例的增強。

　　第一個NGS儀器是454焦磷酸測序儀24。這種SNA系統將結合有模板的珠子以及酶混合物分配到PicoTiterPlate中。由于一個dNTP只能結合到一條鏈上，酶復合物會對其產生生物熒光。一個特定的珠子中的一個或多個dNTPs可以通過電荷共軛偶聯設備（charge-coupled device, CCD）檢測到的熒光來確認（圖4a）。

　　Ion Torrent是第一個沒有光學感應的NGS平臺25。與酶化學復合物產生的信號相比，Ion Torrent平臺檢測的是dNTP中釋放出來的H離子。pH值的改變通過（integrated complementary metal-oxide-semiconductor，CMOS）以及（ion-sensitive field-effect transistor，ISFET）來檢測（圖4b）。傳感器對pH的變化對于連續堿基的檢測還不夠完善，因此在測量同一堿基連續出現時的數量可能會有所誤差。

　　圖4: 邊合成邊測序：單核糖核酸添加法。

　　短讀長平臺的比較

　　每個平臺在通量，成本，錯誤率以及read結構上都大相徑庭（表一）。盡管有多家NGS技術供應商，NGS研究最常用的還是Illumina平臺21。盡管該平臺極為穩定，數據可靠，但是基于其使用的單一測序的方法26-28，既然具有系統偏好性的問題。因此，新技術的發展使得研究人員能夠有完整的測序方案來獲得完整的序列信息。

　　SOLiD與Complete Genomics系統使用的SBL技術準確率非常高（~99.999%）7,14,因為每個堿基都會被標記多次。雖然這些技術非常準確，但是在敏感性與特異性之間依然不能達到完美的平衡，當一些錯誤的堿基變化出現時，真實的堿基變化可能被忽略29-31。該類技術在應用上最大的限制可能就是其過短的讀長。盡管所有的平臺都能產生單末端和雙末端的reads，SOLiD的最大讀長只能達到75bp，Complete Genomics只能達到28-100bp33，使得其在基因組拼接和結構變異研究中的可操作性大大降低。不幸的是，SOLiD系統不僅受制于運行時間，還受制于其工業生產。另外，盡管cPAL計劃準備在成本和通量上和Illumina競爭，卻在2016年被迫下馬，該技術僅在人類WGS中有所應用33,34。cPAS的BGISEQ-500系統則受制于中國大陸政府。

　　Illumina由于其技術成熟，平臺之間高度互補性與交叉性，使得其在短讀長測序上大占優勢。Illumina的產品覆蓋了從低通量的Mini-Seq到超高通量的HiSeq X系列，其中HiSeq X系列最多可以在一年內產生1800多個30×覆蓋度的人類基因組數據量。此外，其運行時間，read結構以及read長度（最大300bp）都在不停的改進。但是，作為一個依賴于CRT技術的Illumina平臺，相對于SNA平臺的優勢在于其在讀取核糖核酸多聚體（同一種核糖核酸多次出現）時較低的錯誤率。盡管SNA平臺總體上的準確率可以達到99.5%35，但是在讀取那些高AT富集或者高GC富集的片段的時候錯誤率差強人意32,37,38。在2008年，據Bentley等報道，Illumina平臺鑒定到的人類單核糖核酸多態性（SNPs）與基因芯片鑒定的SNPs具有驚人的一致性35。但是，這種高度的敏感性也隨之帶來了2.5%左右的錯誤率。因此，其他小組計劃使用Sanger測序來對鑒定到的SNPs進行重新測序以便區分測序錯誤導致的SNPs與真實的基因突變導致的

　　SNPs35,39,40。在對所有的可能性都進行優化之后，Illumina平臺被大量的研究人員認可，在大量的領域中均有涉及：WGS的基因組測序與外顯子測序；遺傳學應用如染色質免疫共沉淀——測序（chromatin immunoprecipitation followed by sequencing）41；ATAC-Seq（transposase-accessible chromatin using sequencing）42或者DNA甲基化測序（Methyl-Seq）43；RNA轉錄組測序（transcriptomics applications through RNA sequencing, RNA-seq）44等等。NextSeq與MiniDeq平臺使用的雙色標記系統通過降低雙色通道的掃描與熒光基團的使用達到成本并且增加測序速度。然而，雙通道系統卻會略微增加測序的錯誤率45。HiSeq X是目前最高通量的儀器，但其由于通量過大，因此只在部分應用上得以使用，如WGS與全基因組甲基化測序。不僅如此，HiSeq X更大的局限在于其高昂的成本，以至于超過了絕大多數單位的可接受程度。

　　Qiagen的GeneReader是專為臨床診斷設計的，其主要關注點在腫瘤基因panels46上，也因此其局限性較大。根據對其運行時間與功能的分析，GeneReader與Illumina的MiSeq較為相似46。盡管還沒有使用數據，但是GeneReader和MiSeq平臺有相同的優缺點。

　　454平臺和Ion Torrent平臺相比于其他的短讀長平臺而言，能夠提供較長的read讀長，分別大約在700bp與400bp，因此在基因組結構較為復雜的研究上應用較多。然而，由于同樣都是基于SNA技術，它們都擁有相同的缺點。雖然，其在非堿基多聚體（non-homopolymer）的測序上正確率與其它NGS平臺相差無幾，但其插入與缺失（Insertion and deletion，indel）是最大的問題。同一堿基的多聚體是該類技術最大的問題所在。有報道，對同一堿基的多聚體的測序誤差能夠達到6-8個堿基之多47,48。不幸的是，盡管Ion Torrent依然在緊跟快速進化的NGS平臺的步伐，454平臺卻由于成本與應用范圍過于狹小卻已經被羅氏公司停產。

　　Ion Torrent平臺為不同的研究人員的不同需求提供了不同的芯片與設備，通量從50Mb到15Gb不等，運行時間也從2小時到7小時不等。這一點使得其幾乎是所有目前的二代測序平臺中最快的一個。這也使得其在基因panel與精準臨床診斷上大有優勢50，包括轉錄組與可變剪切鑒定51。Ion Torrent先后發布Ion Personal Genome Machine （PGM） Dx與Ion S5系列希望于在臨床診斷上打開疆土。與Ion Chef文庫制備試劑盒和芯片上樣設備結合使用，S5系列希望能夠成為最方便操作的設備，消除其它Ion Torrent設備對氬的依賴。但是，其最大的缺點在于Ion PGM Dx系統可以進行雙向測序，更高通量的Ion Proton與S5系統卻并不支持雙向測序，也因此限制了其在大范圍基因組測序與轉錄組結構上的應用。

　　長讀長（read）的NGS測序

　　綜述

　　基因組是一個復雜的復合物，其中包含了多種重復序列，拷貝數變化，結構變異。這些與進化，適應以及疾病密切相關54-56。然而，許多復合物元件由于過長，導致短讀長測序并不能夠完美的對其進行測序。長讀長測序的reads可以達到幾千個堿基，這使得可以對大的結構進行功能解析。此類的長讀長測序產生的單一長序列可以跨越復合物或者重復序列。長讀長測序在轉錄組測序過程中也大有益處，因為長讀長的reads可以跨越完整的mRNA的轉錄本而不需要拼接。這可以使得研究人員可以鑒定到更多的基因亞型等。

　　最近，人們開發出了兩種長讀長測序的實驗方案，分別是：單分子實時測序（single-molecule real-time sequencing ）以及依賴于已有短讀長技術體外構建長讀長的合成法。單分子法與短讀長測序完全不同，因為單分子法不需要對模板進行擴增來產生足夠測序儀讀取的信號，也不需要輪番添加dNTP。而合成法并非產生原始的長讀長的reads，而是通過利用barcodes來進行拼接獲得長片段。

　　表一：NGS平臺概述。

　　單分子長讀長測序（PacBio和ONT）

　　最近這段時間，最常用的長讀長測序法平臺就是使用PacBio Biosciences（PacBio）57的單分子實時測序法（single-molecule real-time sequencing, SMRT）（圖5a）。該設備使用了一個特制的流動單元，其中包含了成千上萬的單獨的底部透明的皮升孔（picolitre wells）——zero-mode waveguides（ZMW）58。短讀長SBS技術需要使得聚合酶結合DNA，沿著DNA進行擴增，而PacBio則固定聚合酶在空的底部，讓DNA鏈通過ZMW。由于有聚合酶有固定的位置，因此該系統可以對單分子DNA進行測序。dNTP結合在每個孔的單分子模板上，通過激光或者成像設備記錄ZMW底部標記在核糖核酸上的發射波長的顏色與持續時間來進行序列的讀取。聚合酶在結合dNTPs的過程中，切割dNTP結合的熒光基團，使得熒光基團在第二個標記的堿基進入ZMW前將前一個熒光基團去除。SMRT平臺也使用了獨特的環狀模板，這種方式的模板可以使得聚合酶反復讀取模板的序列。盡管這種方法不太容易對長度大于3kb的片段反復讀取，但是短的模板卻可以反復讀取多次57,59。由于多次讀取同一序列，因此系統會產生多次測序后的保守序列（consensus sequence, CCS）。

　　2014年，第一個消費級別的nanopore測序儀的原型機——MinION在Oxford Nanopore Technologies（ONT）誕生。與其他平臺不同的是，nanopore測序儀并不監測模板DNA結合或雜交的核糖核酸。其它平臺通過監測次級信號，光，顏色或pH等來進行堿基序列的讀取，二nanopore則直接對天然的ssDNA分子進行讀取。為達成此，DNA需要通過一個蛋白孔（protein pore）（圖5b），孔也會因為DNA分子的通過導致的電壓阻塞（voltage blockade）的發生。對這些電荷瞬時的追蹤稱為squiggle space，特定DNA序列通過孔會產生特定的電壓改變，這被稱為k-mer。相比于1-4種可能的信號，nanopore擁有1000多種可能的k-mer，尤其是當天然DNA序列中存在修飾的堿基的時候。最近的MK1 MinION流動單元由特殊應用的芯片組成，包涵了512個獨立的通道，每秒可以讀取70bp長度，到2016年預計能夠增加到500bp/秒。新推出的PromethION設備是包含了48個獨立流動單元的高通量平臺。該項工作最多可以在2天內輸出～2-4Tb的數據量，這使可能其成為HiSeq X系列的強力競爭者。與PacBio的環狀模板類似的是，ONT MinION使用一個leader-harpin library結構。這使得正向DNA鏈可以通過孔，接著harpin蛋白結合雙鏈，最后是反義鏈。這產生了1D和2D reads，1D鏈可以通過比對產生一個保守的2D read。

　　圖5: 長讀長實時測序原理。

　　長reads的合成

　　與真正測序的平臺不同的是，合成長讀長技術依賴于一個barcode系統來結合不同的片段，通過已有的短讀長測序儀來獲得長讀長reads61。該方法將大的DNA分子分割成若干個小片段到微孔中或者乳液中。每個微孔或者乳液中的模板被切割并且加上了barcodes。這種方法允許在短讀長測序儀上使用，測序后數據被通過barcode分開按照barcodes的序列進行拼接62。

　　合成法有兩個系統：Illumina長片段合成平臺（圖5c）與10X Genomics乳液系統（圖5d）。Illumina系統（Moleculo）分割DNA到小板上而不需要特殊儀器。然而，10X Genomics乳液系統（GemCode與Chromium）使用乳液分隔DNA并且需要微流體平臺（microfluidic instrument）來進行測序前的準備工作。在其實濃度低至1ng的情況下，10X Genomics乳液系統可以任意切割長的DNA片段（最大達到100kb）到微粒（GEM）中，這種威力一般包含了≤0.3× 的基因組以及一個獨特的barcode。

　　單分子測序與合成法測序的比較

　　人們對長讀長測序越來越感興趣，每個系統都有其優劣（表一）。最近長讀長測序最受歡迎的是PacBioRS II。該設備可以產生超過50kb長度的單個read，長鏈建庫測序平均長度為10-15kb。這種特性使得在基因組拼接與大范圍基因組結構的應用中大有好處63,64。但是，長鏈的單個堿基錯誤率在15%左右65，使得人們對該儀器的使用有所顧慮66。不幸的是，這些錯誤隨機分布每個reads，也因此必須有足夠高的覆蓋度來消除單個堿基錯誤率的負面影響67。

　　PacBio的環狀模板有時候也會出現錯誤。單個堿基測序次數越多，結果就越可靠，其最高準確率達到99.999%59,68。其高準確率與Sanger測序相似，使得該方法與Sanger測序一道成為SNPs的研究方法65。該設備的運行時間與通量受測序讀長的影響，長的模板需要更長的時間。舉例來說，1kb的庫運行1小時測序每個分子可以產生7500個堿基，平均大約重復8次；而運行4小時每個分子可以產生大約30000個堿基（大約重復30次）。相反的是，10kb的庫運行4小時產生30000個堿基只能重復3次左右。通量的限制以及高企的成本（1000美元/G），加上較高的覆蓋度使得PacBio RS II成為那些較小的實驗室難以應用的技術。然而，考慮到這些問題，PacBio推出了Sequel系統，其通量與RS II相比高出了7倍，使得30×覆蓋度的人類基因組測序成本大幅下降一半69。

　　ONT MinION是一個小的（~3 cm× 10 cm）USB設備，并且可以在個人電腦上運行，使得其成為最小的測序平臺。這使得MinION具有極高的便攜性，并且在臨床診斷中以及那些不容易到達的地方有著廣泛的應用前景。盡管周邊設備依然只有在實驗室中才有，如文庫準備的恒溫器，這依然可以大幅減少設備空間。與其他平臺不同，MinION在片段大小上是有限制的。理論上來講，任意大小的DNA分子都可以在該設備上測序，但是實際情況是在對長片段進行測序過程中，是有所制約的70。作為ONT技術本身的特性，ONT擁有超過1000種獨立的信號，這使得ONT擁有巨大的錯誤率——1D read大約在30%左右（主要是indel）。有效的對核糖核酸復合物的測序也是ONT MinION面臨的一大問題。當核糖核酸復合物超過k-mer長度，就很難準確鑒定前一個k-mer何時離開孔而下一個k-mer何時進入孔。因為修飾的堿基會改變原有的k-mer設定的電壓變化，所以堿基的修飾對MinION而言同樣也是一大挑戰。幸運的是，最近的一系列的對試劑以及算法的改進使得其準確率提高不少71。

　　應用

　　WGS正在成為NGS中最廣泛的應用。通過該技術并且結合生物學應用，研究人員可以獲得基因組信息中最值得注意的信息73。舉例來說，2012年，Ellis等報道了基因與乳腺癌患者芳香酶抑制劑（aromatase inhibitor）治療法之間的關聯。他們指出突變，后果與診斷之間的關聯，同樣還有癌癥相關基因的突變的富集。這提供了一個可能性，即：乳腺癌有不同的突變造成不同的表型，具有復雜的病理學75。最近的NGS平臺的改進使得研究人員發現了一些幾年前難以想象的新觀點與機會。在2010年，1000基因組計劃（1000 genomes project）開放了其從179個個體中獲得的WGS原始數據以及697個個體的測序數據76。到2015年，研究人員已經構建了26個不同人群的2504個人的基因組群體77,78。給人們從種群的角度來觀察人類的變異。但這還不是該項目的終點，越來越多的人的基因組正在被得以測序79-81。種群水平的測序已經成為人們更好的理解人類疾病的一個重要的工具，同樣也得到了意想不到的結果。一個例子是，Sidore等82對2120個撒丁島人（Sardinians）的WGS研究發現了一些新的和脂肪相關的基因以及炎癥的標志物，給人們對血液膽固醇的分子機制的研究提供了新思路。

　　全外顯子組測序（Whole-exome and targeted sequencing）83同樣也廣泛應用于測序的研究中。受制于基因組材料大小的局限，很更多的個人樣本可以在一個測序中實現，增加了基因組研究的寬度以及深度。使用外顯子測序，Iossifov84等對超過2500個單一的家庭進行測序，每個家庭都有一個小孩患有自閉癥（autism spectrum disorder, ASD）。研究人員在30%的樣本中發現了錯意突變（missense mutations），基因干擾的突變（gene-disrupting mutations）以及拷貝數的變異。該工作與其他的工作一道鑒定到了ASD相關的基因突變85,86。其他證據表明，高覆蓋度的WGS也可以解決復雜的變異以及臨床樣本的分析。2015年，Griffith等認為可以使用一個完美的跨平臺的方法（包含靶向測序）來鑒定腫瘤中高可信度的SNPs。該方法中，作者認為10000×的覆蓋度可以鑒定到稀有突變。由于10000×的覆蓋度對于WGS而言實在過高，靶向測序便在臨床中得到了廣泛的應用。

　　 NGS同樣在基因的調控研究中有廣泛的應用。蛋白-DNA互作可以通過染色質免疫共沉淀結合NGS測序（ChIP-seq）來得以研究41。利用NGS對修飾堿基的研究也是可行的。舉例來說，甲基化測序包含了甲基化DNA的捕獲與富集88，對甲基化與非甲基化區段的選擇性消化89,90,91。但是，盡管利用此方法獲得了很多重大的發現，修飾與捕獲過程成為其最大的限制。2010年，Flusberg等92發表了一個概念性的研究方法，即：使用PacBio來區分甲基化與非甲基化的堿基。由于聚合酶即便是甲基化的堿基也能夠延伸，但在甲基化位點上會停留更多的時間，因此這里改變的信號可以認為含有甲基化修飾。與之相同的是，nanopore平臺也能夠監測修飾的堿基，因為甲基化同樣會影響鑒定到的電壓的變化。這使得甲基化的測序可以在不需要化學操作的條件下進行93。

　　一個最近的NGS的范例是對長鏈DNA的測序。重復序列以及復合序列長久以來較難以拼接，短讀長測序很難解決這個問題94-96。最近，Chaisson等97對長讀長測序的使用使得其能夠在人類GRCh37數據庫中提交超過1Mb的新的序列，這些序列彌補甚至跨越了曾經的溝。Chaisson等還鑒定到了大于26000個超過50bp的indels，也因此，GRCh37數據庫成為最有參考價值的幾個基因組之一。除了簡單的增加基因組數據可靠性之外，長讀長還能夠提供更有效的臨床診斷98-100。

　　在對轉錄水平上的研究也因為NGS受益匪淺。今天，研究人員甚至能夠使用NGS的深度測序對單個轉錄本進行研究。2014年，Treutlein等101使用了組織發育過程中不同細胞類群的單細胞RNA測序發現了用于鑒定細胞亞群的標志物。盡管長讀長測序相對而言在對轉錄本的定量上不占優勢，但是，長讀長可以在研究轉錄組的結構上有所幫助51。舉例來說，最近的人類長讀長轉錄組測序研究表明 >10%的reads是新的可變剪切體102。

　　 NGS最新的設備——nanopore測序儀，依然在尋找其定位的過程中。然而，研究人員正在將其快速的文庫制備，實時的數據生產以及小的體積的優勢轉變為資本過程中。最近，英國Stanley Royd Hospital的研究人員使用MinION用于監測沙門氏菌（Salmonella enterica）的爆發103。MinION測序儀最令人振奮的應用可能就是2014年的埃博拉病毒爆發104。在位于日內瓦的歐洲移動實驗室的主持下，作者對埃博拉病毒的傳播以及進化歷史進行了深入的研究。

　　結尾

　　我們正處在新的NGS技術革命的頂端。NGS現在已經不僅僅只是一個新奇的事物，而已經成為了一個在生物學研究中廣泛應用的技術。最新的超高通量測序儀已經將曾經認為不可能的事情成為可能。這包含了首創的精準醫療（medicine initiatives）以及Illumina計劃的對循環腫瘤DNA（circulating tumour DNA, ctDNA）進行測序。每個計劃都對數萬個基因組樣本進行測序。所以，快速以及低成本的測序給予了內科醫生強大的工具來翻譯基因組信息成為有用的臨床診斷結果。

　　這個革命也帶來了新的挑戰。由于NGS旨在廣泛的應用于臨床，時間就成為一個NGS首先需要面對的挑戰。對于那些嚴重的神經性疾病或者極為危險的癌癥患者而言，數周的WGS分析的等待時間足以使的患者錯過最佳的治療時間。對于急性感染而言，這些事件已經下降到幾天。盡管人們已經對時間做出了巨大的改進，但是絕大多數現有的系統都不能完全滿足快速模式下的足夠產出。

　　雖然臨床診斷面臨著數據量不夠的問題，NGS其他方面的應用卻面臨著生產力過剩的境地。目前，已有超過14000個基因組序列上傳到US National Center for Biotechnology Information（NCBI）中。2013年，Schatz與Langmead報道了全世界每年可以生產超過15pb的數據量，并且數量與通量依然在繼續增加107。數據量的富余對分析以及其下游提出了嚴峻的挑戰，這需要革命性的存儲與生信解決方案108。將海量的數據量翻譯成有生物學與遺傳學內涵的結果同樣也是一個挑戰87,109,110。在臨床診斷方面，通過NGS分析的數據產生的假陽性或者假陰性同樣也是需要慎重考慮的問題111,112。

　　最近，Illumina由于NGS與其周邊產品獲得了巨大的成功。其它生產商也在快速革新自身的產品113。Illumina的市場仍然在增長，以至于優勢巨大。BGISEQ-500以及Helicos technology的GenoCare114在亞洲也有所斬獲。ONT PromethION115與Illumina HiSeq X系列則向著成本與產量的極限大步邁進。隨著人們對臨床診斷測序興趣的增加，已有的NGS供應商正在提供各種快速的解決方案，如Ion Torrent S5以及Illumina的MiniSeq，還有新加入者Qiagen的GeneReader也來參與競爭。

　　今后的幾年里，更多的玩家也會帶著心得解決方案進入這個市場。GenapSys (Sigma-Aldrich)的electronic ‘lunchbox’-sized sequencer116； Genia (Roche)的新的nanopore測序方案117；以及單通道CMOS技術118，都號稱能夠在臨床應用上節約足夠的時間。這些已有的和新的攪局者都有著科技革命的潛質，包括直接對RNA或者蛋白進行測序等，這些最近和未來的進步使得今天成為NGS發展的黃金時期。

更多與高通量測序技術的原理及各平臺優勢和實踐應用的分析相關的新聞