受Google Maps的啟發,研究人員可以使用一套工具去繪制染色體的復雜構象。本文威正翔禹/締一生物為您分析設計繪制染色體復雜構象的工具?。
染色體的功能遠不止保持DNA整齊有序。這種基因組DNA和蛋白質組成的復合物有許多不同的結構和構象,這些結構和構象可能會影響包裹在其周圍的基因的表達。在某些構象中,線性DNA中相距較遠的兩個序列可能實際上非??拷?,并影響彼此的活動;而在其它形式中,這兩個序列可能相距甚遠。
Erez Aiden是劍橋麻省理工學院(Massachusetts Institute of Technology)的研究生,他與其他人共同開發了一種名為Hi-C的技術。該技術**在基因組水平上揭示了染色體的折疊方式。Hi-C不僅詳細描述了影響基因表達的DNA環和結構域,甚至還能將復雜的基因組拼接在一起。雖然以2D矩陣呈現的數據詳細記錄了染色質的交互信息,但在2009年的當時,Aiden還沒能找到一種簡單的方法,以探索這些空間構象。所以,他自己開發了一種技術。
據Aiden回憶,當時他只能打印出多個分辨率的Hi-C矩陣,這需要用到上百張紙。他還找來**的會議桌,把打印的所有矩陣都擺放上去,以查看大規模的空間構象。Aiden認為這是一個很好的界面。不過,他也承認,他需要一種更環保的、可持續和共享的方法來觀察染色體構象。
最后他開發了Juicebox,一個基于Java的桌面應用程序。它可以提供Google Maps樣式的染色質交互數據探索,允許研究人員從基因組水平放大或縮小來觀察結構特征。
Aiden指出,2014年發布的Juicebox大約被下載了14000次,今年推出了一個基于瀏覽器的版本。Juicebox只是一系列探索2D基因組交互數據的免費程序中的一個:一些程序專注于相對狹窄的染色體位點,而另一些則可以進行基因組探索。其中部分程序重點關注由2D矩陣推斷3D結構。這些程序反映了染色質相互作用數據集的日益增長。事實上,4D核組項目(4D Nucleome Project)這樣的大項目更是大規模地促進了染色體交互數據集的爆炸式增長。
馬薩諸塞州波士頓哈佛醫學院(Harvard Medical School)生物信息學家Peter Park指出,因為[數據]變得如此復雜,所以可視化變得尤為重要。
加州大學圣克魯斯分校(The University of California, Santa Cruz, UCSC)開發的Genome Browsers是****的探索基因組數據的門戶之一。像大多數基因組瀏覽器一樣,它將序列數據呈現為一維“軌跡”,顯示為表觀遺傳特征(如組蛋白修飾和甲基化位點)的線性字符陣列。
然而,Hi-C生成的是2D矩陣。該技術鑒定了線性DNA序列中相距很遠,但在3D空間中鄰近的序列。據Aiden解釋,如果你關注基因組中的兩個位置,矩陣會告訴你這兩者之間彼此接觸的頻率。通常,這些數據被轉化為熱圖,而顏色強度則反映了兩點之間的相互作用頻率。
Aiden等人,包括加利福尼亞大學圣地亞哥分校(University of California, San Diego, UCSD)的James Robinson從Google地圖中獲得靈感。Robinson表示,有了Google地圖,用戶就可以從全球視圖無縫切換到街道級視圖。這樣一來,整個數據集是非常巨大的,但Google并沒有一次性提供所有數據。相反,軟件“將世界劃分成不同分辨率的瓦片”。在任何一個時間內,用戶只能查看少量的瓦片。這些瓦片被組織起來,使相鄰的瓦片更易被獲取。他還指出,只要你能夠快速地找到4個人,你就可以得到一個交互式的地圖。
類似地,Juicebox的“hic”文件以多種分辨率存儲每個可能的染色體對的預先計算的圖塊集。軟件的查詢表可以直接檢索數據,無需搜索,從而加快訪問速度。因此,Juicebox用戶可以無縫探索整個基因組的交互作用,然后放大以查看精細的功能。
用戶可以訪問Aiden實驗室公開提供的數百個預先計算的基因組接觸地圖中的任何一個,或查看自己的數據。他們將自己的數據或公共數據庫得到的數據與Aiden實驗室提供的標準數據(例如基因位置或組蛋白標記)進行比對。例如,DNA結合蛋白CTCF的結合位點,與染色體環高度相關。用戶可以標記和記錄感興趣的特征。
基因組同步
今年3月,哈佛醫學院(Harvard Medical School)的生物醫學信息學家Nils Gehlenborg開發了基于網絡的2D基因組交互可視化工具——HiGlass,它也提供了類似Google地圖的體驗。 與Juicebox一樣,在HiGlass中,研究人員可以導入基因組軌跡來幫助他們了解所看到的內容。此外,HiGlass還允許用戶在一個瀏覽器窗口中打開多個HiGlass視圖,并將它們同步起來,以使它們始終顯示相同的區域。這樣,Gehlenborg指出,研究人員就可以比較不同條件或實驗中的染色體構象了。他還表示,他們為研究者和分析師提供了新猜想的靈感。(Aiden提到,基于瀏覽器的Juicebox版本還允許每個窗口同步多個視圖,桌面Juicebox應用程序的用戶可以跨不同的窗口同步視圖,但不能在單一視圖中進行同步)。
Gehlenborg的團隊已經建立了一個HiGlass服務器,以挖掘公開的數據。需要分析自定義數據集的研究人員必須在本地安裝該軟件,Gehlenborg團隊為此提供了一個Docker容器。
Juicebox的Web版本和HiGlass都允許用戶創建可分享的URL,指向數據的特定視圖——Aiden把這個功能稱為軟件的“殺手級應用”。他認為,如果用戶注意到基因組結構與特定的1D軌道完全重疊,那么點擊那個URL,復制它,就可以推送它了。所有接收到該分享的人都可以點擊它,隨后便會得到與分享者軟件相同的參數設置(即參數重用——點開的人,可以看到和分享者同樣的視圖)。
另外兩個可視化軟件——3D基因組瀏覽器(3D Genome Browser)和WashU EpiGenome瀏覽器(WashU EpiGenome Browser)均能提供更多的本地化視圖。用戶可以選擇感興趣的區域,瀏覽器會顯示該區域的基因組交互信息。
Juicebox和HiGlass將熱圖映射成矩形的鏡像,而這些瀏覽器則將熱圖顯示為三角形。UCSD基因組生物學家Bing Ren指出,他們去掉了一半的冗余信息。(WashU瀏覽器還可以將交互數據顯示為連接交互區域的弧線。)
這種變化可能聽起來不大,但根據賓州賓夕法尼亞州立大學(Pennsylvania State University)的Feng Yue(在博后期間,與Ren合作開發了他的首個3D Genome Browser原型)的研究,這種變化能讓研究人員更容易識別功能區域。例如,3D基因組瀏覽器允許其用戶將來自兩個物種的熱圖相疊,以評估折疊體系結構的進化保守。這種“虛擬4C”(virtual-4C)模式允許用戶查詢與特定基因組位點相互作用的序列的Hi-C數據集,從而方便研究者觀察基因調控區域之間的相互作用。
另一個非常好用的基因組交互可視化軟件是由UCSD的Sheng Zhong等人開發的GIVE。GIVE允許研究人員使用幾行HTML代碼,將完整功能的基因組瀏覽器(包括2D交互數據查看器)納入其個人或實驗室網頁。Zhong指出,研究人員可以與同事分享數據,發表文章時也可以附上鏈接,整個操作時間大約為20分鐘。
意大利米蘭FIRC分子腫瘤學研究所(FIRC Institute of Molecular Oncology)的計算生物學家Francesco Ferrari使用R編程語言和Bioconductor軟件庫來顯示他的Hi-C數據。這些基于文本的程序缺乏其它軟件的交互性,但是由于該團隊一直都是使用R和Bioconductor進行數據分析,所以據Ferrari指出,這樣更方便。Bioconductor包HiTC以及Python library HiCPlotter均提供了Hi-C可視化工具。
實現3D
最終,2D互動矩陣可以提示3D結構。畢竟,如果兩個區域相互作用,它們可能距離非常接近。越來越多的研究人員正在使用他們的2D數據來直接計算和可視化3D結構。
CsillaVárnai是英國劍橋Babraham研究所(Babraham Institute)的博士后,他參與了今年早些時候單細胞Hi-C研究的3D模型構建工作(http://dx.doi.org/10.1038/nature23001)。她使用一個名為Gromacs的通用分子建模包來將染色體模擬成一條串珠——每個珠代表約10萬個堿基——然后將串珠進行折疊,而Hi-C的交互數據則是折疊時的“約束條件”。
某些軟件則專門被設計用于染色體結構的建模。由奧斯陸大學(University of Oslo)的生物信息學家Jonas Paulsen開發的Chrom3D軟件將Hi-C數據與核包膜距離的信息相結合,以模擬染色體在細胞核中的位置。據Paulsen解釋,這對基因調控來說非常重要。核外圍附近的基因傾向于被抑制,而更位于中心的基因通常是有活性的。MarcMartí-Renom和西班牙巴塞羅那基因組調控中心基因組分析中心(National Center for Genomic Analysis–Center for Genomic Regulation)的Mike Goodstadt開發了另一個3D工具——TADkit。TADkit允許用戶在相應的2D熱圖和1D軌跡旁邊查看3D染色體模型。只要選中一個視圖中的一個特征,那么軟件就會自動高亮其它試圖中的同一特征。
由于大多數Hi-C數據集包含數百萬個細胞,到底3D視圖比2D視圖能多提供哪些信息還有待觀察。麻省理工學院(Massachusetts Institute of Technology)的生物信息學家Leonid Mirny打了個比方,你拍了一堆人的照片,然后將它們平均化,最后得到的照片會跟誰都不像。3D視圖可能也會存在這種問題。Zhong指出,目前還不清楚哪個工具(如果有的話)將成為基因組可視化的金標準,現在這方面的爭論已經很激烈了。
Ren正常,對于基因組生物學來說,可視化是關鍵因素。據他解釋,分析工具是在統計數據的基礎上設計而成的。有時候它們會錯過一些東西,有時它們會推斷出一些壓根不存在的功能。因此,科學家還是要謹慎,自己檢查分析數據非常重要。
綜上所述,您是不是已經對設計繪制染色體復雜構象的工具,有所了解。如果還有其他疑問,請咨詢威正翔禹/締一生物資深專家免費熱線:400-166-8600。
原文檢索:Jeffrey M. Perkel. (2017) Plot a course through the genome. Nature, 549 (7670): 117-118.