和企業一樣,大型研究機構也正在為日益增長的非結構化數據困惑不已,運用正確的文檔存貯解決方案,能夠創造出顯著的存儲空間。
科 學研究部門的數據保存必須保證安全,以備時隔數十年后還能方便準確地調用。有些數據和研究方法還要保存在公開的檔案里,以便能夠重復這些研究項目和進行結 果檢驗。研究工作每天都會產生數百G級(109)字節甚至TB級(1012) 字節的寶貴數據,如何保存這些研究數據、以及在優化現有存貯資源的同時如何防止丟失,便成為當前IT部門的兩個核心任務。
數據遷移提高訪問效率
Genethon是一個由法國肌營養不良癥研究協會(AFM)建立的生物治療中心,主要進行肌肉疾病的研究和治療。Genethon擁有200多名基因研究學家、物理學家、工程技術人員以及監管事務專家,是當今全球臨床前基因治療領域的研究和開發中心。
Genethon 的數據容量以每年30%~40%的速度增長,主要來自成千上萬高分辨率的圖片和電子顯微鏡的錄像以及DNA的排序資料。IT專業部門在存貯數據時感受到日 益增加的時間配額限制,遂著手研究如何解決數據存貯方案,以便在一級存貯器中創建出自由的空間。在對一系列潛在方案進行評價后,Genethon最終決定 采用Atempo 的數字化檔案管理軟件(ADA)。
IT負責部門需管理一個由250臺計算機和手提電腦通過20個Windows和 Linus服務器組成的艦隊,并支配2臺用于研究數據的存貯器,一個具有8 TB級字節存貯容量的Dell CX300,另一個是具有10 TB級字節存貯容量的磁盤存貯單元Dell Equallogic PS600。數據被直接存貯于Dell Powervault Tape Library (戴爾磁帶庫)并加以保密。
在借助于Atempo 的測量儀器對數據加以分類鑒別后,IT專家們發現存貯于一級存貯器中50%以上的圖片及其數據并非每天應用。通過采用Atempo 數字化檔案管理軟件的分層存貯管理(HSM)系統,IT專家們成功實現了將研究數據遷移至二級存貯器中,從而為一級存貯器騰出了1.5 TB級的自由空間。在數據遷移過程中,數據被自動地替代為備份文件stubfiles,從而保證了對所存貯數據的通透式存取操作。采用這種數據遷移方法 后,數據訪問效率提高了40%。
自動化存檔創造存貯空間
Alba Synchrotron同步加速器公司的做法也有異曲同工之妙,這個坐落在巴塞羅那的企業是全球范圍內從事同步加速器光源的引領性機構。光源可以通過電子 加速產生X射線,從而使科學家們研究分子機構的內部機構,其應用范圍業已從工件的材料疲勞試驗擴展到骨頭生長的測量。
在Alba Synchrotron同步加速器公司有多達30種實驗同時進行,每個檢測器產生2~3種輻射過程,所產生的初始數據可達300MB/s,每種測試長達數分鐘,每天產生出大量的科學數據。
為 了便于科學家們快捷地存取包括分析結果的實驗數據,Alba 公司借助于Hitachi-HNAS平臺在Bluearc公司支持下組建了250TB在線存貯器用于保存數據。該企業需要一種數據檔案解決方案,以便將一 級存貯器中的存貯位置釋放出來,并將實驗數據加以保存以備未來參考使用之需。為了滿足這些要求,Alba公司最終決定采用Atempo數字化文檔存貯器 (ADA)。借助于ADA的存貯管理,Alba的一級在線存貯器用3個月就自動遷移至廉價的磁帶存貯庫NEO 8000中,通過將數據遷入磁帶庫的存檔方法使新的實驗數據又能存貯到一級存貯器中,即元數據存貯歸檔。專有或變通的元數據,諸如項目名稱、所用的輻射線 或者科學家的名字等,則由各同步加速器實驗分別加以紀錄,這類信息的存檔方法使得科學家可快速找回所需要的實驗數據。

圖2. Atempo公司的數字化文檔存貯器(ADA)借助于合適的數據管理軟件創造了存貯容量。
數據存檔基本原則
除了建立強有力的存檔解決方案,如何讓存檔軟件運行也是研究的重點。需要注意幾點基本原則,即可將所存檔的數據從其數據死檔中活化取出,以用于日常工作。
內容創始人給予授權
當研究機構內部出現存貯困難時,使用者需與內容的創始人溝通,后者更清楚哪些數據是固定的,是不可改變的,而且已準確嵌入文檔存貯器中。如果賦予使用者一種有效的機制來進行數據的存貯和調出,則可做到事半功倍。
為文檔存貯器創建自動化機制
雖 然使用者的干預可能大大降低存貯容量,然而單純手動處理往往并不足以滿足要求。通過建立文檔存貯規則以及可實現過程自動化的時間計劃,則能夠更加有序地執 行文檔存貯的戰略計劃。成熟的文檔存貯軟件能夠讓使用者根據目標制定出判據標準,并以此應用自動化的文檔存貯規則于最后的存取和數據類型。
刪除不必要的復制數據
企業內部許多職員和部門往往會存貯一些不必要的數據,智能化的文檔存貯解決方案能夠識別這些重復性數據,并可主動減少這些累贅。
確保所存貯的數據被重新找回
如果使用者不能及時快速地將所需的數據加以定位和調用,則文檔存貯器不可能真正顯示其所有可能節省的成本和其他優點。文檔存貯器必須擁有以下的功能:
調用數據,無需其原始存貯地址;
搜索基礎性的數據特性,諸如名稱、建立日期、研究者名字以及數據類型;
支持元數據標簽,以便確立數據組搜索中的屬性,例如某一系列數據的標簽為“Genon Projekt 2011”;
文檔記錄的全名稱搜索:存貯文檔記錄時進行掃描,避免數據從文檔存貯器中取出來后,還要再去檢查內容。
保持媒體選項
文檔存貯解決方案應該保持其靈活性,以便讓使用者能夠將最佳的媒體類型應用于特定的環境中,應能提供范圍寬廣的媒體選項,比如支持磁帶、光盤或者在線存貯器、搜索詞云計算等。
5項文檔存貯規則
選擇正確的存貯規則研究文檔存貯的有效途徑,用以強化一級存貯器的應用,消除臃腫的存貯容積問題,從而實現長期保持研究數據。數據存貯的5個重要原則是:
對內容的創始人給予授權;
為文檔存貯器建立自動化機制;
刪除不必要的復制品;
確保所存貯的數據被重新找回;
機動靈活地應用媒體選項。