• <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    發布時間:2022-12-19 16:55 原文鏈接: “數據跟著算力跑”到“算力圍著數據轉”的嬗變

    “摩爾定律被打破后,什么將推動超級計算機性能的發展?”

    12月13日,在今年的CCF HPC China 2022上,2021年度圖靈獎獲得者、來自美國田納西大學和橡樹嶺國家實驗室的杰克·唐加拉教授在演講的最后,談及HPC未來發展趨勢,發出這樣的提問。

    一個跨時代的命題

    這個問題的言外之意非常清楚:超算算力的發展以前主要依賴芯片性能提升,但如果芯片性能供不應求,還能依賴什么?

    對這個問題,他也沒有明確的答案。但他提到,HPC硬件廠商開發出先進設備,算法和軟件就要不遺余力地去尋找使用新計算機的方法。

    “向上的空間也很大”,杰克·唐加拉說:“人們可以在硬件的幫助下,通過軟件和算法的改進來探索‘上面的空間’。”

    問題的關鍵是,軟件和算法如何改進,朝著什么方向改進?

    早在2007年,1998年度圖靈獎得主詹姆斯·格雷就在題為《科學方法的革命》的演講中提出,隨著數據的爆炸性增長,科學計算(即“第三范式”)中的數據密集型范式將成為一個獨特的科學研究范式,即第四范式。而超算也將從科學計算工具,向著基于大數據、人工智能的“數據密集型科學”演進。

    有評價稱,詹姆斯·格雷提出的“第四范式”影響了至少一代計算人和科研人,人們開始認真審視海量數據與計算工具間的相互驅動。

    與杰克·唐加拉同天演講的中科院院士、北京航空航天大學教授錢德沛把問題講得更直白:如今的應用“數據規模都很大,在分布式算力中心環境下,數據的放置對于應用的性能和能耗影響都很大”“在計算任務調度和遷移時,要充分考慮數據的傳輸和訪問開銷”。

    超算最本質的是算力,而越來越多應用(如生物信息類)在付諸計算之前,更面臨著數據激增的困擾。如今超算多采用異構架構,以讓各類加速器發揮最大效用;但是異構存在著各類計算單元“各自為戰”的問題……諸多矛盾,如何調和?

    這個問題的一個答案是:面對非結構化的海量數據,多元異構的超算在呼喚“數據融合”。

    一個校級超算的范例

    目前,我國已建成了10個國家級超算中心,20多個人工智能計算中心,許多高校、企業和科研院所也自建了高性能計算系統。然而,有專家注意到,在不少的計算設施中,存儲和網絡這兩大關鍵組件受到的關注度遠遠小于計算組件,以至于計算系統的性能只是“看上去很強”。

    “現有的評價指標過于強調計算這個‘單科成績’,而忽略了系統作為一個整體的表現,從而導致有的地方會設計出一套‘偏科系統’。”上海交通大學網絡信息中心副主任、CCF高專委常務委員林新華在 CCF HPC China2022 上的發布活動中談到,這樣的“偏科系統”往往基準性能測試成績很高,但在實際使用中性能卻不好。

    林新華帶領的上海交通大學高性能計算團隊早早針對這個跨時代的命題作出了有針對性的改變。

    上海交通大學的“交我算”校級計算平臺自2013年開始建設,秉承“普惠、融合”的建設理念,經過多年發展已建設成為國內高校領先的校級計算平臺,具體包括云平臺、人工智能計算平臺、高性能計算平臺等五大計算平臺和科學大數據平臺;并打造聚合門戶,提供統一用戶入口,為師生提供“互聯網”化的計算服務。

    門檻高企的超算應用變成了“互聯網”化的計算服務,林新華介紹說:“原先三個月才能夠完成的計算量,現依靠‘交我算’平臺的超算集群僅需四天。”

    面對紛繁復雜的計算需求,“交我算”是怎么做到如此高效的?

    自2019年起,上海交通大學就與華為存儲展開深度合作,共同打造“交我算”的數據密集型超算平臺。基于華為 OceanStor,“交我算”構建了統一數據基座,將數據融合理念注入高性能計算。

    憑借其長期在超算領域里的技術與應用創新積累,華為存儲將其推出的OceanStor Pacific分布式存儲產品作為“交我算”平臺的存儲池;林新華帶領的交我算團隊則進一步將這一存儲池打造成統一的數據基座,支撐起“交我算”多種異構算力平臺。

    面對數據增長快、計算性能要求高、多元計算集群協調供給、存儲成本高昂等數據困局,華為OceanStor Pacific分布式存儲以出色的全對稱分布式架構、容量與性能的線性增長,提供面向混合負載的高性能,并針對冷、熱、溫數據存放設計智能分級算法,靈活有效地管理數據全生命周期,逐一破解超算應用中對數據存儲的多元訴求。

    數據密集型超算異軍突起

    中科院院士、CCF HPC China2022大會名譽主席陳國良曾對計算應用中的數據量激增有個貼切的比喻。他說,如果說數據是數字世界的新石油,那么“預計到2025年占比將超過80%的非結構化數據”,就是石油中的“頁巖油”。和頁巖油一樣,非結構化數據的“開采”(價值挖掘)難度更大,需要依賴更加專業化的工具。

    陳院士口中的專業化工具,就包括“面向海量數據的高性能數據分析” (High Performance Data Analysis,HPDA)。映射到超算系統,就是數據密集型超算。

    “交我算”即打造了一個典型的數據密集型超算范例。

    “過去,是數據跟著算力跑。”林新華介紹說,為了應對復雜科學和工程問題的快速數值求解,過去半世紀來,業界更多關注的是如何打造最強大的算力,而承載數據的存儲、網絡設備僅作為算力的配套設施來考慮。而今,新興應用的涌現、數據體量的劇增和數據安全問題凸顯,讓數據本身的價值愈發被廣泛認可。

    “融合AI、大數據等技術,以數據為中心,多元算力按需加持,傳統超算已逐步演變成數據密集型超算,多種異構算力緊密圍繞在同一個數據存儲周圍。”林新華說,隨著數據密集型超算的異軍突起,現在形勢發生了反轉:“算力圍著數據轉”。

    “以數據為中心”也就是以價值為中心。“交我算”率先構建起的有統一數據基座的數據密集型超算平臺,完成了對計算服務的提速。如林新華所說,從三個月到四天,計算的提速不僅大幅縮短用戶的論文投稿周期,也大大降低科研人員的試錯成本。

    “重算力、輕存力”現狀待改變

    數據密集型超算,意味著場景應用中的數據分析處理乃至單純的數據存儲是“主角”。然而,從計算機效能視角出發,面對海量數據涌入,超算不能將大量機時浪費在等數據的讀寫上——這就是傳統超算的“存儲墻”難題。

    據統計,我國存力與算力之比約為1:2,對應投資約為1:3;而美國這兩組數據均為1:1。從數據作為新生產資料的角度來看,存力的基礎地位日益彰顯。要改變當前“重算力、輕存力”的現狀,未來我國計算設施還要在存儲基座上下功夫。

    仍以“交我算”為例,“交我算”平臺提供多種異構算力,擁有ARM集群、X86集群以及AI集群等,算力性能水平在全國名列前茅;同時“交我算”同時建有存儲容量高達 35PB 的科學大數據平臺,同樣位居國內高校前列。從局外看,“交我算”的存算比相當可觀。更重要的是,在眾多集群下構建統一數據基座,可顯著促進計算平臺的全數據流動和數據融合,同時能為用戶提供最大便利、釋放算力和數據的最大價值。

    這也更加佐證了,發展數據密集型超算,意味著超算的價值能夠圍繞數據應用的全流程計算去創造。

    相關文章

    數據“中毒”會讓AI“自己學壞”

    在一個繁忙的火車站,監控攝像頭正全方位追蹤站臺的情況,乘客流量、軌道占用、衛生狀況……所有信息實時傳輸給中央人工智能(AI)系統。這個系統的任務是幫助調度列車,讓它們安全準點進站。然而,一旦有人惡意干......

    國家數據局召開推動地方數據集團創新發展專題座談會

    為推動地方數據集團創新發展,服務全國一體化數據市場培育建設,7月23日,國家數據局組織召開座談會。國家數據局黨組書記、局長劉烈宏出席會議并講話,局黨組成員、副局長沈竹林、夏冰、余英出席會議。局黨組成員......

    智能化養豬助力育種領域全新探索

    隨著人工智能(AI)、自動化等技術的持續突破,利用傳感器進行數據采集與高速傳輸,并通過物聯網存儲海量數據,正持續推進智能化養殖業發展,逐漸成為推動豬育種向精準化、高效化、智能化轉型的核心驅動力。從整個......

    國知辦印發《知識產權數據使用手冊及開放目錄》

    國家知識產權局辦公室關于印發《知識產權數據使用手冊及開放目錄》的通知國知辦函服字〔2025〕153號各省、自治區、直轄市和新疆生產建設兵團知識產權局,各地方有關中心:為促進知識產權數據開發利用,提高知......

    研究揭示地方真實數據在全球疾病負擔研究中的重要性

    2月23日,記者從海南醫科大學獲悉,該校熱帶醫學院楊國靜教授團隊近日在國際醫學期刊《英國醫學雜志》在線發表論文《中國被忽視熱帶病負擔估計的差異:真實世界數據與GBD2021的比較研究(2004—202......

    國內首個“算力生態超市”在滬“開張”

    2月21日,在上海舉行的2025年全球開發者先鋒大會上,國內首個“算力生態超市”——模速空間算力生態平臺發布。據介紹,該生態平臺由模速空間、無問芯穹和上海儀電牽頭推出,致力于打造為一個高效、便捷、安全......

    合成數據能否讓AI模型精確可靠?

    人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......

    “人民數據數融平臺”上線試運行

     12月28日,由人民數據開發的“數融平臺”正式上線試運營。平臺整體依托區塊鏈、人工智能和企業經營相關數據要素,實現鏈上信息全透明、全上鏈,實現數據資產情況全穿透,實時追蹤一手風控數據,對潛......

    五部門制定數據產業發展促進政策

    隨著新一輪科技革命和產業變革深入發展,數據作為關鍵生產要素的價值日益凸顯。五部門:制定數據產業發展促進政策近日,國家數據局聯合中央網信辦、工業和信息化部、公安部、國務院國資委印發了《關于促進企業數據資......

    加強算力網絡建設推進我國從算力大國邁向算力強國

    工業和信息化部總工程師趙志國日前表示,將加快制定算力互聯互通、算力市場培育等行動方案,建立健全算力網絡協同發展的標準規范體系,增強算網融合能力,加速構建全國統一的算力服務大市場。隨著新一輪科技革命和產......

  • <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    伊人久久大香线蕉综合影院首页