• <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    發布時間:2023-05-19 11:38 原文鏈接: 這位研究員發論文有“嚴重拖延癥”

    “這篇文章的技術因為申請專利耽誤了發表,如果早幾年投出,說不定能投中Science、Nature、Cell。”

    3月17日,《醫學病毒學雜志》(Journal Of Medical Virology)在線刊發了中國科學院昆明動物研究所(以下簡稱昆明動物所)研究員馬占山的一篇論文,文章提出了一種比較病毒組(VC)的新算法,能夠高效率地找出某一病毒組特有或者富集的病毒種類等功能。《醫學病毒學雜志》目前的影響因子是20.7,在病毒學領域排名第二。

    日前,馬占山在接受《中國科學報》采訪時講述了文章發表背后的故事:“2017年1月我申請受理的專利在2022年第一次審查中被駁回了,也因此錯失了發表論文的最佳時間,但還是很高興這項研究成果可以公開發表,我也會繼續申請專利,此次發表的成果僅僅是這項技術研究的一小部分。”

    距離第三個博士學位“就差一篇論文”

    “當年,我不希望別人知道我們對于這項技術的研究,起初也沒有計劃申請專利,甚至想過自己要不要拿著技術去開公司。”

    馬占山是這篇論文唯一的作者。他一邊解釋為什么只有一個作者,一邊略有遺憾地說道:“雖然現在看來,我當年的研究已經沒有那么超前。”

    “至于唯一作者原因,其實也很簡單:一是我學科組人少,畢業博士生少則4-5篇論文,多則10來篇,個別畢業時已經有通訊作者論文了。二是這篇論文的研究方法確實只有兩個人完成,但這次發表的論文只是該方法部分內容,其它論文還在審稿中,只是這一篇最早發表了。”馬占山解釋說。

    就在采訪前一晚,馬占山工作到凌晨三點,但他的臉上看不到絲毫疲憊。

    馬占山不僅是一個“工作狂”,還是一個“跨界”人才。他擁有昆蟲學和計算機科學兩個博士學位,曾在美國硅谷干了10年軟件工程師,2010年回國加入昆明動物所后,從事計算生物學研究。

    這篇論文也是馬占山“跨界”研究的產物之一。

    1997年7月,馬占山在美國愛達荷大學完成了昆蟲學博士畢業論文,并順利通過答辯獲得學位,但那篇論文當時并沒有公開發表。同年12月拿到計算機科學碩士學位,隨后他投身產業界,并在2006年重回愛達荷大學,攻讀計算機科學博士學位,僅用26個月就拿下第二個博士學位。

    2008年,馬占山成為愛達荷大學的一位科研人員。這時,他才將自己寫好快10年的昆蟲學博士論文拿出來投稿,并順利發表。隨后的兩年,馬占山在昆蟲學領域一流期刊上,一口氣發表了7篇論文。“這些文章很早就開始醞釀,卻遲遲未成稿。”馬占山自嘲“有嚴重拖延癥”。

    當年,馬占山的計算機科學博士論文被Springer相中,雙方在2011年簽訂了優秀博士論文叢書出版的合同,后來約定等馬占山將論文內容補充完善成專著后出版發行。“對方至今仍在等我交稿。”馬占山不好意思地告訴《中國科學報》,此次發表論文核心算法內容其實擱置也有7~8年了。

    在“拖延”的同時,馬占山還在不斷地學習。快拿到計算機科學博士學位時,馬占山還在尋思:“要不要再拿一個金融數學的博士學位。”實際上,在那之前他已經選修或旁聽完數學專業博士研究生的大部分必修課程,用他的話說:“距離學位就差一篇論文。”

    最有價值的技術專利被駁回

    “關于VC算法,我大概在2016年前后就已經開始思考,當年主要看中其應用前景,于是奔著申請專利去了。”馬占山說,“如果先發表論文,就意味著要公開VC算法,可能會影響專利的新穎性。”

    申請專利和發表論文博弈的結果是,馬占山選擇了專利。

    截至目前,馬占山已經申請了近二十項專利。2021年這一年時間里,馬占山學科組有6項發明專利獲授權。但令他“傷感”的是,這些年他還有3項專利被駁回,并且都是他認為最有價值的技術,包括了VC算法的一部分,也包括了兩項關于母乳菌群的技術。

    “馬兄,我看到美國治療乳腺炎的指南跟你那篇論文非常接近,你的專利怎么樣了?”2022年,馬占山收到好友——成都市婦女兒童中心醫院乳腺外科主任寧平的電話。這通電話的起因是2017年前后,寧平等人專門來到昆明拜訪馬占山學科組,只因讀完了馬占山學科組關于乳腺炎病因論文后非常受啟發。

    馬占山有時并不在意別人的看法,在研究世界里他一直追求極致,這也是他很多文章在延遲10年后仍可以順利發表的原因。

    要比較兩個或多個病毒組,找出其特有或者富集的病毒種類是一個貌似簡單的問題,但實際上是一個非常復雜的計算問題。馬占山告訴《中國科學報》,類似問題在計算機科學領域屬于NP-hard問題。

    馬占山以推銷員最短路徑(TSP)問題為例,介紹了什么是NP-hard問題。TSP問題最早提出于19世紀,推銷員需要訪遍N個城市,但禁止重復訪問。推銷員為了節省時間,希望獲得最短路徑。如果是個位數以內的城市,小學生甚至幼兒園的小朋友都可以給出答案。但當城市增加到一定數量后,問題難度也會直線上升。

    “簡單說,對于此類問題,當規模大到一定程度時,即使用最強大的計算機仍然可能無法獲得問題的最優解。”馬占山選擇向此難題發起了挑戰,成功開發了VC算法。

    “人體腸道病毒個體數量則高達380億,在其中尋找某個病毒可謂大海撈針,太難了。”馬占山說,VC算法可以為比較研究病毒組提供一套嶄新的算法和軟件技術。

    希望這一次不要再拖延

    回國以來,馬占山學科組一直專注于開發基因測序軟件。他告訴《中國科學報》:“當時第二代測序技術占據絕對市場,我們與美國馬里蘭大學葉承羲博士合作研發了一款用于第二代測序的算法和軟件,將其命名為 SparseAssembler。軟件公布后不久,華大基因采用了我們算法,將其當年的旗艦軟件SoapDenovo升級為SoapDenovo-II。該算法的采用可以節省計算機內存達90%。”

    2012至2016年前后,隨著第三代基因測序技術的出現,馬占山與葉承羲進一步合作又發布了另外兩款軟件,分別為DBG2OLC和Sparc。他介紹,當年這兩款軟件大幅度縮短了測序時間,從當時主流的幾十萬CPU小時縮減到了上千CPU小時,在三代測序軟件技術領域算得上是重大突破,其核心算法為后來幾乎所有三代測序所采用。

    2018年,馬占山學科組還與其他團隊合作開發了一款技術,將第四代測序技術(Nanopore)和10X-Genomics 測序技術相結合,實現混合組裝,可以降低第四代測序成本達70%。 他還提到,“這些技術我們都申請了專利,有些早已授權,但顯然沒有時間去探究專利維權”。

    談及專利,馬占山頗有感觸:“我曾就職于某芯片巨頭公司,但后來發現這樣的大公司也存在技術不夠高精的窘境,甚至還夾帶不少濫竽充數的專利。于是我選擇加入硅谷一家初創軟件公司,該公司當年靠一項專利讓股票市值達到30億美元,但最終倒在了互聯網泡沫之中。”

    馬占山任職過的巨頭公司,是需要養活10萬員工、三班倒的芯片制造商;初創公司則沒有一個藍領,是一家純軟件設計公司,很多員工來自斯坦福大學、加州大學伯克利分校等。但白領還是敗給了藍領,或許這就是所謂世事難料。

    這兩段工作經歷讓馬占山明白,要在產業界存活,光有專利這把利劍還遠不夠。

    “靠軟件,我們很難發表高影響因子論文。”2018年前,馬占山學科組的考核一直是B,這也讓他開始為學科組的前途和命運暗自擔憂。

    于是,馬占山將研究重點轉向菌群醫學生態學。2019年這一年,馬占山學科組迎來了小高潮,連發三篇9分以上的論文,學科組考核也從B升至A。

    菌群醫學生態學也為馬占山贏來了另外一項榮譽——美國哈佛大學于2020年2月授予馬占山Bullard Fellow獎,該獎始于1959年,每年從全球推選5~7位事業有成(mid-career)的高級訪問學者,資助其在哈佛開展為期一年的講學和合作研究。

    由于疫情,馬占山出訪哈佛推遲到了2023-2024年度,他將在哈佛撰寫一部關于菌群生態與進化研究的專著。“別人走一遍路,我卻走了兩遍。”馬占山感嘆道,自己很多成果因各種原因耽誤了在第一時間發表,結果在幾年后不得不再走一遍發表的流程,希望自己這一次不要再拖延。

    相關論文信息:https://doi.org/10.1002/jmv.28682


  • <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    伊人久久大香线蕉综合影院首页