圖片來源@視覺中國

如何從3000萬到1億個圖中快速找到一顆脈沖星?

或許只能交給AI了。

在剛剛過去的2022世界人工智能大會(WAIC)上,一個消息不脛而走——在過去一年時間里,復(fù)旦大學(xué)池明旻教授科研團隊發(fā)現(xiàn)了22顆脈沖星。除了助力中國探星之路再進(jìn)一步,這件事的意義還在于,該項目將人工智能與天文學(xué)跨領(lǐng)域融合,在脈沖星模型算法方面取得了突出成果。

發(fā)現(xiàn)脈沖星,難在哪兒?

脈沖星被認(rèn)為是浩瀚宇宙中的“燈塔”,由于其規(guī)律性的脈沖信號可作為宇宙導(dǎo)航器而得名,是宇宙中磁場最強的天體,具有非常高的天文學(xué)研究價值。自1967年脈沖星被英國射電天文學(xué)家發(fā)現(xiàn)以來,人類一直沒有停止對脈沖星的探索,并且搜尋脈沖星的科研方法也在不斷升級。

2016年,中國位于中國貴州黔南的500米口徑球面射電望遠(yuǎn)鏡(Five-hundred-meter Aperture Spherical radio Telescope,F(xiàn)AST)投入試運行,作為全球范圍內(nèi)最大的射電望遠(yuǎn)鏡,F(xiàn)AST對于脈沖星的研究發(fā)現(xiàn)具有關(guān)鍵作用。

從搜尋脈沖星的整個鏈路看來,FAST主要解決了脈沖星的信號收集問題,后續(xù)在通過專業(yè)的天文軟件對信號做圖形轉(zhuǎn)化的預(yù)處理上需要耗費龐大的計算資源。預(yù)處理完成后,天文科研工作者需要從預(yù)處理生成的上億張圖片中完成脈沖星的特征比對,從而找到潛在的脈沖星。

據(jù)池明旻教授介紹,因為FAST是公共的科技基礎(chǔ)設(shè)施,其帶領(lǐng)的天文科研團隊每周只能申請到500TB的FAST數(shù)據(jù)給到脈沖星搜索項目,但這500TB的數(shù)據(jù)經(jīng)過預(yù)處理之后會產(chǎn)生3000-1億張圖片,以往從這近1億張圖片中尋找脈沖星,可能需要1-2個科研工作者花上一年時間完成,是個非常大的工程。

數(shù)據(jù)量大只是其一,更難的一點在于,脈沖星的現(xiàn)有樣本量較少。自FAST啟用以來,中國發(fā)現(xiàn)的脈沖星一共有600多顆,池明旻團隊用于訓(xùn)練AI模型的樣本則更少,也只有100顆左右。正是囿于這一局限,國家天文臺此前已有的脈沖星AI篩選模型準(zhǔn)確率有很大提升空間。

兩大難點,讓發(fā)現(xiàn)脈沖星這件看起來非??岬氖虑轱@得并不那么性感。

池明旻教授坦言,項目剛開始也有超算平臺可以選擇,但是算力平臺往往只提供算力,在技術(shù)上鮮有支持。“超算平臺的使用需要投入非常多的技術(shù)人員,但是在校學(xué)生都不太擅長。”她描述當(dāng)時的情況。

轉(zhuǎn)機發(fā)生在2021年前后,彼時騰訊優(yōu)圖從基礎(chǔ)研究到產(chǎn)業(yè)落地的戰(zhàn)略正在全面鋪開,亟需尋找產(chǎn)業(yè)場景。了解到池明旻的關(guān)于脈沖星的科研項目后,騰訊優(yōu)圖與其取得了聯(lián)系。后來,雙方于極短的時間內(nèi)在脈沖星項目上一拍即合,并在2021年7月的WAIC上宣布了“探星計劃”。

“騰訊團隊技術(shù)人員投入非常大,預(yù)處理算法基本不用我們做,都交給他們來部署。后面關(guān)于脈沖星的AI模型雙方共同優(yōu)化。”池明旻表示。

最終,在脈沖星AI模型的優(yōu)化中,雙方取得了多模態(tài)&半監(jiān)督AI的解決方案創(chuàng)新。這一越來越精準(zhǔn)的脈沖星模型算法,將在不久的將來向?qū)ν忾_放。

為什么是多模態(tài)&半監(jiān)督

數(shù)據(jù)顯示,多模態(tài)+半監(jiān)督學(xué)習(xí)的AI解決方案,相比國家天文臺原有的AI篩選模型具有更高的召回率,且誤報率下降98%。

那么,脈沖星為什么要多模態(tài)與半監(jiān)督學(xué)習(xí)相結(jié)合的AI解決方案才有效果?

池明旻表示,F(xiàn)AST收集回來的太空信號是一個時間周期信號,這些信號轉(zhuǎn)化成圖像后,像一個3D物體,從不同維度去看會獲得不一樣的信息。判斷是否是脈沖星的維度有很多,比如色散、向位等等。“基于多的信息的輸入,綜合去評價這個信號到底是不是脈沖星,在這種情況下肯定會比常規(guī)基于信號的直接分析,效果會比較好一些。”  她解釋稱。而AI算法要做的就是,要將這些不同維度的數(shù)據(jù)同脈沖星的特征數(shù)據(jù)做比對,找出潛在脈沖星。

在半監(jiān)督方面, 正如上文提到科研工作者可能每1億張圖片才能找出1顆脈沖星,這1億張圖片如果人工去做標(biāo)注非常不現(xiàn)實,而且對樣本學(xué)習(xí)量的要求比較大。而半監(jiān)督學(xué)習(xí)是一種使用大量未標(biāo)記數(shù)據(jù),以及同時使用標(biāo)記數(shù)據(jù),來進(jìn)行計算的小樣本研究的常用手段。

“我們所謂的小樣本就是數(shù)據(jù)量比較小的情況下做數(shù)據(jù)增強,比如通過仿真做噪聲模擬,這樣原本的幾百張樣本可能就會變成幾千張。”池明旻解釋。

總體來講,在騰訊優(yōu)圖實驗室總監(jiān)汪鋮杰看來,能夠輔助池明旻教授團隊進(jìn)行脈沖星的發(fā)現(xiàn)研究其實與騰訊優(yōu)圖一直以來在數(shù)據(jù)增強、小樣本研究的積累分不開。例如在數(shù)據(jù)增強方面,騰訊優(yōu)圖也在做相關(guān)的內(nèi)容研究項目,與我們當(dāng)前已經(jīng)使用到現(xiàn)實生活中的畫質(zhì)優(yōu)化本質(zhì)上是同一個邏輯,就是把自然界拍好的噪音水平加到高畫質(zhì)圖像中來構(gòu)建高清和降質(zhì)之間的關(guān)聯(lián)學(xué)習(xí)。

騰訊優(yōu)圖此前工業(yè)AI質(zhì)檢的項目中就做了很多小樣本研究的積累。“一些生產(chǎn)精度已經(jīng)很高的精密制造企業(yè),良品率已經(jīng)99%,一個缺陷品要等很久才有,有些缺陷品出現(xiàn)的概率可能是萬分之一,這個時候我們要么拿到100個有缺陷的樣品,要等這個生產(chǎn)線生產(chǎn)100萬個零件,而如果說我們要1萬個有缺陷樣本,可能要等生產(chǎn)線生產(chǎn)100萬個零件,時間上已經(jīng)不現(xiàn)實。”汪鋮杰補充。

會上,騰訊云副總裁、騰訊優(yōu)圖實驗室總經(jīng)理吳運聲也表示,騰訊的工業(yè)AI基礎(chǔ)技術(shù)集中在工業(yè)成像、基礎(chǔ)算法、高效學(xué)習(xí)以及仿真生成四個方面,通過這四部分能力已打造超過10個細(xì)分領(lǐng)域外觀檢測的解決方案。未來這些基礎(chǔ)技術(shù)也將有望像更多場景落地應(yīng)用。

在世界人工智能大會上,國家天文臺-騰訊天體AI探星計劃獲得世界人工智能大會SAIL之星獎(Super AI Leader)。更進(jìn)一步,騰訊與國家天文臺也在以“AI+云”開啟M31仙女座星系中脈沖星類致密天體的最深度完整探測。

(本文首發(fā)鈦媒體APP 作者 | 秦聰慧)

本文系作者 DeepWrite秦報局 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬桶石油繞過霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應(yīng)鏈

12:58

全國累計器官捐獻(xiàn)志愿登記人數(shù)超過733萬

12:46

宇樹科技具身智能體驗館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬人參加“不要國王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長29.3%

11:48

中國首臺商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年營收增長25%,虧損收窄

10:14

廣東省市場監(jiān)管局聯(lián)合廣州市市場監(jiān)管局召開平臺企業(yè)座談會

10:10

貝殼啟動戰(zhàn)略變革:管理者站上一線,經(jīng)紀(jì)人KPI減負(fù)

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計全球每年逾25萬人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

掃描下載App