圖片來源@視覺中國

一起近百位國內(nèi)AI大牛參與的論文被爆出抄襲,讓中國人工智能(AI)學(xué)術(shù)圈頓時(shí)處于風(fēng)口浪尖。

鈦媒體App 4月14日消息,谷歌大腦(Google Brain)團(tuán)隊(duì)著名科學(xué)家Nicholas Carlini 近日發(fā)表的一篇博客中指控:由北京智源人工智能研究院團(tuán)隊(duì)牽頭,刊登在論文預(yù)印網(wǎng)站Arxiv的一篇中國學(xué)術(shù)綜述論文《關(guān)于“大模型”的路線圖》(“A Roadmap for Big Model”)一文涉嫌嚴(yán)重抄襲。

Nicholas Carlini在博客文章《機(jī)器學(xué)習(xí)研究中的一個(gè)抄襲案例》中則詳細(xì)列舉了上述中國團(tuán)隊(duì)論文存在大段抄襲其他論文的嫌疑,證據(jù)是大規(guī)模的文本重疊,疑似被剽竊的論文也包括他更早發(fā)布的《去重訓(xùn)練數(shù)據(jù)使語言模型更好》(Deduplicating Training Data Makes Language Models Better),部分內(nèi)容一模一樣。諷刺的是,后者這篇被抄襲的論文,研究的主題正是數(shù)據(jù)去重和查重。

據(jù)悉,指控抄襲的這篇國內(nèi)學(xué)術(shù)論文發(fā)表于今年3月26日,由國內(nèi)外多家高校和企業(yè)共同完成,長(zhǎng)達(dá)200多頁,本論文有多達(dá)100名作者,分別來自于清華大學(xué)、北京大學(xué)、中國人民大學(xué)、上海交通大學(xué)、哈爾濱工業(yè)大學(xué)、哥倫比亞大學(xué)、蒙特利爾大學(xué)等國內(nèi)外高校,以及字節(jié)跳動(dòng)、華為、京東、騰訊等企業(yè)以及中科院、微軟亞洲研究院和北京智源AI研究院等機(jī)構(gòu)。

針對(duì)此事,鈦媒體App獲悉,該論文組織方“北京智源人工智能研究院”(以下簡(jiǎn)稱“智源研究院”)于4月13日晚發(fā)表了一份1000字左右的《關(guān)于“A Roadmap for Big Model”綜述報(bào)告問題的致歉信》

智源研究院在致歉信中稱,經(jīng)過逐項(xiàng)核查與差重,確認(rèn)共計(jì)五篇文章章節(jié)、613詞的內(nèi)容與其他論文重復(fù),應(yīng)屬抄襲。團(tuán)隊(duì)決定立即從報(bào)告中刪除相應(yīng)內(nèi)容,報(bào)告修訂版今天將提交arXiv進(jìn)行更新。目前已通知所有文章的作者對(duì)所有內(nèi)容進(jìn)行全面審查,后續(xù)經(jīng)嚴(yán)格審核后再發(fā)布新版本。

“智源作為該報(bào)告的組織者,理應(yīng)對(duì)各篇文章的所有內(nèi)容進(jìn)行嚴(yán)格審核,出現(xiàn)這樣的問題難辭其咎。對(duì)此我們深感自責(zé),特別感謝學(xué)術(shù)界和媒體的朋友們幫助我們發(fā)現(xiàn)問題。我們將深刻吸取教訓(xùn),整改科研管理和論文發(fā)表流程,希望各界朋友監(jiān)督我們工作。”智源研究院方面表示。

智源研究院方面表示,下一步,團(tuán)隊(duì)將以此為戒,即日啟動(dòng)邀請(qǐng)第三方專家對(duì)報(bào)告進(jìn)行獨(dú)立審查,根據(jù)正式調(diào)查結(jié)果對(duì)相關(guān)責(zé)任人作出問責(zé)處理。并進(jìn)一步完善制度管理,通過更加嚴(yán)格的審核機(jī)制和更加明確的懲戒措施,對(duì)研究院內(nèi)部以及支持的科研人員加強(qiáng)學(xué)風(fēng)教育,防范同類事件的再次發(fā)生。
致歉信內(nèi)容截圖

致歉信內(nèi)容截圖

16篇文章部分存在抄襲,中國大模型論文引起學(xué)術(shù)爭(zhēng)議

據(jù)智源研究院介紹,被指控的學(xué)術(shù)綜述論文《關(guān)于“大模型”的路線圖》報(bào)告是一篇大模型領(lǐng)域的綜述,希望盡可能涵蓋國內(nèi)外該領(lǐng)域的所有重要文獻(xiàn),由智源研究院牽頭,負(fù)責(zé)框架設(shè)計(jì)和稿件匯總,并邀請(qǐng)國內(nèi)外100位科研人員分別撰寫了16篇獨(dú)立的專題文章,每篇文章分別邀請(qǐng)了一組作者撰寫并單獨(dú)署名,共257頁。報(bào)告發(fā)布后,根據(jù)反饋持續(xù)進(jìn)行修改完善,到4月2日在arXiv網(wǎng)站上已經(jīng)更新到第三版。

本論文由悟道大模型研究項(xiàng)目負(fù)責(zé)人、清華大學(xué)計(jì)算機(jī)系教授、智源研究院學(xué)術(shù)副院長(zhǎng)唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索4個(gè)層面出發(fā),詳細(xì)對(duì)15個(gè)具體領(lǐng)域的16個(gè)相關(guān)主題進(jìn)行全面介紹和探討。

據(jù)悉,論文研究主體“大模型”,為目前世界AI研究領(lǐng)域最熱門的話題之一。AI 技術(shù)發(fā)展到今天,GPT和BERT等參數(shù)量巨大的模型被人們開發(fā)出來,他們?cè)谟?jì)算機(jī)視覺和自然語言處理等領(lǐng)域取得了前所未有的成就。同時(shí),因?yàn)榇竽P蛥?shù)量巨大,最近學(xué)術(shù)界開始將它們當(dāng)作一類特別的 AI 模型進(jìn)行研究。

早在2021年6月1日的北京智源大會(huì)上,唐杰發(fā)布了“悟道 2.0”人工智能巨模型。它以1.75萬億參數(shù)量,打破了此前谷歌Switch Transformer預(yù)訓(xùn)練模型創(chuàng)造的1.6萬億參數(shù)記錄,成為了全球最大的預(yù)訓(xùn)練模型,也是中國第一個(gè)超大規(guī)模預(yù)訓(xùn)練模型,取得了多項(xiàng)國際領(lǐng)先的AI技術(shù)突破和多個(gè)世界第一。

唐杰在會(huì)上稱,“悟道”由智源研究院牽頭,匯聚清華、北大、人大、中科院等高校院所以及諸多企業(yè)的100余位AI領(lǐng)域?qū)<摇?br />清華大學(xué)計(jì)算機(jī)系教授、北京智源人工智能研究院副院長(zhǎng) 唐杰(來源:智源研究院官網(wǎng))

清華大學(xué)計(jì)算機(jī)系教授、北京智源人工智能研究院副院長(zhǎng) 唐杰(來源:智源大會(huì)官網(wǎng))

今年3月31日,北京智源社區(qū)撰文介紹了最新的《關(guān)于“大模型”的路線圖》論文:

“隨著以深度學(xué)習(xí)為代表的AI技術(shù)的快速發(fā)展,智能模型的訓(xùn)練應(yīng)用模式逐漸由‘大煉模型’向‘煉大模型’轉(zhuǎn)變。大模型研究在近年來發(fā)展迅速,模型的參數(shù)量以驚人的速度擴(kuò)展。北京智源人工智能研究院最近發(fā)布的《關(guān)于“大模型”的路線圖》由悟道大模型研究項(xiàng)目負(fù)責(zé)人,智源學(xué)術(shù)副院長(zhǎng),清華大學(xué)計(jì)算機(jī)系教授唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索4個(gè)層面出發(fā),對(duì)15個(gè)具體領(lǐng)域的16個(gè)相關(guān)主題進(jìn)行全面介紹和探討。非常值得關(guān)注。”

不過,谷歌大腦團(tuán)隊(duì)著名科學(xué)家Nicholas Carlini卻在博客指出,上述論文有大量段落涉嫌抄襲,被抄襲的可能至少包括他自己發(fā)表的論文在內(nèi)十余篇文章。
圖源:Nicholas Carlini博客

論文抄襲部分段落(圖片來源:Nicholas Carlini博客)

鈦媒體查閱arXiv發(fā)現(xiàn),Nicholas Carlini的論文上傳時(shí)間為去年七月份,而智源研究院領(lǐng)銜的論文則上傳時(shí)間在今年3月。

根據(jù)智源研究院致歉信中的表述,經(jīng)查重確認(rèn),本論文第2篇文章的第3.1節(jié)179個(gè)詞,第8篇文章的第3.1節(jié)74個(gè)詞、第12篇文章的第2.3節(jié)55個(gè)詞、第14篇文章的第2節(jié)159個(gè)詞、第16篇文章的第1節(jié)146個(gè)詞與其他論文重復(fù),應(yīng)屬抄襲。

Nicholas Carlini表示,很可能只有少數(shù)作者參與了這種抄襲,一小部分作者的不當(dāng)行為不應(yīng)該被用來指責(zé)大多數(shù)行為良好的作者。

事實(shí)上,這篇抄襲的論文之所以得到關(guān)注,除了他是中國 AI 學(xué)術(shù)論文之外,更重要的是,大模型論文作者署名甚至多達(dá)100人,其中不乏國內(nèi)AI業(yè)界和學(xué)界的知名學(xué)者,供職機(jī)構(gòu)更是把中國知名高校和互聯(lián)網(wǎng)巨頭幾乎一網(wǎng)打盡。

這其中包括清華大學(xué)計(jì)算機(jī)系教授、人工智能研究院基礎(chǔ)研究中心主任朱軍,他曾獲得科學(xué)探索獎(jiǎng)、CCF自然科學(xué)一等獎(jiǎng)、《麻省理工科技評(píng)論》“35歲以下科技創(chuàng)新35人”等重要獎(jiǎng)項(xiàng);以及中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長(zhǎng),信息學(xué)院院長(zhǎng),大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室主任文繼榮教授等。當(dāng)然還有牽頭的通訊作者、國際計(jì)算機(jī)學(xué)會(huì)會(huì)士、清華大學(xué)計(jì)算機(jī)系教授唐杰。

目前,這篇被質(zhì)疑的論文已經(jīng)被Arxiv網(wǎng)站上備注了該文和Nicholas Carlini的論文有“文本重疊”(text overlap)。

中國正重拳打擊論文抄襲等學(xué)術(shù)不端行為

這一論文抄襲事件,可能會(huì)給中國 AI 學(xué)術(shù)研究熱潮造成一定打擊。

去年6月,清華大學(xué)人工智能研究院等機(jī)構(gòu)聯(lián)合發(fā)布的《人工智能全球2000位最具影響力學(xué)者報(bào)告》指出,近年來中國的研究熱度已經(jīng)趕超美國。

根據(jù)美國斯坦福大學(xué)發(fā)布《2021年人工智能指數(shù)報(bào)告》中指出,在期刊論文總數(shù)超過美國的若干年后,2021年,中國 AI 期刊論文被引量超過美國,拿下了世界第一。而論文引用量在學(xué)術(shù)研究界是衡量一篇科研文獻(xiàn)被其他機(jī)構(gòu)學(xué)者認(rèn)可的數(shù)據(jù),上述報(bào)告顯示,2020年中國研究機(jī)構(gòu)比美國少發(fā)了近1400篇會(huì)議論文,但被引量相差了一萬多次。

滑鐵盧大學(xué)教授Gautam Kamath表示,對(duì)于上述這篇有如此多作者的文章,他很驚訝沒有一個(gè)作者注意到相似之處并且去改正它。

實(shí)際上,自2018年起,由于國外期刊頻繁撤回國內(nèi)學(xué)者論文,中國開始加大對(duì)論文抄襲、學(xué)術(shù)不端、存在造假、不當(dāng)署名等行為的嚴(yán)厲查處力度。

2018年5月,中央印發(fā)《關(guān)于進(jìn)一步加強(qiáng)科研誠信建設(shè)的若干意見》,并發(fā)出通知,要求各地區(qū)各部門結(jié)合實(shí)際認(rèn)真貫徹落實(shí)。

其中重點(diǎn)提到:從事科研活動(dòng)和參與科技管理服務(wù)的各類人員要堅(jiān)守底線、嚴(yán)格自律。科研人員要恪守科學(xué)道德準(zhǔn)則,遵守科研活動(dòng)規(guī)范,踐行科研誠信要求,不得抄襲、剽竊他人科研成果或者偽造、篡改研究數(shù)據(jù)、研究結(jié)論;不得購買、代寫、代投論文,虛構(gòu)同行評(píng)議專家及評(píng)議意見;不得違反論文署名規(guī)范,擅自標(biāo)注或虛假標(biāo)注獲得科技計(jì)劃(專項(xiàng)、基金等)等資助;不得弄虛作假,騙取科技計(jì)劃(專項(xiàng)、基金等)項(xiàng)目、科研經(jīng)費(fèi)以及獎(jiǎng)勵(lì)、榮譽(yù)等;不得有其他違背科研誠信要求的行為。

若干意見中強(qiáng)調(diào),科技部要建立學(xué)術(shù)期刊預(yù)警機(jī)制,支持相關(guān)機(jī)構(gòu)發(fā)布國內(nèi)和國際學(xué)術(shù)期刊預(yù)警名單,并實(shí)行動(dòng)態(tài)跟蹤、及時(shí)調(diào)整。將罔顧學(xué)術(shù)質(zhì)量、管理混亂、商業(yè)利益至上,造成惡劣影響的學(xué)術(shù)期刊,列入黑名單。

2020年9月22日,教育部、國家發(fā)展改革委、財(cái)政部發(fā)布了《關(guān)于加快新時(shí)代研究生教育改革發(fā)展的意見》,針對(duì)學(xué)位“注水”問題指出培養(yǎng)單位要抓住課程學(xué)習(xí)、實(shí)習(xí)實(shí)踐、學(xué)位論文開題、中期考核、論文評(píng)閱和答辯、學(xué)位評(píng)定等關(guān)鍵環(huán)節(jié),細(xì)化強(qiáng)化導(dǎo)師、學(xué)位論文答辯委員會(huì)和學(xué)位評(píng)定委員會(huì)權(quán)責(zé)。

“對(duì)學(xué)術(shù)不端、學(xué)位注水的問題,我們堅(jiān)持零容忍,發(fā)現(xiàn)一起、查處一起,露頭就打,堅(jiān)決確保學(xué)位授予的含金量……”教育部方面人士表示。

據(jù)科技部公布的教育、醫(yī)療機(jī)構(gòu)醫(yī)學(xué)科研誠信案件調(diào)查處理結(jié)果,自2021年下半年以來,約520起醫(yī)療科研學(xué)術(shù)不端案件遭通報(bào),案件涉240余個(gè)教育、醫(yī)療機(jī)構(gòu),超600名醫(yī)務(wù)人員遭懲處。

盡管中國不斷嚴(yán)厲查處相關(guān)事件,但中國學(xué)者的論文造假、抄襲等學(xué)術(shù)不端行為依然屢禁不止。

根據(jù)今年1月27日,科技部指出,最新一批有46起涉嫌論文抄襲、學(xué)術(shù)不端、存在造假、不當(dāng)署名等行為。其中,青島大學(xué)被通報(bào)共18起,占據(jù)此次調(diào)查處理結(jié)果的近1/3。

更早之前,在2020年新冠疫情期間,國際同行評(píng)議的期刊發(fā)表的121篇中國作者的相關(guān)科研論文中,重復(fù)使用了一些相同的圖片樣本,而且每一篇論文都至少有一幅圖像與另一篇論文相同。這些論文由大約50個(gè)城市的醫(yī)院和醫(yī)學(xué)院的研究人員發(fā)表。
期刊出版社、中介公司、“論文工廠”、以及作者之間形成了一個(gè)錯(cuò)綜復(fù)雜的利益鏈(來源:知識(shí)分子公眾號(hào))

期刊出版社、中介公司、“論文工廠”、以及作者之間形成了一個(gè)錯(cuò)綜復(fù)雜的利益鏈(來源:知識(shí)分子公眾號(hào))

多位學(xué)術(shù)界業(yè)內(nèi)人士告訴鈦媒體App,論文抄襲、學(xué)術(shù)造假等學(xué)術(shù)不端事件頻出的背后原因,主要是中國教育乃至于整個(gè)學(xué)術(shù)圈的評(píng)價(jià)體系,擁有隱秘而成熟的利益鏈,形成了灰色地帶“論文工廠”。其中有人生產(chǎn)和販賣假論文,也有院士、教授、醫(yī)生、教師、研究人員為了尋求職業(yè)晉升與經(jīng)濟(jì)回報(bào),不知不覺中推動(dòng)了這個(gè)行業(yè)的發(fā)展壯大。

因此,中國需要更多的關(guān)注和干預(yù)措施。

2020年2月,科技部印發(fā)《關(guān)于破除科技評(píng)價(jià)中 “唯論文” 不良導(dǎo)向的若干措施(試行)》通知,強(qiáng)調(diào)重視分類考核評(píng)價(jià)、注重評(píng)估成果的經(jīng)濟(jì)社會(huì)價(jià)值和影響力等。

2020年7月29日,國家科技部與國家自然科學(xué)基金委員會(huì)發(fā)布的《關(guān)于進(jìn)一步壓實(shí)國家科技計(jì)劃(專項(xiàng)、基金等)任務(wù)承擔(dān)單位科研作風(fēng)學(xué)風(fēng)和科研誠信主體責(zé)任的通知》中,明確應(yīng)科學(xué)、理性看待學(xué)術(shù)論文,注重論文質(zhì)量和水平,不將論文發(fā)表數(shù)量、影響因子等與獎(jiǎng)勵(lì)獎(jiǎng)金掛鉤,不使用國家科技計(jì)劃(專項(xiàng)、基金等)專項(xiàng)資金獎(jiǎng)勵(lì)論文發(fā)表。

不過,“論文造假” 倒逼科研評(píng)價(jià)體系改革,但到底什么是更好的評(píng)價(jià)體系,如何將更公平的評(píng)估落到實(shí)處,可能還需要一個(gè)逐步探索的過程。

(本文首發(fā)鈦媒體App,作者|林志佳)

本文系作者 林志佳 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
  • 怪不得被卡脖子

    回復(fù) 2022.04.17 · via iphone
  • 科研是漫長(zhǎng)而艱難的道路,萬萬不可抄襲功利

    回復(fù) 2022.04.16 · via android
  • 近年來論文抄襲現(xiàn)象屢見不鮮,見怪不怪了

    回復(fù) 2022.04.15 · via pc
  • 那些抄襲的人真是敗壞我國科學(xué)家在國際上的榮譽(yù)

    回復(fù) 2022.04.15 · via android
  • 組織方竟然不去仔細(xì)審查,有很大責(zé)任

    回復(fù) 2022.04.15 · via pc
  • 簡(jiǎn)直讓人不敢相信,如此高端的論文也會(huì)涉嫌抄襲

    回復(fù) 2022.04.15 · via h5
  • 有一百來位作者,抄襲應(yīng)該只是幾個(gè)人吧

    回復(fù) 2022.04.15 · via h5

快報(bào)

更多

07:29

華泰證券:關(guān)注低估值、低擁擠度的交集和高油價(jià)潛在受益行業(yè)

07:28

夏秋新航季航線網(wǎng)絡(luò)持續(xù)優(yōu)化,國際航線進(jìn)一步拓展完善

07:09

一季度業(yè)績(jī)預(yù)告加速披露,近九成公司預(yù)喜

07:08

港股IPO活力持續(xù)釋放,科技賽道成資本“新寵”

07:06

美聯(lián)儲(chǔ)4月維持利率不變的概率為97.9%

07:01

港股IPO動(dòng)態(tài):今日華沿機(jī)器人等5股上市

07:01

A股IPO動(dòng)態(tài):今日悅龍科技上市

2026-03-29 22:59

以色列一工業(yè)區(qū)遭襲,危險(xiǎn)物質(zhì)泄漏

2026-03-29 22:22

海南自由貿(mào)易港民營企業(yè)座談會(huì)舉行

2026-03-29 22:12

中國科學(xué)院院士:全固態(tài)電池或至少再等5年

2026-03-29 22:11

今年以來逾1370萬人次旅客訪港

2026-03-29 22:08

下周(3月30日-4月5日)市場(chǎng)大事預(yù)告

2026-03-29 22:06

民調(diào)顯示美國選民對(duì)特朗普“不滿意率”創(chuàng)新高

2026-03-29 21:43

納比勒·法赫米將擔(dān)任新一任阿盟秘書長(zhǎng)

2026-03-29 21:07

群核科技通過港交所聆訊:2025年實(shí)現(xiàn)盈利,沖刺“全球空間智能第一股”

2026-03-29 21:05

油價(jià)飆升埃及多措施節(jié)能,埃及上調(diào)公共交通票價(jià)

2026-03-29 21:05

英矽智能與禮來達(dá)成AI藥物研發(fā)合作,交易總值最高可達(dá)27.5億美元

2026-03-29 21:04

3月29日新聞聯(lián)播速覽20條

2026-03-29 21:01

中國銀河證券:中長(zhǎng)期仍看好科技板塊產(chǎn)業(yè)驅(qū)動(dòng)與周期板塊漲價(jià)線索的雙主線

2026-03-29 20:34

大風(fēng)、降水來襲,長(zhǎng)江江蘇段部分區(qū)域?qū)嵤┡R時(shí)交通管制

7

掃描下載App