圖片來(lái)源@視覺(jué)中國(guó)

文 | 零點(diǎn)有數(shù)科技

ChatGPT是OpenAI最新的語(yǔ)言模型,與其他大型語(yǔ)言模型一樣,能夠以不同的樣式和目的生成文本,并且在準(zhǔn)確度、敘述細(xì)節(jié)和上下文連貫性方面表現(xiàn)更加優(yōu)異。目前來(lái)看,ChatGPT在很多領(lǐng)域都有廣泛的應(yīng)用前景,但任何工具的應(yīng)用都是有前提的,了解其背后的工作機(jī)制和局限之處,才能更好地利用這項(xiàng)技術(shù)。

01 ChatGPT概述

ChatGPT是OpenAI最新的語(yǔ)言模型,較其前身GPT-3有大幅提高。與其他大型語(yǔ)言模型一樣,ChatGPT能夠以不同的樣式和目的生成文本,并且在準(zhǔn)確度、敘述細(xì)節(jié)和上下文連貫性方面表現(xiàn)更加優(yōu)異。作為OpenAI最新一代的大型語(yǔ)言模型,ChatGPT的設(shè)計(jì)非常注重交互性。為了調(diào)優(yōu)ChatGPT,OpenAI使用了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的組合,其中強(qiáng)化學(xué)習(xí)的組件使其獨(dú)一無(wú)二。OpenAI使用了“人類(lèi)反饋強(qiáng)化學(xué)習(xí)”(RLHF)的訓(xùn)練方法,該方法在訓(xùn)練過(guò)程中利用人類(lèi)反饋,以最小化無(wú)用、失真或有偏見(jiàn)的輸出。

目前來(lái)看,ChatGPT在很多領(lǐng)域都有廣泛的應(yīng)用前景,并且它的操作簡(jiǎn)單,對(duì)用戶(hù)非常友好。但任何工具的應(yīng)用都是有前提的,了解其背后的工作機(jī)制和局限之處,才能更好地利用這項(xiàng)技術(shù),零點(diǎn)有數(shù)數(shù)據(jù)科學(xué)家將基于此談?wù)凜hatGPT在應(yīng)用時(shí)需要注意的幾個(gè)方面。

02 ChatGPT的局限之處

多場(chǎng)景問(wèn)題一是標(biāo)注數(shù)據(jù)。諸如回答內(nèi)容存在事實(shí)性錯(cuò)誤,對(duì)于確定的事實(shí),其給出的答案無(wú)法達(dá)到高置信度,對(duì)于常識(shí)性的知識(shí)問(wèn)題不能高效地給出符合日常認(rèn)知的答案。大模型訓(xùn)練所需語(yǔ)料涉及面非常廣,僅就人文學(xué)科而言,就存在非常龐雜的知識(shí)的語(yǔ)料,因此,在標(biāo)注過(guò)程中,相關(guān)任務(wù)對(duì)標(biāo)注人員的知識(shí)面、邏輯思考能力等都有極高的要求。在此基礎(chǔ)上,還需要針對(duì)更多語(yǔ)料中提及的知識(shí)進(jìn)行自動(dòng)抽取,反復(fù)校驗(yàn),才可一步步改進(jìn)。如下圖,關(guān)于古詩(shī)《登鸛雀樓》的提問(wèn),ChatGPT未能給出符合常識(shí)的回答,包括古詩(shī)的原文和作者信息。

二是數(shù)據(jù)理解。對(duì)于簡(jiǎn)單的數(shù)據(jù)說(shuō)明可以順利地進(jìn)行比較分析,但面對(duì)略復(fù)雜的語(yǔ)義理解要求回答比較困難,對(duì)于中文豐富的詞匯體系、語(yǔ)法和句法的特點(diǎn),特別是涉及近義詞之間的差別和近義程度的區(qū)分,還需要補(bǔ)充更多更廣泛的訓(xùn)練數(shù)據(jù)、做進(jìn)一步的訓(xùn)練和優(yōu)化,才能修正相應(yīng)問(wèn)題。示例如下圖。

三是數(shù)據(jù)分析能力。由于數(shù)據(jù)理解和分析能力暫未完善,ChatGPT目前無(wú)法正確有效地進(jìn)行數(shù)理邏輯計(jì)算。如下圖所示,針對(duì)四人四天喝四桶水,八人八天喝多少桶水的數(shù)據(jù)計(jì)算問(wèn)題,并沒(méi)有一次性形成合理的計(jì)算邏輯鏈路,給出正確的計(jì)算結(jié)果。

答復(fù)的生成內(nèi)容不具備實(shí)時(shí)性‍

知識(shí)庫(kù)信息未能實(shí)時(shí)更新。由于ChatGPT目前的版本僅支持2021年之前的語(yǔ)料信息提問(wèn),其回答的內(nèi)容沒(méi)有進(jìn)行實(shí)時(shí)信息關(guān)聯(lián)。訓(xùn)練一個(gè)模型的人力成本較大、時(shí)間周期較長(zhǎng),短期內(nèi)難以有效地更新學(xué)習(xí)即時(shí)性的知識(shí)信息。

俄烏戰(zhàn)爭(zhēng)起始于2022年2月,而ChatGPT使用的最新訓(xùn)練數(shù)據(jù)只截止到2020年,因此對(duì)于最近發(fā)生的俄烏戰(zhàn)爭(zhēng)事件,無(wú)法給出具有時(shí)效性的情況分析。模型能力覆蓋廣,但專(zhuān)業(yè)深度仍有提高空間模型復(fù)雜度,豐富性和通用性足夠高,但對(duì)于某個(gè)專(zhuān)業(yè)領(lǐng)域方向的資深知識(shí)信息結(jié)構(gòu)認(rèn)知仍有提高空間。

在上述的問(wèn)答中,ChatGPT對(duì)于網(wǎng)絡(luò)通信中的信息增益率公式只給出了概述性的描述,并未有效地展示公式的符合化表示及解釋說(shuō)明。

03 ChatGPT場(chǎng)景應(yīng)用問(wèn)題

盡管ChatGPT在不同場(chǎng)景中的應(yīng)用性較強(qiáng),但同時(shí)也凸顯出一些值得關(guān)注的隱憂,從某種意義上而言,ChatGPT的出現(xiàn),讓諸多領(lǐng)域面臨新的挑戰(zhàn)。教育教學(xué)在教育教學(xué)方面,最為直接的影響是學(xué)生在學(xué)習(xí)過(guò)程中,缺乏足夠的思考,直接詢(xún)問(wèn)ChatGPT,輕松地獲取到相關(guān)的知識(shí)和解答,特別是在論文的寫(xiě)作過(guò)程中,直接查詢(xún)或生成相關(guān)內(nèi)容,不僅不利于學(xué)生有效掌握相關(guān)知識(shí),無(wú)法鍛煉問(wèn)題研究能力,甚至?xí)纬蛇^(guò)度依賴(lài),影響學(xué)生的創(chuàng)造力,不利于教育的發(fā)展。公共安全在公共安全領(lǐng)域,主要涉及社會(huì)治安和信息安全。就社會(huì)治安而言,利用ChatGPT可以模仿不同人員的對(duì)話習(xí)慣,再結(jié)合語(yǔ)音合成功能,進(jìn)而實(shí)現(xiàn)高仿真的人類(lèi)交流和互動(dòng),相關(guān)功能如果應(yīng)用在詐騙等場(chǎng)合,助長(zhǎng)違法犯罪,影響社會(huì)穩(wěn)定。就信息安全而言,數(shù)據(jù)治理面臨更大風(fēng)險(xiǎn),特別是關(guān)涉國(guó)家安全、商業(yè)機(jī)密、個(gè)人隱私等多方面的敏感數(shù)據(jù)。ChatGPT模型訓(xùn)練所使用的數(shù)據(jù)一般為大量可公開(kāi)的數(shù)據(jù)和知識(shí),但基于現(xiàn)有的技術(shù)研發(fā)數(shù)據(jù)管理體制,不一定能保證直接相關(guān)的敏感數(shù)據(jù)或基于公開(kāi)數(shù)據(jù)研究所得的敏感數(shù)據(jù)不被泄露。倫理道德

在倫理道德方面,無(wú)論是個(gè)人還是社會(huì)或國(guó)家同樣受到一定的影響。從個(gè)人的角度來(lái)看,對(duì)于大多數(shù)未成年人,甚至部分成年人,尚未形成成熟且穩(wěn)定的心智,在使用ChatGPT的過(guò)程中,個(gè)人想法很容易被直接或間接地帶偏,進(jìn)而做出不合適的行為;從社會(huì)或國(guó)家的角度來(lái)看,ChatGPT如果作為一個(gè)文化沖擊的工具,對(duì)整個(gè)社會(huì)和國(guó)家產(chǎn)生不良影響。

以上這些方面,都亟待相關(guān)技術(shù)方在技術(shù)層面對(duì)相關(guān)內(nèi)容進(jìn)行完善,對(duì)各種使用方進(jìn)行權(quán)限的控制和監(jiān)控,同時(shí)相關(guān)職能部門(mén)應(yīng)從國(guó)家層面進(jìn)行立法,進(jìn)行合理的限制和管控。

04 關(guān)于ChatGPT算法的拓展構(gòu)想

站在數(shù)據(jù)智能垂直應(yīng)用的角度上,零點(diǎn)有數(shù)數(shù)據(jù)科學(xué)家基于豐富的業(yè)務(wù)經(jīng)驗(yàn),從以下四個(gè)方面談了關(guān)于ChatGPT算法的拓展構(gòu)想:

一是行業(yè)訓(xùn)練數(shù)據(jù)優(yōu)勢(shì)。ChatGPT還需要進(jìn)一步整合各行業(yè)歷史沉淀數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換為高質(zhì)量、有效的訓(xùn)練數(shù)據(jù)集,才能更好地提升行業(yè)應(yīng)用模型的精度。

二是強(qiáng)化推理能力?;趯?duì)業(yè)務(wù)場(chǎng)景的了解出發(fā),對(duì)未知業(yè)務(wù)場(chǎng)景做從規(guī)則、向量表示推理到prompt的范式多層次學(xué)習(xí)推理過(guò)程。

三是線上更新機(jī)制。實(shí)時(shí)收集線上數(shù)據(jù),并實(shí)時(shí)進(jìn)行模式化的更新,動(dòng)態(tài)反饋更新至模型中,形成模型長(zhǎng)期反饋更新學(xué)習(xí)的機(jī)制。

四是合理挖掘發(fā)現(xiàn)行業(yè)應(yīng)用場(chǎng)景。通過(guò)更深層次地將GPT技術(shù)與垂直行業(yè)的業(yè)務(wù)做融合,構(gòu)建行業(yè)化的GPT模型,并服務(wù)于業(yè)務(wù)實(shí)際需求。(本文首發(fā)鈦媒體APP)

本文系作者 零點(diǎn)有數(shù)科技 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

10:14

廣東省市場(chǎng)監(jiān)管局聯(lián)合廣州市市場(chǎng)監(jiān)管局召開(kāi)平臺(tái)企業(yè)座談會(huì)

10:10

貝殼啟動(dòng)戰(zhàn)略變革:管理者站上一線,經(jīng)紀(jì)人KPI減負(fù)

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計(jì)全球每年逾25萬(wàn)人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

10:01

調(diào)查顯示日本市場(chǎng)逾2500種食品4月份將漲價(jià)

10:01

西南首個(gè)商業(yè)衛(wèi)星遙感測(cè)運(yùn)控站啟用

09:25

美國(guó)全國(guó)范圍爆發(fā)反對(duì)特朗普政府集會(huì),預(yù)計(jì)超900萬(wàn)人參與,或?yàn)椤懊绹?guó)歷史上規(guī)模最大”抗議活動(dòng)

09:23

馬斯克旗下AI公司初創(chuàng)“11羅漢”全部離職

09:21

巴基斯坦稱(chēng)伊朗已同意再放行20艘巴船只通過(guò)霍爾木茲海峽

09:20

法國(guó)警方挫敗美資銀行門(mén)前爆炸企圖

09:18

美軍否認(rèn)其人員在迪拜遭襲

09:17

以軍稱(chēng)接近完成對(duì)伊朗約90%關(guān)鍵軍工設(shè)施的打擊

09:14

委內(nèi)瑞拉恢復(fù)啟用駐美國(guó)外交機(jī)構(gòu)

09:13

伊朗稱(chēng)襲擊阿聯(lián)酋巴林與美相關(guān)企業(yè)

09:11

全國(guó)民航今起執(zhí)行夏秋航季航班計(jì)劃

09:11

德國(guó)通過(guò)《2026氣候保護(hù)計(jì)劃》,多項(xiàng)措施推動(dòng)減排

09:08

萬(wàn)斯獲美共和黨保守派陣營(yíng)過(guò)半支持

09:08

古巴外長(zhǎng)指責(zé)美方就其燃料限制措施“厚顏無(wú)恥地撒謊”

09:07

智能網(wǎng)聯(lián)汽車(chē)等系列團(tuán)體標(biāo)準(zhǔn)發(fā)布,加速共性關(guān)鍵技術(shù)轉(zhuǎn)化與應(yīng)用

掃描下載App