
最新動(dòng)態(tài)
NEWS
人民數(shù)據(jù)研究院圍繞ChatGPT、文心一言、訊飛星火和360智腦【1】4個(gè)通用AIGC平臺(tái),從AIGC輔導(dǎo)功課、學(xué)生群體提升語言學(xué)習(xí)能力和回答習(xí)題能力等維度進(jìn)行綜合評(píng)估。本次測(cè)評(píng)以人教版小學(xué)3年級(jí)和6年級(jí)期末習(xí)題作為藍(lán)本,評(píng)估大語言模型處理選擇題、填空題、閱讀理解題以及作文題的回答質(zhì)量和解釋能力,對(duì)比發(fā)現(xiàn)已具備能力與改進(jìn)可能。
測(cè)評(píng)發(fā)現(xiàn):
· 回答質(zhì)量隨年級(jí)而變化,高年級(jí)英語內(nèi)容回答質(zhì)量更好,語文學(xué)科則更擅長回答低年級(jí)內(nèi)容。
· 分析解讀能力逐步體現(xiàn),原文匹配、語法句法的解釋能力已嶄露頭角,其余方面仍有一定完善空間。
· 中文回答方面國產(chǎn)大語言模型能力顯著,寫作水平令人驚艷,但拼音識(shí)別仍是難題。
· 互動(dòng)仍以文字輸入為主,圖片、特殊符號(hào)等無法識(shí)別,對(duì)數(shù)學(xué)、物理等理科內(nèi)容的分析理解仍有一段距離。
觀察大語言模型對(duì)不同英語習(xí)題回答中,我們從單詞/詞組、句子理解、閱讀理解和撰寫作文四個(gè)方面綜合考察,發(fā)現(xiàn)整體表現(xiàn)上文心一言和ChatGPT不相上下,前者更擅長句子理解,后者作文能力更高;360智腦在閱讀和字詞方面表現(xiàn)良好,但生成作文時(shí)更為質(zhì)樸,所使用的句式偏簡單,主題內(nèi)容單一且字?jǐn)?shù)也較少;而訊飛星火則對(duì)3年級(jí)單詞區(qū)分題無法進(jìn)行有效回答,準(zhǔn)確率不足6成。
圖:AIGC平臺(tái)對(duì)4類小學(xué)英語習(xí)題回答準(zhǔn)確程度分布
各大平臺(tái)對(duì)于短篇閱讀理解(字?jǐn)?shù)在300以內(nèi))已達(dá)到較為嫻熟的程度(正確率均在80%以上),但對(duì)于將不同類別單詞進(jìn)行重新分類的題目僅將將及格。而在文章寫作和閱讀理解兩類涉及長文處理時(shí),各平臺(tái)都能取得較好成績,特別是ChatGPT在生成作文時(shí)所選用的句式豐富、篇幅較大且內(nèi)容更符合小學(xué)生的暑假安排,而文心一言是國產(chǎn)大模型中生成內(nèi)容更豐富、篇幅更多的平臺(tái)。
表:AIGC平臺(tái)在小學(xué)語文表現(xiàn)結(jié)果
小學(xué)階段語文習(xí)題大概可以劃分為詞語/言語理解、原文填空、拼音識(shí)別、閱讀理解和文章寫作5類題目,分別從“詞句文”不同層次檢驗(yàn)AIGC生成能力和答案質(zhì)量。相對(duì)而言,文心一言在各類題型上表現(xiàn)出色,無明顯短板;ChatGPT在閱讀理解方面表現(xiàn)較為優(yōu)秀,可以準(zhǔn)確把握出題意圖并在原文中提煉答案;訊飛星火和360智腦則在回答言語理解時(shí)答題質(zhì)量有待提升。
圖:AIGC平臺(tái)對(duì)5類小學(xué)語文習(xí)題回答準(zhǔn)確程度分布
在給定主題和寫作要求的情況下,各大平臺(tái)都能夠緊扣主題完成寫作,用詞較為準(zhǔn)確、行文通順流暢,展現(xiàn)了大語言模型對(duì)漢語豐富內(nèi)涵的表達(dá)能力。ChatGPT生成作文邏輯嚴(yán)謹(jǐn),能讓讀者感受語句中蘊(yùn)含的藝術(shù)性;訊飛星火所作文章更善總結(jié)歸納,結(jié)構(gòu)清晰;而360智腦無法理解小學(xué)6年級(jí)題目中“撰文400字以上”的字?jǐn)?shù)要求,所作文章更加簡單。
表:各AIGC平臺(tái)對(duì)拼音識(shí)別題型回答情況(注:標(biāo)紅為回答正確)
值得關(guān)注的是,拼音識(shí)別題型結(jié)果有較大偏差,文心一言回答結(jié)果較為準(zhǔn)確(90%以上);ChatGPT和360智腦可正確識(shí)別拼音發(fā)音首字母,訊飛星火則給出結(jié)果較為離譜。分析發(fā)現(xiàn)各平臺(tái)犯錯(cuò)方向有所不同,ChatGPT無法識(shí)別音調(diào),且存在自造詞的問題,360智腦在字母和音調(diào)識(shí)別有誤,訊飛星火則存在無法按拼音識(shí)別單字的情況。
據(jù)36氪旗下“后浪研究所”所做的“00后作業(yè)小調(diào)查”顯示,輔導(dǎo)孩子已經(jīng)成為當(dāng)代家長“心中的痛”。調(diào)查報(bào)告顯示,當(dāng)下超8成父母下班后都要輔導(dǎo)孩子學(xué)習(xí),平均花費(fèi)時(shí)間為67.7分鐘;超9成家長都因?yàn)楹⒆拥膶W(xué)習(xí)崩潰過,僅8%的家長沒有這方面困擾。就此,人民數(shù)據(jù)研究院建議以下方面:
本次測(cè)評(píng)中,也發(fā)現(xiàn)目前同模型交互使用方面,各AIGC平臺(tái)僅支持文本輸入模式,對(duì)于物理數(shù)學(xué)等具有特殊字符的內(nèi)容則無法輸入,同時(shí)平臺(tái)并無“讀圖”能力,無法通過拍照題目的方式進(jìn)行回答。此外,對(duì)特定題目中提到的“有一個(gè)不屬于任何一類”的限制條件,4平臺(tái)除360智腦外,均無法將限制條件納入回答的考慮之中。
AIGC的出現(xiàn)一定程度上讓目前家庭功課輔導(dǎo)有了更多可能,對(duì)于使用文心一言等通用語言模型在各類學(xué)科中的回答能力,可以支持跨學(xué)科的家庭作業(yè)輔導(dǎo)活動(dòng)。讓家長能評(píng)判題目正誤,如果模型能加入更多解釋能力,還能提升講解效率。
【1】版本號(hào):ChatGPT-3.5 版本:May 24;文心一言版本:V2.2.0;訊飛星火版本:V1.5;360智腦版本:3.12.0
【2】根據(jù)大語言模型平臺(tái)在回答時(shí)提供的額外信息,作為評(píng)判素材。
【3】回答質(zhì)量是根據(jù)不同類型題目的平均分?jǐn)?shù)得到的,針對(duì)具有答案的內(nèi)容,判斷回答正確率,針對(duì)作文和閱讀理解的內(nèi)容,從回答長度、切題程度和句式語法等角度主觀評(píng)斷。
來源:人民數(shù)據(jù)研究院
作者:人民數(shù)據(jù)研究院研究員 王簡,人民數(shù)據(jù)研究院研究員 馬綺霞