被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

jh 7個月前 (01-31)

國產廠商們針對中文語境的持續優化,也讓 AI 在教育領域的應用場景更加多元,讓更多人享受到AI帶來的價值。

寒假作業,大概是每個年代的孩子都逃不過的宿命。

而自從“雙減”政策開始落實,教育回歸家庭后,家長們也開始迎來了他們的“酷刑”——為孩子們輔導作業。

相信不少人都能在網上刷到被作業整崩潰的家長,有的因為孩子心不在焉苦口婆心,有的因為孩子怎么也聽不懂氣到捶桌,而更多家長則因為孩子課程知識點越來越豐富,未必能很好地為孩子答疑解惑。

可以說,寒假作業讓家長和孩子們都犯了難。

不過,面對這個難題,家長們可以借助當下最火的AI大模型。

目前不少國產大模型都號稱自帶教育功能,最關鍵的是,這些國產工具都可以通過網頁或App免費體驗,對于大部分家長們來說,使用門檻足夠低。

為此,筆者挑選了國內三款主流對話式大模型(訊飛星火、文心一言、通義千問)進行了多次提問,并且將他們與目前公認最強的GPT4大模型進行對比,看看他們在真實場景下輔導作業時,都有哪些表現?

國產大模型 VS GPT4

寒假說長不長,說短不短,由于中間夾雜著春節假期,大多數學生很難完整安排學習計劃。

那如果我們以20天來計算,AI大模型會給孩子們安排什么樣的學習計劃呢?

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

(注:全文截圖均按照:訊飛星火、通義千問、文心一言、GPT4進行排序)

總結:從篇幅來看,訊飛星火給出的計劃非常詳細(因為長度原因并未截全),并且詳細到每個學科;GPT4與文心一言給出的方案內容大致相似,但前者在內容上更加豐富,而通義千問則具體到每個時間段。但總體來說,AI大模型生成的計劃都過于籠統。

安排好學習計劃后,下一步就是開始輔導作業了。

語數外題目實測

論語數外三門中最難的學科,大部分人可能首先會在數學上犯了難。

那么今天我們就看看AI大模型的解題能力如何?

(1)第一道是個小學數學應用題,涉及未知數和方程式。

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

總結:在使用截圖時,通義千問給出了正確的方程式,但奇怪的是在計算時翻車。而其他三家大模型都因為識別數字原因列錯了公式。

而在手動輸入題目后,四家大模型都給出了正確答案,不過文心一言“別出心裁”使用用T代表未知數,這可能不太符合一般的教學習慣。

(2)有了應用題,幾何題自然也不能錯過。

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

結論:由于文心一言需要多次步驟,因此筆者并未繼續操作,其他三家均給出了解題步驟。其中在觀感上,還是國產大模型更勝一籌,而GPT4文字描述過多,總體來說這三家的表現都很不錯。

做完數學題,讓我們來幾道英語題。

對于大部分家長來說,由于長期遠離英語環境,詞匯掌握量逐年下降,當孩子升入中學后,輔導英語就變得十分困難。

其中,長難句又是英語學習中最難的一部分,無法理解句子自然也很難選擇正確答案。

就翻譯來說,大部分AI大模型都可以給出準確的答案,但要做到“信達雅”,還是有一定的難度的。

(3)讓我們先用一句經典的英文名句試試:

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

結論不得不說,每家英翻中都很有詩意,其中GPT4和訊飛星火給出的翻譯最為對仗,不過GPT4還附帶了對原句的解釋,通義千問則找出了原句的出處。

(4)那么換成考試真題的長難句后,表現又如何呢?

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

結論:在這句話的翻譯上,之前表現平平的文心一言這一次翻譯地最為出色。而其他三家則更加貼近直譯。對于學生們來說,通俗易懂的翻譯或許更適合應試。

比起數學和英語,語文學科更加考驗中文能力,也正是在這一部分,GPT4遇到了難題。

(5)首先來一段文言文的翻譯:

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

結論或許是因為大模型在理解“白話文”和“文言文”時出現錯誤,目前均不支持全文翻譯。在改為短句子后,翻譯的準確性明顯高了許多,筆者個人更偏好訊飛星火的翻譯。

最后,讓我們拿出“作者都覺得離譜”的現代文閱讀,看看大模型們能不能讀懂出題人的心。

這是一篇來自2023年全國高考的散文《給兒子》,原作者陳村,該文不僅篇幅較長,并且蘊含非常多的寓意。

(6)首先讓大模型總結一下文章的內容:

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

(7)接著我們讓大模型們來嘗試下高考真題,看看他們是否可以理解段落背后的含義。

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

被寒假作業逼瘋?實測三款主流國產大模型,哪家輔導作業最靠譜

總結:從個人主觀判斷,三款國產大模型在中文理解能力還是強于GPT4,不過后在理解段落的回答上,表現也稱得上超出預期。

結語

從以上的實測來看,對于家長們來說,國產大模型已經足夠應對孩子們的日常作業。

而國產廠商們針對中文語境的持續優化,也讓 AI 在教育領域的應用場景更加多元,讓更多人享受到AI帶來的價值。

例如今天下午舉行的星火認知大模型發布會上,科大訊飛董事長劉慶峰、研究院院長劉聰正式發布基于首個全國產算力訓練的訊飛星火V3.5,多個核心能力得到全面提升,其中在數學、語言理解、語音交互能力上已經超越GPT-4 Turbo。

在發布會上,劉慶峰著重介紹了通用人工智能對教育領域的賦能,他表示:“教育是人類進步的根本,關乎每一位個體,是真正的全民剛需。”

隨著大模型的全新提升,新版本在視覺問答、聯想推理等方面實現了高分應對,理解更加精確,表述也更好。

除了教育領域以外,國產廠商正利用大模型賦能千行百業,把大模型技術的創造力轉化為促進產業高質量發展的新質生產力,正在成為行業的共同選擇。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到