DeepSeek R1的發(fā)布引發(fā)了新一輪大模型關(guān)注熱潮,加速了大模型在企業(yè)側(cè)的應(yīng)用。企業(yè)在決定采用某個大模型之前,評估是必不可少的工作,這有助于確保所選模型能夠滿足企業(yè)的具體需求,并在實際應(yīng)用中表現(xiàn)良好。
第一,在進(jìn)行同類大模型比較時,需要明確是通用大模型還是針對特定任務(wù)或上下文的領(lǐng)域大模型。
大模型通常分為通用大模型和領(lǐng)域大模型兩種類型:
? 通用大模型:通常具有強(qiáng)大的泛化能力,適用于廣泛的自然語言理解和生成任務(wù)。這些模型沒有針對特定行業(yè)或任務(wù)進(jìn)行專門訓(xùn)練,因此在內(nèi)容創(chuàng)作、摘要生成等通用場景中表現(xiàn)出色。通過提示工程,通用大模型就可以提供更大的靈活性和強(qiáng)大的功能。
? 領(lǐng)域大模型:領(lǐng)域大模型通常是在通用大模型的基礎(chǔ)之上,經(jīng)過專門訓(xùn)練或微調(diào),從而在特定行業(yè)、任務(wù)或領(lǐng)域中獲得更深入的知識。它們在編碼、翻譯、文檔理解等特定任務(wù)中可能表現(xiàn)更好,并且在一些場景中能更好地符合人類偏好。然而,領(lǐng)域大模型創(chuàng)造力和通用性可能不如通用大模型。
在構(gòu)建一個大模型驅(qū)動的解決方案時,企業(yè)可能需要多個模型共同協(xié)作,發(fā)揮各個模型的特點,并構(gòu)建路由模型,根據(jù)任務(wù)需求選擇適當(dāng)?shù)哪P汀_@些模型不僅包括通用大模型和領(lǐng)域大模型,甚至可能包括其他類型的AI模型。
第二,在評估大模型時,應(yīng)以基準(zhǔn)測試和排行榜作為基礎(chǔ),結(jié)合企業(yè)自己的測試用例進(jìn)行評估。最終,業(yè)務(wù)側(cè)指標(biāo)才是解決方案的最終衡量標(biāo)準(zhǔn)。
基準(zhǔn)測試是初步篩選模型的參考,業(yè)界有很多基準(zhǔn)測試和榜單,由社區(qū)驅(qū)動或由大模型廠商提供。如果企業(yè)選擇的是通用大模型,Chatbot Arena排行榜可供參考,它是業(yè)界公認(rèn)的最公正、最權(quán)威的榜單之一,該榜單采用匿名方式將大模型兩兩組隊,交給用戶進(jìn)行盲測,用戶根據(jù)真實對話體驗對模型能力進(jìn)行投票。大模型廠商無法提前知道用戶的所有問題,也無法專門針對這些問題訓(xùn)練/微調(diào)模型以在排行榜上獲得更高的排名。
除了參考基準(zhǔn)和排行榜外,企業(yè)還需要創(chuàng)建針對特定應(yīng)用的測試用例:
· 明確定義用例的范圍和目的。大模型的響應(yīng)范圍越廣,越可能出現(xiàn)企業(yè)不希望的行為,因此,——應(yīng)在合適的場景選擇合適的模型;
· 創(chuàng)建測試用例時,應(yīng)根據(jù)大模型在生產(chǎn)環(huán)境中的實際使用場景來進(jìn)行,盡可能使用與生產(chǎn)環(huán)境相似或相同的數(shù)據(jù)(例如,問答對)。
最終,業(yè)務(wù)側(cè)指標(biāo),如聊天機(jī)器人的用戶滿意度得分,才是解決方案的最終衡量標(biāo)準(zhǔn)。
第三,企業(yè)需基于實際需求,在模型能力與非功能因素(如成本、合規(guī)、部署方式)之間找到平衡點,并通過開源替代方案或動態(tài)路由技術(shù)優(yōu)化選擇策略。
輕量化大模型和開源大模型正在迅速發(fā)展。一些開源模型的性能(例如DeepSeek-V3&R1)已經(jīng)非常接近或與專有模型相當(dāng),這可能會降低基于API的使用成本,為不同的業(yè)務(wù)場景引入了更多的機(jī)會。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)