通过哪些性能指标来评估微调后的大模型实际业务效果？

1.该议题探讨评估微调后大模型在实际业务场景中效果的性能指标，确保模型优化与业务目标一致。2.一些个人看法：性能指标应反映模型准确性、效率、稳定性及业务相关指标，如用户满意度和成本节省。准确性指标包括精确度等；效率指标关注响应时间；稳定性指标评估模型抗扰动能力；业务...显示全部

关注8

参与23

查看其它 6 个回答jinhaibo的回答

jinhaibo

技术管理昆仑银行

评估微调后的大模型实际业务效果，在评估模型时，建议根据具体业务场景选择合适的指标，通常需要关注以下这几个指标：
（ 1 ）准确率（Accuracy）：准确率是模型正确预测的样本数占总样本数的比例。
（ 2 ）精确率（Precision）：精确率是指在预测为正样本的样本中，实际为正样本的比例。
（ 3 ）召回率（Recall）：召回率是指在所有实际为正样本的样本中，被模型预测为正样本的比例。
（ 4 ） F1 分数（F1 Score）：它是精确率和召回率的调和平均数，用于综合考虑精确率和召回率的表现。
（ 5 ） AUC-ROC（Area Under the Curve - Receiver Operating Characteristic）：ROC曲线描述了不同阈值下的真正例率（TPR）和假正例率（FPR）。AUC-ROC是ROC曲线下的面积，取值范围在0.5到1之间，值越大表示模型性能越好。
（ 6 ）响应时间：评估模型在实际部署后的响应时间，以确保模型在处理请求时具有足够的性能。
（ 7 ）可解释性：对于某些业务场景，模型的可解释性可能也很重要。可以通过一些方法（如SHAP、LIME等）来评估模型的可解释性。
（ 8 ）鲁棒性和稳定性：评估模型在不同数据分布或噪声数据下的表现，以及模型在不同时间点的性能波动。
需要根据业务场景选取其中的指标，通过这些指标的表现来评估整体的业务效果。

银行 · 2024-01-18

查看赞同的人

通过哪些性能指标来评估微调后的大模型实际业务效果？

查看其它 6 个回答jinhaibo的回答

回答者

jinhaibo 最近回答过的问题

回答状态