大模型选型的评估框架可以包括以下评选维度:
- 模型性能:包括模型在预测任务上的准确性、召回率、精确率等指标,用来评估模型的预测能力和表现。
- 训练时间和资源消耗:包括模型的训练时间、所需的计算资源(如 CPU、GPU、内存)等,用来评估模型的训练效率和资源消耗情况。
- 可解释性和可理解性:用于评估模型对于用户和其他相关方的解释能力。
- 可用性和易用性:模型的易用性、部署和维护的难易程度,用来评估模型的实际应用可行性。
- 可扩展性和灵活性:包括模型的扩展性、适应性和灵活性,用来评估模型在应对不同任务、数据或场景下的适应能力。
- 模型的可靠性和鲁棒性:包括模型对于输入数据的容错性、鲁棒性和稳定性,用来评估模型在面对不完美或特殊情况时的表现。
7 社区支持和生态系统:包括模型的社区支持程度和生态系统完善程度,用于评估模型的可维护性和未来发展潜力。
- 合理合规: 目前在银行系统中,无论大模型选型或者其他软件选型,合理合规的重要性越来越高,选型需满足国家相关安全政策要求,避免踩安全红线。
实践案例:
如果需要基于自然语言生成文本,可选型SPACE-T模型,该模型在模型的准确率(rouge)方面尤为突出,对中文支持友好;
如果需要基于模型的辅助编码能力,可选择WizardCoder大模型,该模型的性能卓越,可以对复杂指令微调
上述两个模型在社区支持方面也十分友好!