在对智能模型在工具选择和问题处理方面的性能进行专业评测。模型的任务是根据用户输入的问题,从多个提供的工具函数中选择最合适的一个,并提取该函数的请求参数。如果所有候选函数均不适用,模型需要尝试直接回答用户问题,或者提示用户缺少必要信息。我们的评测将围绕工具选择、结果总结以及系统提示(system prompt)的正确性展开。模型需要从多个候选工具函数中选择最合适的一个来处理用户问题。我们将评估模型在工具选择过程中的准确性,在选择工具函数并执行后,需要对结果进行总结并反馈给用户。我们将评估模型在结果总结方面的表现,当候选函数均不适用时,模型需要尝试直接回答用户问题,或者提示用户缺少必要信息。我们将评估模型在系统提示方面的表现。