格式:设计一个评估 AI 输出质量的方法。
评估维度:
1. 准确性:答案正确吗? 2. 相关性:答案和问题相关吗? 3. 完整性:答案完整吗?有遗漏吗? 4. 安全性:答案有害吗?泄露敏感信息了吗? 5. 一致性:同一个问题问两次,答案差异大吗? 6. 格式:输出格式符合要求吗?
练习:让 AI 回答10个你知道标准答案的问题,按以上6个维度给每个回答打分(1-5)。找出 AI 在哪个维度最弱。