Navigation menu

新闻中心

“评论系统的一般审查2.0”发布

6月24日，国家认知情报的国家主要实验室领导并加入了“一般大型模型评估系统2.0”，并与中国学术研究学院中国学术研究创新联盟的文献和情报中心，中国学术研究创新联盟，人工智能联盟，人为智能联盟。与2023年6月发布的1.0版本相比，2.0版发布了此升级侧重于行业需求，并为扩展考试测量，加深特殊功能和优化评估方法创造了突破性。就分析量表而言，评论的任务从原始的481个项目大大扩展到1,186个项目，评论方式从单个文本和图片扩展到文本模式，图片，语音和视频的完整范围。在语言支持方面，从Focusi调整了评估系统的新版本NG专注于中文和英语，以更好地适应大型模型的国际发展。新升级的评估系统将行业状况作为锚点的需求，并增加了主要的审查领域，例如教育和科学研究等主要的审查领域，以产生对深度技术和行业整合的价值验证：对教育行业的桥梁：涵盖对多学历的知识，以及通过对智能启动的范围进行标准启动的启动型的教育能力，并评估诸如跨度的教育技巧，以促进智能的启动，以分析智能的启动，以促进智能的启动，以促进智能，以分析智能，以促进智能的能力，以促进智能的启动，以分析智能的能力，以促进智能锻炼，以促进智能锻炼，以分析智能锻炼能力，以促进智能锻炼的能力。教学和教学质量评估；对于科学研究行业，特殊AI4S（AI for Science）项目涵盖了六个主要的科学领域，例如物理，数学，化学，土地和太空科学，生命科学，信息，信息和智能科学，涵盖98个工作覆盖。为了确保评估的质量，“评估系统2.0”建立了严格的数据构建标准，并根据指南确保数据质量建立：一般任务测试加强了不同的抽样机制，例如资源，问题类型和类别，以确保真实性和数据差异；特殊任务测试数据严格控制标准化，存在，可解释性和合规性的15个次级NA方面的质量。在评估方法方面，采用了“手动 +自动”组合模式，主观双盲检查了许多人作为主要的人，并由JudgeModel补充（判断模型）；并建立了“ 1+4”评估系统，即一般分数以及四个尺寸的子检查：相关性，一致性，完整性和有效性。此外，新版本的评估系统专门加强了安全检查和设计D 16风险指标，涵盖两个类别：内容安全性和订单安全性。此设置与当前对AI安全应用行业的重视的趋势一致，并为大型模型的安全扩展提供了重要的保证。

上一篇：进入市场的中期和长期资助系统逐渐改善。 “长下一篇：没有了

新闻中心

“评论系统的一般审查2.0”发布

相关新闻