Navigation menu

新闻中心

“评论系统的一般审查2.0”发布

6月24日,国家认知情报的国家主要实验室领导并加入了“一般大型模型评估系统2.0”,并与中国学术研究学院中国学术研究创新联盟的文献和情报中心,中国学术研究创新联盟,人工智能联盟,人为智能联盟。与2023年6月发布的1.0版本相比,2.0版发布了此升级侧重于行业需求,并为扩展考试测量,加深特殊功能和优化评估方法创造了突破性。就分析量表而言,评论的任务从原始的481个项目大大扩展到1,186个项目,评论方式从单个文本和图片扩展到文本模式,图片,语音和视频的完整范围。在语言支持方面,从Focusi调整了评估系统的新版本NG专注于中文和英语,以更好地适应大型模型的国际发展。新升级的评估系统将行业状况作为锚点的需求,并增加了主要的审查领域,例如教育和科学研究等主要的审查领域,以产生对深度技术和行业整合的价值验证:对教育行业的桥梁:涵盖对多学历的知识,以及通过对智能启动的范围进行标准启动的启动型的教育能力,并评估诸如跨度的教育技巧,以促进智能的启动,以分析智能的启动,以促进智能的启动,以促进智能,以分析智能,以促进智能的能力,以促进智能的启动,以分析智能的能力,以促进智能锻炼,以促进智能锻炼,以分析智能锻炼能力,以促进智能锻炼的能力。教学和教学质量评估;对于科学研究行业,特殊AI4S(AI for Science)项目涵盖了六个主要的科学领域,例如物理,数学,化学,土地和太空科学,生命科学,信息,信息和智能科学,涵盖98个工作覆盖。为了确保评估的质量,“评估系统2.0”建立了严格的数据构建标准,并根据指南确保数据质量建立:一般任务测试加强了不同的抽样机制,例如资源,问题类型和类别,以确保真实性和数据差异;特殊任务测试数据严格控制标准化,存在,可解释性和合规性的15个次级NA方面的质量。在评估方法方面,采用了“手动 +自动”组合模式,主观双盲检查了许多人作为主要的人,并由JudgeModel补充(判断模型);并建立了“ 1+4”评估系统,即一般分数以及四个尺寸的子检查:相关性,一致性,完整性和有效性。此外,新版本的评估系统专门加强了安全检查和设计D 16风险指标,涵盖两个类别:内容安全性和订单安全性。此设置与当前对AI安全应用行业的重视的趋势一致,并为大型模型的安全扩展提供了重要的保证。