全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国国防部委托Scale AI公司开发大语言模型评估测试方法

2024-02-22 美国来源：其他作者：唐乾琛领域：信息

关键词：

据DefenseScoop网2月20日消息，美国国防部首席数字和人工智能办公室（CDAO）向Scale AI公司授予了一份为期一年的合同，以设计一种值得信赖的方式来测试和评估人工智能大语言模型。Scale AI公司需要提供一个安全部署人工智能的框架，通过测量模型性能、为作战人员提供实时反馈以及创建专门的公共部门评估集来测试军事支持用途的人工智能模型，如用于组织行动后报告的调查结果。CDAO长期以来一直依靠测试与评估（T&E）流程来评估及确保其系统、平台和技术在全面部署之前以安全可靠的方式运行。但是，人工智能安全标准和政策尚未普遍制定，大型语言模型的复杂性和不确定性使得生成式人工智能的测试与评估变得更加复杂。对人工智能模型进行测试与评估，有助于确定特定模型的基准性能，解决生成式人工智能的各类问题。

消息来源：https://defensescoop.com/2024/02/20/scale-ai-pentagon-testing-evaluating-large-language-models/