AI语料是指用于训练、测试和优化各种人工智能(AI)系统和模型的的大量数据集合。AI语料涵盖文本、图像、音频、视频等多种数据类型,旨在帮助AI模型学习如何与人类进行交互、如何分析音频内容、如何执行复杂任务等。
为保障网络信息安全,国内外均在积极采取措施来规范AI语料的收集与使用。2024年2月,全国网络安全标准化技术委员会发布TC260-003《生成式人工智能服务安全基本要求》,该文件规定了生成式人工智能服务在语料安全、模型安全等在内的安全方面基础要求,这为AI语料的规范化、安全化使用提供了法律指导。
AI语料是AI系统开发和运作的基础,在自然语言处理、语音识别、计算机视觉、图像识别等环节均需要庞大的AI语料库支持。随着AI应用场景拓展,市场对高质量、多样化的AI语料数据需求正不断释放。
AI语料数据集建立流程涉及到数据采集、数据标注、数据清洗、模型测试、模型训练、产品评估等环节。根据新思界产业研究中心发布的《
2024-2028年中国AI语料行业市场供需现状及发展趋势预测报告》显示,我国数据资源丰富,图书出版、影视公司、网文平台等领域已积累了丰富语料资源,为AI语料数据集建立提供了基础。但我国数据挖掘力度不足,优质AI语料数据集较稀缺。
文本语料、语音语料、视频语料是AI语料的主要组成部分,其中又以文本语料最为常见。文本语料相关企业较多,包括中文在线、中国出版、中国科传、果麦文化、中信出版、掌阅科技等企业;视频语料相关企业包括中广天泽、华策影视、上海电影等。
掌阅科技是我国数字阅读平台龙头,主要产品或服务包括掌阅APP、掌阅精选、掌阅课外书、掌阅文学等。掌阅科技主营业务盈利能力强,根据其年报数据显示,2023年掌阅科技主营业务收入净额为27.78亿元,2024年中掌阅科技营收13.32亿元,毛利率71.34%。
新思界
行业分析人士表示,AI语料直接影响着AI模型的理解能力、语言生成能力和任务执行能力,其高质量、多样化发展对构建高效、准确的AI模型至关重要。AI语料市场激烈竞争,近年来,国内涌现出一大批AI语料企业,进一步加剧了市场竞争,同时也为AI语料多样化、特色化发展提供了助力。
关键字: