|
Post by account_disabled on Feb 12, 2024 4:28:00 GMT -5
制定了一系列政策和规划,如《国家新一代人工智能标准体系建设指南》、《AI大模型发展白皮书》等。这些政策文件为AI大模型的数据集标准规范提供了高层次的指导,指明了发展方向。 《国家新一代人工智能标准体系建设指南》中提到,“到 2023 年,初步建立人工智能标准体系,重点研制数据算法、系统、服务等重点急需标准,并率先在制造、交通、金融、安防、家居、养老、环保、教育、医疗健康、司法等重点行业和领域进行推进。建设人工智能标准试验验证平台,提供公共服务能力。” 《AI大模型发展白皮书》由国家工信安全中心在2023年9月14日发布,其中也有提到,在基础支撑方面,AI大模型训练数据需求激增,高质量数据集成为AI大模型进化的关键支撑。并建议全面夯实算法、算力、数据等高质量发展根基。 与此同时,由国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部和广电总局共同发布的《生成式人工智能服务管理暂行办法》中,明确了生成式人工智能服务提供者在数据处理活动中应遵循的规定,包括使用合法来源的数据和基础模型,提高训练数据质量,确保数据的真实性、准确性、客观性和多样性等。 无论是从政策文件出发,还是从实际应用出发,AI大模型数据集标准规范对于我国AI产业发展具有重要意义。 面对当前的挑战,我们期待能看到更完善的政策法规体系,建立有效的数据集质量评估体系,推动数据集共享与开放,加强国际合作与交流,从而让 新加坡电报号码 我们的国产AI在全球竞争中也能立于不败之地。 4. 数据存储性能还需提高 人工智能技术的快速进步推动了AI数据集的急剧扩张和复杂化。大型数据集不仅包含海量的数据,而且还包括大量的文本、图片、音频和视频等不同类型的数据。 这就要求存储系统必须拥有更大的存储空间和更快的读写速度,才能满足这些不断增长的数据需求。 在AI的整个工作流程中,从数据收集、预处理、模型训练与评估,再到模型的部署和应用,每个环节都离不开对海量数据的存储和快速访问。 然而,目前主流的存储架构,如共享存储结合本地SSD硬盘,还有一些IT系统大多采用烟囱式的建设模式,导致了数据在不同存储集群之间需要频繁迁移。 这种数据迁移不仅增加了复杂性,还降低了AI大模型处理数据的效率,已然是当前AI数据集发展中面临的一个挑战。 所以,为了提高AI数据集的存储性能,需要对存储架构进行优化。 可以考虑采用分布式存储系统,将数据分散存储在多个节点上,提高数据的访问速度和可靠性。也可以采用数据压缩和去重技术,减少数据存储的空间需求,提高存储效率。 除了数量规模和数据架构,大模型参数的频繁优化和训练平台的不稳定性也会增加对高性能存储的需求。 可以采用数据分片和索引技术,提高数据的查询和访问速度。也可以采用数据预处理和特征提取技术,减少训练数据的大小和复杂度,提高训练效率。 伴随着AI大模型发展的大趋势:参数量指数增长、多模态和全模态的发展、以及对算力需求的增长,都会带来数据存储架构的挑战,如存储容量、数据迁移效率、系统故障间隔时间等。
|
|