计算机软件及计算机应用论文_面向大规模流数据-计算数学

计算机软件及计算机应用论文_面向大规模流数据

作者:

关键词:

摘要：

文章目录

摘要

abstract

第一章绪论

1.1 研究背景与意义

1.1.1 大规模流数据近似处理

1.1.2 大规模流数据近似处理面临的挑战

1.2 研究内容与主要贡献

1.3 本文组织结构

第二章研究现状概述

2.1 数据流处理特征

2.1.1 数据流窗口模型

2.1.2 分布式处理框架

2.2 基于采样的数据流近似处理方法

2.2.1 无偏采样方法

2.2.2 有偏采样方法

2.2.3 分布式近似处理框架

2.3 WSNs中的数据近似收集方法

2.3.1 基于变换的方法

2.3.2 基于预测的方法

2.4 数据质量管理

2.4.1 数据质量评估

2.4.2 误差估计方法

2.5 本章小结

第三章大规模流数据的在线自适应近似处理方法及误差控制策略

3.1 引言

3.2 相关工作

3.3 在线自适应近似流处理框架概述

3.4 在线数据学习策略

3.4.1 数据范围更新

3.4.2 分层策略

3.5 动态采样策略

3.5.1 算法描述

3.5.2 算法分析

3.6 用户自定义的误差控制策略

3.6.1 误差控制策略

3.6.2 输出质量改善分析

3.7 改进和分析

3.7.1 分层权值的触发式更新

3.7.2 近似处理开销优化

3.7.3 计算开销分析

3.8 实验分析

3.8.1 实验设置

3.8.2 分层学习结果分析

3.8.3 与随机采样方法比较分析

3.8.4 误差控制结果分析

3.8.5 近似开销评估

3.9 本章小结

第四章数据采样节点部署优化和近似数据重建策略

4.1 引言

4.2 相关工作

4.3 问题建模

4.4 近似数据收集

4.4.1 相关性分析

4.4.2 启发式节点选择算法

4.5 基于置信传播方法的数据重建

4.5.1 置信传播介绍

4.5.2 数据推断

4.6 质量保证策略

4.6.1 质量评估

4.6.2 质量改善

4.7 实验评估

4.7.1 实验设置

4.7.2 节点选择算法分析

4.7.3 近似推断结果分析

4.8 本章总结

第五章基于RNN的数据缺失处理及预测方法

5.1 引言

5.2 相关工作

5.3 低延迟保证策略

5.4 基于LSTM模型的缺失数据集预测

5.4.1 LSTM模型

5.4.2 基于RNN的缺失数据预测方法

5.4.3 输入数据建模

5.5 基于RNN的水下数据收集框架

5.6 实验评估

5.6.1 实验设置

5.6.2 延迟和能耗分析

5.6.3 LSTM-Decay性能分析

5.7 本章总结

第六章总结与展望

参考文献

作者简介及在学期间所取得的科研成果

致谢

文章摘要:近年来可提供实时处理能力的流式计算已成为大数据研究和应用领域关注的热点。虽然面向在线处理需求的分布式流数据处理模型已被广泛应用于加快数据处理速度,但是数据的指数级增长和实时性需求的增加仍为流数据处理带来了极大挑战。近似计算技术通过牺牲少量精确度,能够有效地缓解大规模流数据处理的高耗时和高时效性之间的矛盾。因此,研究流数据实时近似处理相关技术,对提高系统处理效率、减少资源消耗、满足实时性需求具有至关重要的意义。然而,近似技术在提高处理效率同时也会降低输出结果的精度,近似计算有效的前提是能够为数据质量提供适当的评估和保证,不可控制的质量损失会抵消近似带来的收益。因此,如何选择适应于不同应用的近似方法,对近似计算所得的结果进行质量评估,进而选择在相应的阶段进行不同程度的近似,尽可能地降低精度损失,是利用近似技术处理流数据时亟需解决的问题。本文基于上述问题,主要开展大规模流数据应用中近似处理技术和数据质量问题的研究。以采样近似技术为核心,综合考虑数据规模、处理能力及数据质量等因素,设计通用或应用专用的流数据近似处理方法和质量保证策略。同时针对典型应用场景—物联网,研究采样思想在传感数据流近似收集中的运用,以及通过与其他近似技术的有效结合,如何确保收集数据的质量。本文的具体工作和主要贡献如下:1.从数据处理能力角度,考虑数据规模超过计算能力的情况,提出大规模流数据的在线自适应近似处理方法及误差控制策略。为解决实时流数据分析中获取数据认知和控制输出误差问题,提出一个动态自适应近似数据分析框架。首先,面向持续到达的流数据,设计了在线数据学习策略,该策略能够自动学习数据子层权值,并根据反馈信息进行触发式更新;其次,设计了基于采样的近似算法,考虑实时负载的变化对采样资源需求的影响;最后,根据用户提出的不同误差需求,提出了用户自定义的在线误差控制策略,该策略检测近似输出并及时纠正较大误差。2.从数据采样节点角度,考虑如何优化采样节点部署,解决大规模传感数据流的近似收集和数据重建问题。结合具体的水下传感网络应用场景,提出了基于骨干网络的近似数据收集策略,该策略同时考虑近似操作和水下频繁数据丢失对数据质量的影响。然后利用置信传播算法对未收集及由传输导致的缺失数据进行推断,综合考虑时间、空间、多元等多种因素对缺失数据进行高质量的数据恢复。为确保数据质量满足用户需求,提出了基于统计理论的质量评估方法,对推断后的数据进行质量评估和改善。3.从数据资源重要性角度,考虑不同频率的数据缺失情况,解决（近）实时的传感数据流收集问题。结合水下传感网络应用场景,提出基于RNN的低开销高质量的水下数据近似收集方法。首先,在数据传输中放弃了传输协议中使用的自动重传机制,并将由此所造成的数据丢失转移到数据中心去处理。考虑不同程度的数据缺失情况,提出一种基于RNN的数据学习模型来有效地处理数据丢失问题,该模型通过综合考虑数据缺失特征和变量相关性,对空间或变量相关的数据进行缺失值填充和预测。针对通用场景和具体应用场景,本文设计了高效的数据流近似处理策略,并在设计近似策略的同时考虑资源调度与质量结果之间的耦合关系,深入研究数据源端近似收集方法、近似分析方法、误差分析和控制等相关机制。

文章来源：《计算数学》网址: http://www.jssxzz.cn/qikandaodu/2021/1110/759.html