怎么样分析送检率,利用基于 ml 的异常检测进行 4g 网络优化设置
关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。
最新技术如何帮助蜂窝提供商改进他们的服务。
人工智能和机器学习已经为零售、银行或运输等行业提供了一些令人印象深刻的用例。虽然这项技术远非完美,但 ML 的进步也让其他行业受益。在本文中,我们将审视我们自己关于如何使 Internet 提供商的运营更有效的研究。
通过异常检测改进 4G 网络流量分配
前几代蜂窝网络在网络资源分配方面效率不高,始终为所有地区提供均匀覆盖。例如,您可以设想一个拥有大城市、小镇或绵延数英里的森林的广阔区域。所有这些地区都获得了相同数量的覆盖——尽管城镇需要更多的互联网流量,而森林需要的很少。
考虑到现代 4G 网络的流量更高,蜂窝提供商能够通过优化频率资源的利用来实现可观的节能效果并改善客户体验。
基于机器学习的异常检测可以预测网络各个部分的流量需求,帮助运营商更合理地分配流量。本文基于我们对来自公共领域的信息的分析,并实施了 ML 算法,以一种可能的方法有效地解决了这个问题。
这个特定问题有多种解决方案。最有趣的包括:
使用自动标记技术在蜂窝网络中进行异常检测和分类,以应用适用于 2G/3G/4G/5G 网络的监督学习。
CellPAD 是一个统一的性能异常检测框架,用于通过回归分析检测蜂窝网络中的性能异常。
数据概览
该研究是使用从实际 LTE 网络中提取的信息完成的。该数据集总共包含 14 个特征,其中 12 个是数值特征,2 个是分类特征。我们有将近 40,000 行没有缺失值(空行)的数据记录。数据分析团队将信息分为两个标记类别:
正常或 0:数据不需要任何重新配置或重新分配
异常或 1:由于异常活动需要重新配置
标签是根据网络特定部分的流量手动执行的。但是,可以选择利用神经网络进行自动数据标记。查找此功能的 Amazon SageMaker Ground Truth,或来自 Google AI 平台的数据标签服务。
数据分析结果
对标记数据的分析向我们表明,整个数据集是不平衡的。我们有 26,271 个正常值(0 级)和 10,183 个(1 级)异常值:
根据数据集,建立皮尔逊相关矩阵:
4G 网络利用率特征相关图 (Pearson)
如您所见,大量特征高度相关。这种相关性使我们能够了解数据集中的不同属性是如何相互连接的。它作为不同建模技术的基本量,有时可以帮助我们发现因果关系并根据一个属性预测另一个属性。
这次我们有完全正面和负面的属性,这可能会导致多重共线性问题,从而以不好的方式影响模型的性能。当可以从任何其他变量高度准确地线性预测多元回归模型中的一个预测变量时,就会发生这种情况。
对我们来说幸运的是,决策树和提升树能够通过在分裂时选择一个完全相关的特征来解决这个问题。当使用逻辑回归或线性回归等其他模型时,请记住它们可能会遇到此问题并且需要在训练前进行额外调整。处理多重共线性的其他方法包括主成分分析 (PCA) 和删除完全相关的特征。对我们来说最好的选择是使用基于树的算法,因为它们不需要任何调整来处理这个问题。
基本准确率是衡量分类的关键指标之一,它是正确预测与数据集中样本总数的比率。如前所述,我们的案例中有不平衡的类别,这意味着基本准确度可能会为我们提供不正确的结果,因为高指标没有显示少数类别的预测能力。
我们的准确率可以接近 100%,但在特定类别中的预测能力仍然很低,因为异常是数据集中最罕见的。我们决定不使用准确性,而是使用 F1 指标,即精度和召回率的调和平均值,这对于不平衡的分类情况非常有用。F1 指标涵盖从 0 到 1 的范围,其中 0 是完全失败,1 是完美分类。
样本可以按四种方式排序:
True Positive, TP——正标签和正分类True Negative, TN——一个负标签和一个负分类False Positive, FP——负标签和正分类False Negative, FN——一个正标签和一个负分类
以下是不平衡类别的指标:
真阳性率、召回率或灵敏度
误报率或失败
精确
真阴性率或特异性
F1-score指标 的公式为:
我们选择的算法
DecisionTreeClassifier 对我们来说是一个很好的起点,因为我们在测试选择上获得了 94% 的准确率,而无需任何额外的调整。为了使我们的结果更好,我们转向了 BaggingClassifier,它也是一种树算法,根据 F1 分数指标,它为我们提供了 96% 的准确率。我们还尝试了 RandomForestClassifier 和 GradientBoostingClassifier 算法,它们的准确率分别为 91% 和 93%。
特征工程步骤
由于基于树的算法,我们取得了很好的结果,但仍有一些增长空间,因此我们决定进一步提高准确性。在处理数据时,我们添加了时间特征(分钟和小时),增加了从“时间”参数中提取一天中部分时间的可能性,并尝试了时滞特征——这些举措并没有太大帮助。然而,有助于改进模型结果的是使用允许特征转换和数据平衡的上采样技术。
参数调整步骤
所有开箱即用的算法都显示出超过 90% 的结果,这非常好,但是使用 GridSearch 技术,可以进一步改进它们。在四种算法中,GridSearch 对 GradientBoostingClassifier 最有效,并帮助实现了惊人的 99% 的准确率,从而完成了我们最初的目标。
结论
我们在本文中强调的问题在所有提供 3G 或 4G 覆盖的移动互联网提供商中非常普遍,可以加以解决以改善用户体验。在这种情况下,“异常”被视为互联网流量的浪费。机器学习模型可以根据输入数据决定资源分配的有效性。所描述的使用 GridSearch 调优的 GradientBoostingClassifier 的用法可以帮助公司评估流量分配的效率,并建议他们需要更改哪些参数以提供最佳的用户体验。
无效的流量利用并不是数据科学在电信行业可以解决的唯一问题。合适的开发团队也可以提供欺诈检测、预测分析、客户细分、客户流失预防和生命周期价值预测等解决方案。
如发现本站有涉嫌抄袭侵权/违法违规等内容,请联系我们举报!一经查实,本站将立刻删除。