当前位置 :首页 >> 明星

方法学算法之KNN

2024-12-14   来源 : 明星

什么并不一定的人。

由此可知3:KNN形态学的半径权重示意由此可知

除了半径权重都是,另外一个相似的比如说性点就是查看解法。KNN本质上是算出次测试点与所有体能训练原始数据点的半径,然后查看寻找其之中近期的N个邻接,这也是最耗费算力的地方。如果体能训练集原始数据量很大,而还用种族收纳义查看量化方法的话,整体的体能训练可靠性就才会大幅提高。所幸关于查看解法,并未有丰富的研究形同果和比如说的自由选择,例如KD Tree和Ball Tree就是KNN反复之中比如说性查看的近似于解法。其之中KD Tree针对特例半径可靠性较较低,Ball Tree可以使用较低维半径。

KNN优在技术上与实际上应用领域

认识到完KNN解法的构建,我们再进一步回过来想想KNN的特点。

KNN解法的优点:

1. 构建有趣。与很多其他原始系统设计解法再进一步加适合于的微积分和群论等微积分原理相比之下,KNN的微积分原理和就其构建都有趣同样,大概只需初之中微积分就能断定。

2. 鲁棒性好。KNN对体能训练原始数据之中的出现异常差值并不极端,对增益相对来说来说的原始数据具有较好的鲁棒性。

3. 对非差分原始数据特性好,因为在这个解法之中没有关于原始数据的断言,不并不需要认真差分转回。

4. 量化特性好。如果体能训练原始数据颇为大,它可以不够必要。

KNN解法的在技术上或局限:

1. 总是并不需要具体K的差值,这也许是一个适合于和反复检查和的反复。

2. 算出形同本较低。因为要算出所有体能训练样本的原始数据点相互间的半径,所以量化反复之中并不需要打印所有体能训练原始数据,对寄存器的尽快很较低。

3. 随着体能训练原始数据量的变小,其量化低速也相对来说来说变慢。

4. 对原始数据的规模和不相关的特点颇为极端。

那么在实际上工程应用领域之中,哪里有KNN的看到呢?

1. 银行业信用评级。KNN可使用银行业系统,量化一个人到底适合额度审批?这个人到底具有与违约者相似的特点?

2. 句法识别系统。在KNN解法的帮助下,我们可以将输入的句法原始数据透过形态学,量化说话人的意由此可知。

3. 手写就样品。KNN也近似于来识别系统手写就字体的由此可知像,常常是阿拉伯数字。

4. 货车行为量化。KNN可以通过前车的同步青年运动原始数据,量化其下一步的也许动作。

5. 网路重新占总领样品。KNN可以根据网路特点原始数据,来推论当前网路到底被炮轰。

KNN的Python实例

Sklearn之中就有KNN形态学器的变数“KNeighborsClassifier”,官方的说明材料很详尽。这里为了不够加新颖地理解KNN解法,我们重新手写就一下编码,认真一个Python下的原始数据科学研究。

如上文所述,KNN近似于与网路重新占总领样品(IDS)。这个原始数据科学研究我们就用NSL-KDD原始数据集。这是网路安全领域相对来说权威的一个重新占总领样品原始数据集,可以根据网路特点原始数据,样品到底有重新占总领发生,归属于哪种并不一定的炮轰重新占总领。IDS愈来愈多地在车载网路上兴起,包括AUTOSAR Adaptive之中也转到了该模块。总体初衷是车端域控制器或者算出应用领域软件收集特点的网路原始数据,并通过车联网上载的电脑量化,样品货车网路有没有被炮轰或者重新占总领。

NSL-KDD原始数据集可分了很多炮轰并不一定,在这个科学研究之中,我们将其改组形同5大类,如下此表此表。

此表1:NSL-KDD原始数据集概况

NSL-KDD原始原始数据集原始数据不连续性,也含文本特点,所以并不需要作实例,包括重采样、文本特点独热编码和归一化等,这里不参考揭开。实例后的原始数据集概况如下此表2此表。

此表2:原始数据科学研究所用原始数据集概况

而这个原始数据科学研究的大体上流程如下由此可知此表,先借助体能训练集a、b通过粗调和细调具体K差值,然后再进一步量化次测试集并赞赏:

由此可知4:原始数据科学研究理论上流程

其之中寻找K个特例半径近期的原始数据的编码如下:

然后在K个邻接之中寻找并不一定占总比最多的变数:

之后是KNN形态学器的收纳变数:

基于体能训练原始数据a, 让K在1到1000的范围内以为了以20由此而来差值,量化体能训练原始数据b,并和原始数据b的此表单反馈鉴定,得出K与准确度的人关系如下由此可知。

由此可知5:粗调下K由此而来差值与准确度的人关系

由此按照550到650的范围内以为了以1由此而来差值,得出如下的K与准确度人关系。由此,我们具体K由此而来差值582。

由此可知6:细调下K由此而来差值与准确度的人关系

基于具体的K差值,代入次测试原始数据集的原始数据,并量化结果。将量化结果和次测试集的标注对比得到如下的数学模型赞赏这两项:

由此可知7:KNN形态学器数学模型赞赏

从赞赏这两项看,总体准确度还有提升的空间,并不相同的炮轰并不一定的准确度和被免职率也各有并不相同。例如Dos炮轰用意是耗尽自然资源,原始数据流量出现异常相对来说相对来说来说,其形态学准确度也较较低。而远程重新占总领r2l相对来说隐匿,形态学难度也较低些。当然亦恰巧因为并不相同形态学器对并不相同炮轰并不一定的识别系统各有长短,其实重新占总领样品系统(IDS)常常部署在的电脑,也才会引入大算力下多种数学模型数据流校核的手段来不够较低网路反馈可用性。

写就在最后

本文抛砖引玉,简要了KNN的原理,并以KNN在网路重新占总领样品的应用领域作为举例来说,完形同了原始数据科学研究。近年来电脑车也的不够快发展,背后是电脑的支撑。而电脑也有望在车也产业上必要性落地。像KNN等原始系统设计解法确信将来也才会不够多地应用领域在车也产业上,不管是单车电脑、车联网下的的电脑原始系统设计、车载网路反馈安全乃至车也跨国企业文件格式管理工具等,都是电脑展示出的舞台。在这样的时代下,我们大家都学一点电脑的知识,才会不才会就像90年代末大家都学一点电脑知识一样举足轻重呢?谨以此与大家共勉。

概要来源不明:

1.

2._fig1_282448172

3._learning_with_python/machine_learning_with_python_knn_algorithm_finding_nearest_neighbors.htm

4. NSL-KDD | Datasets | Research | Canadian Institute for Cybersecurity | UNB

成都看白癜风去哪家医院比较好
合肥看白癜风去哪家医院
三亚哪的男科医院好
北京不孕不育医院哪个最好
武汉白癜风
哪个牌子的血糖仪准
如何选择血糖仪
什么样的血糖仪比较好
胃酸过多怎么治疗
家用血糖仪怎么选
深圳市天使海外投资协会第一届会员大会召开

6月17日下午,番禺区天堂外资总会第一届会员筹备会议第一次会议在蛇口天堂荟(大川)顺利召集。番禺区金融部门本局机关党委团体、副本局长王新东,县内社会变迁有组织管理本局登记管理处专员张晓芬,花都区...

友情链接