百度推广手机网站杭州百度公司在哪里
2026/4/14 20:41:34 网站建设 项目流程
百度推广手机网站,杭州百度公司在哪里,dw网站建设模板,网站推广方式主要通过一、K-means 1.基本概念 聚成多少个簇#xff1a;需要指定K的值 距离的度量#xff1a;一般采用欧式距离 距离#xff1a; 曼哈顿距离#xff1a; 欧式距离#xff1a; 2.聚类效果的评价方式#xff1a;轮廓系数 a#xff08;i#xff09;#xff1a;对于第i个元…一、K-means1.基本概念聚成多少个簇需要指定K的值距离的度量一般采用欧式距离距离曼哈顿距离欧式距离2.聚类效果的评价方式轮廓系数ai对于第i个元素xi计算xi与其同一个簇内所有其他元素距离的平均值表示了簇内的凝聚程度。bi选取xi外的一个簇计算xi与该簇内所有点距离的平均距离遍历其他所有簇取所有平均值中最小的一个表示簇间的分离度。计算所有x的轮廓系数求出平均值即为当前聚类的整体轮廓系数。轮廓系数的评价1.轮廓系数范围在[-11]之间。该值越大越合理。2.si接近1则说明样本i聚类合理3.si接近-1则说明样本i更应该分类到另外的簇4.若si近似为0则说明样本i在两个簇的边界上。3.K-means的API参数classsklearn.cluster.KMeans(n_clusters8,init’kmeans’,n_init10,max_iter300,tol0.0001,precompute_distances’auto’,verbose0,random_stateNone,copy_xTrue,n_jobsNone,algorithm’auto’)[source]n_clusters:类中心的个数,就是要聚成几类。【默认是8个】init参初始化的方法默认为k-means(1)k-means:用一种特殊的方法选定初始质心从而能加速迭代过程的收敛.(2)‘random’:随机从训练数据中选取初始质心。(3)如果传递的是一个ndarray则应该形如 (n_clusters, n_features) 并给出初始质心。4.优缺点优点简单快速适合常规的数据集。缺点1.K值难以确定。2.很难发现任意形状的簇。二、DBSCAN1.概念基于密度的带噪声的空间聚类应用算法它是将簇定义为密度相连的点的最大集合能够把具有足够高密度的区域划分为簇并在噪声的空间数据集中发现任意形状的聚类。2.实现过程1.输入数据集2.指定半径3.指定密度阈值3.DBSCAN的API参数classsklearn.cluster.DBSCAN(eps0.5,min_samples5,metric’euclidean’,metric_paramsNone,algorithm’auto’,leaf_size30,pNone,n_jobsNone)eps DBSCAN算法参数即我们的ϵϵ-邻域的距离阈值和样本距离超过ϵϵ的样本点不在ϵϵ-邻域内。默认值是0.5.一般需要通过在多组值里面选择一个合适的阈值。eps过大则更多的点会落在核心对象的ϵϵ-邻域此时我们的类别数可能会减少 本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大本来是一类的样本却被划分开。min_samples DBSCAN算法参数即样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值。默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下min_samples过大则核心对象会过少此时簇内部分本来是一类的样本可能会被标为噪音点类别数也会变多。反之min_samples过小的话则会产生大量的核心对象可能会导致类别数过少。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询