無監督機器學習算法：聚類

2020-03-23 12:21:04 邊際實驗室

聚類是另一種無監督機器學習方法，該方法將數據點分為相似的組，稱之為“類”。一個類包含來自數據集的一個觀察子集，同一類中的所有觀察值都被認為是“相似的”。每個類裡觀測值彼此之間接近(稱為內聚)，兩個不同的類裡的觀測值彼此遠離或者儘可能不同(稱為分離)。下圖描述了類的內聚和分離。

聚類算法在許多投資問題中特別有用。例如，在對公司進行分組時，類可以發現公司之間的重要相似性和差異性，而這些相似性和差異性可能不會被標準的行業分類所捕捉。在投資組合管理中，聚類方法被用來改善投資組合的多樣化。

在實踐中，專家判斷在聚類算法中起著一定的作用。首先，專家必須確定什麼是“相似”。每個公司都可以被認為是一個具有多種特徵的觀察值，包含營業收入、利潤、財務比率等財務數值，以及其他潛在的模型輸入值。有了這些特徵值，兩個觀測值之間的相似度或“距離”就可以被定義。距離越小，觀測結果越相似；距離越大，觀測結果越不相似。

一個常用的定義方法是歐幾里得距離，即兩點之間的直線距離。在機器學習中，經常使用的距離度量有十餘種。在實踐中，距離度量的選擇取決於數據的性質(是否是數值)和被分析的業務類別。

一旦定義了相關的距離度量，我們就可以將類似的觀測結果分在一起。我們現在介紹兩種比較流行的聚類方法:K-Means和分層聚類。

K-Means

K-Means是一種相對較老的算法，它將觀察值重複劃分為一個固定的數字k（不重疊的類）。類的數量k是一個模型超參數，它的值由研究人員在學習開始之前設置。每個類由它的形心(centroid，即中心)定義，每個觀測值都由算法分配到與該觀測值最接近的形心的類中。

K-Means算法遵循迭代過程。如下表所示，k=3和一組關於變量的觀察結果可以用兩個特徵來描述。

在表中，水平軸和垂直軸分別代表第一和第二特徵。例如，投資分析師可能希望將一組公司用兩個測量標準分成三類。

算法將觀測數據按以下步驟進行分類:

1、首先確定k(本例為3)個初始隨機形心的位置。

2、算法分析每個觀測值的特徵。基於使用的距離度量，K-Means將每個觀測值分配給最近的形心（類由形心定義）。

3、藉助每個類中的觀測值，K-Means算法在計算每個類新的(k個)形心（形心是觀測值的平均值）。

4、然後將觀測結果重新分配到新的形心，根據觀測結果對類重新定義。

5、再次進行新的(k個)形心及類的確定過程。

K-Means算法將繼續迭代，直到沒有觀察結果被重新分配到另一個新的類(即不需要重新計算新的形心)。該算法最終收斂並得到最後的K個類及類內的觀察值。在k=3的約束下，K-Means算法最小化了類內的距離(內聚最大化)，最大化了類間距離(分離最大化)。

K-Means算法速度快，在擁有上億個觀測數據的數據集上運行良好。但是，類的最終分配可能取決於形心的初始位置。為了解決這個問題，可以使用不同的形心多次運行該算法，然後根據業務目的選擇最有用的分類。

這種技術的一個限制是，在運行K-Means之前，必須確定類的數量（超參數k）。

因此，我們需要知道，研究問題及分析數據集，選擇多少個類是合理的。或者，可以選擇k的取值範圍，通過運行算法找到最優的類的數量——使類內距離最小，類內的相似度最大。但是，最終結果仍可能過於主觀。

以羅素3000指數為例，該指數跟蹤美國市值最高的3000只股票。這3000支股票可以根據財務特徵(如總資產、總收益、盈利能力、槓桿率等)和經營特徵(如員工人數、研發費用等)分為10個、50個甚至更多的類。由於處於同一行業類別中的公司可能具有非常不同的財務和運營特徵，因此使用K-Means派生出不同的類可以為“同類”群體的性質提供獨特的理解。如前所述，k的準確選擇取決於所需的精度或分割的水平。我們還可以使用聚類對投資工具或對沖基金進行分類，作為標準分類的替代方法。聚類還可以幫助實現可視化數據，並有助於檢測趨勢或異常值。

總而言之，K-Means算法是投資實踐中最常用的算法之一，特別是在高維數據中發現特有模式及作為現有靜態行業分類的替代方法等方面。

分層聚類

分層聚類是一種用於構建層次類結構的迭代過程。在K-Means聚類中，算法將數據分割成預定數目的聚類;類之間沒有定義的關係。然而，在分層聚類中，算法會創建大小遞增(“內聚”)或遞減(“分離”)的中間類，直到達到最終的聚類。正如“分層”一詞所暗示的，該過程在多層類之間創建關係。雖然與K-Means聚類相比，分層聚類的計算量更大，但它的優點是允許分析師在決定使用哪種間隔的數據之前檢查不同間隔數據的分段。

更詳細地說，內聚式(自下至上)分層聚類先將每個觀察值作為自己的類。然後，算法根據距離(相似度)的度量找到兩個最近的類，並將它們合併成一個新的更大的類。這個過程不斷重複，直到所有的觀察值都聚集成一個類。下表中的A表描述了一個內聚聚類的假想示例，其中的觀察結果用字母表示(A到K)，觀察結果周圍的圓圈表示類。這個過程從11個單獨的類開始，然後生成分組序列。第一個序列包括6個類，有5個類各自有2個觀測值，1個類有單個觀測值G。接下來生成2個類，一個類有6個觀測值，另一個類有5個觀測值。最後的結果是一個包含所有11個觀測值的大類，該大類包括兩個主要的子類，每個子類包含三個較小的孫類。

相反，分離式(自上而下)分層聚類從單個類的所有觀察值開始。然後根據距離(相似度)將觀測結果分成兩個類。然後，該算法逐步將中間類劃分為更小的類，直到每個類只包含一個觀察值。B表描述了分離式聚類的步驟，它以一個包含11個觀察值的類開始，算法生成兩個較小的類，一個有6個觀測值，另一個有5個觀測值;然後再分為6個類;最後生成11個類，每個類只包含一個觀測值。

在這個假設的例子中，內聚式和分離式聚類產生了相同的結果：兩個主要的子類，每個子類有三個更小的孫類。我們可以在6個類或2個類之間進行選擇。由於計算速度快，內聚式聚類是處理數據集的常用方法。內聚式聚類算法根據局部模式進行決策，不考慮數據的全局結構。因此，內聚式聚類非常適合於對較小的類進行識別。由於分離式聚類先從整體開始，所以常被側重於分析數據的全局結構，因此更適合於識別較大的類。

為了確定內聚式和分離式聚類的最佳結果，需要對兩個類之間的距離有明確的定義。一些常用的定義包括求每個類中所有觀測值之間直線距離的最小值、最大值或平均值。

完

如果喜歡本文，請點轉發讓更多人看到。
原創不易，感謝您的支持！

更多邊際實驗室原創內容
有監督學習算法介紹：K近鄰與決策樹（分類與迴歸樹）
懲罰迴歸算法與支持向量機
有監督學習中防止過擬合的方法
算法的性能評估及過擬合

分享到:

閱讀更多 邊際實驗室 的文章

關鍵字: 投資監督證券投資基金

項目沒數據？那是沒收藏這個80KStar項目！

性能不打折,內存佔用減少90%,Facebook提模型壓縮方法Quant-Noise

人工智能實戰項目：使用OpenCV和Python構建自己的車輛檢測模型

01 10分鐘全面搞定Anaconda的安裝和使用（windows環境）

【算法】排序算法之桶排序

【算法】排序算法之計數排序

【算法】位運算與經典八皇后問題

Gitee 上最不明覺厲的項目：用代碼創造出一個人工生命

全面系統的大數據工程師必備知識與工具

百戰程序員出品這套420集的全套Python教程，進階大佬不是夢

視頻分析與對象跟蹤-CamShift 算法

為什麼要讓孩子學python，python風靡全球。AI？大數據？都看他！

零基礎小白怎麼學Python？Python基本概念最全圖送你

看完此文若還不能讓你完美的入門Python，我將永遠退出編程界

小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門（附教程）

零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

03.05 零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

03.05 零基礎小白這麼學Python！Python的基本概念最全圖帶你輕鬆入門

深入理解 React diff 算法

圖像分割實戰-分水嶺分割方法和GrabCut 算法

零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

02.29 零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

02.28 零基礎小白應該怎麼學Python？Python基本概念最全圖帶你輕鬆入門

快速入行AI有訣竅 Python基礎全套視頻合集不容錯過

02.26 通過深度學習來創作自己的音樂（附代碼）

一文讀懂 MD5 算法

我被“拖庫”了！黑客刪庫後留下這段話

01.09 我被“拖庫”了！黑客刪庫後留下這段話

C++基礎知識-算法

palindrome(迴文)算法

11.26 哈工大碩士生用Python 實現了 11 種經典數據降維算法，源代碼庫已開放

11.23 常用的Python幾種主動結束程序方式，學會了就是賺到（建議收藏）

Python的這8個發展方向你知道嗎？附Python全集資料

用講故事的辦法幫你理解 SMO 算法

算法--平衡二叉樹AVL原理分析以及代碼實現

算法-二叉查找樹BST

10.12 CPK的“另類”算法

貝葉斯個性化排序(BPR)算法

ThunderGBM：快成一道閃電的梯度提升決策樹

02.03 作為搞軟件的你，與其抖音，不如學習！

01.10 路徑規劃之 A* 算法

算法：加權輪詢算法

算法：分治算法

08.13 服務器性能優化的8種常用方法

簡明數據科學第二部分：統計學習的關鍵概念

Python數據預處理：使用Dask和Numba並行化加速

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

無監督機器學習算法：聚類

K-Means

分層聚類

相關文章:

項目沒數據？那是沒收藏這個80KStar項目！

性能不打折,內存佔用減少90%,Facebook提模型壓縮方法Quant-Noise

人工智能實戰項目：使用OpenCV和Python構建自己的車輛檢測模型

01 10分鐘全面搞定Anaconda的安裝和使用（windows環境）

【算法】排序算法之桶排序

【算法】排序算法之計數排序

【算法】位運算與經典八皇后問題

Gitee 上最不明覺厲的項目：用代碼創造出一個人工生命

全面系統的大數據工程師必備知識與工具

百戰程序員出品這套420集的全套Python教程，進階大佬不是夢

視頻分析與對象跟蹤-CamShift 算法

為什麼要讓孩子學python，python風靡全球。AI？大數據？都看他！

零基礎小白怎麼學Python？Python基本概念最全圖送你

看完此文若還不能讓你完美的入門Python，我將永遠退出編程界

小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門（附教程）

零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

03.05 零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

03.05 零基礎小白這麼學Python！Python的基本概念最全圖帶你輕鬆入門

深入理解 React diff 算法

圖像分割實戰-分水嶺分割方法和GrabCut 算法

零基礎小白 怎麼學Python？Python基本概念最全圖帶你輕鬆入門

02.29 零基礎小白 怎麼學Python？Python基本概念最全圖帶你輕鬆入門

02.28 零基礎小白應該怎麼學Python？Python基本概念最全圖帶你輕鬆入門

快速入行AI有訣竅 Python基礎全套視頻合集不容錯過

02.26 通過深度學習來創作自己的音樂（附代碼）

一文讀懂 MD5 算法

我被“拖庫”了！黑客刪庫後留下這段話

01.09 我被“拖庫”了！黑客刪庫後留下這段話

C++基礎知識-算法

palindrome(迴文)算法

11.26 哈工大碩士生用Python 實現了 11 種經典數據降維算法，源代碼庫已開放

11.23 常用的Python幾種主動結束程序方式，學會了就是賺到（建議收藏）

Python的這8個發展方向你知道嗎？附Python全集資料

用講故事的辦法幫你理解 SMO 算法

算法--平衡二叉樹AVL原理分析以及代碼實現

算法-二叉查找樹BST

10.12 CPK的“另類”算法

貝葉斯個性化排序(BPR)算法

ThunderGBM：快成一道閃電的梯度提升決策樹

02.03 作為搞軟件的你，與其抖音，不如學習！

01.10 路徑規劃之 A* 算法

算法：加權輪詢算法

算法：分治算法

08.13 服務器性能優化的8種常用方法

簡明數據科學 第二部分：統計學習的關鍵概念

Python數據預處理：使用Dask和Numba並行化加速

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

02.29 零基礎小白怎麼學Python？Python基本概念最全圖帶你輕鬆入門

簡明數據科學第二部分：統計學習的關鍵概念

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪