01.08 如何建立非線性迴歸預測模型

2020-01-08 20:19:00 醫咖會

在統計分析中，根據變量的不同類型可以建立不同的預測模型，如果因變量是連續型變量，最常見的是建立線性迴歸模型。但是，建立線性迴歸模型有很多前提條件（可以參考：SPSS操作：簡單線性迴歸（史上最詳盡的手把手教程））。

由於實際的臨床研究中，變量之間關係複雜，因變量和自變量之間並非呈現線性關係，如果強行建立線性迴歸模型，就會影響模型的預測準確性。那麼對於此類數據，因變量和自變量之間可能是複雜的非線性函數關係，我們可以嘗試建立非線性迴歸模型，例如曲線模型、迴歸樣條等。

本期內容我們將通過案例分析，結合R軟件介紹如何建立非線性迴歸模型。

案例說明（模擬數據）

臨床中心衰、肝硬化的病人，常伴有體液瀦留和低鈉血癥，醫生會選擇使用託伐普坦進行超濾治療，但是目前這個藥物價格昂貴，未能廣泛使用。

假設有一種新的利尿劑上市，價格便宜，且具有類似作用。為了探究新利尿劑的治療效果，研究人員開展了一項臨床試驗，共入組149人（數據庫名稱為urinetest），因變量為患者每日尿量（變量名為urine），自變量為每日新利尿劑使用劑量（變量名為dosage）。

研究目的是為兩者建立最合適的迴歸模型，

分析步驟如下：

1、初步探索數據

2、建立簡單線性迴歸

3、建立曲線方程

4、建立分段迴歸

5、建立樣條迴歸

6、構建局部加權迴歸

7、建立廣義可加模型

8、總結

分析步驟

分析數據前的準備工作

1、點擊impordataset導入數據urinetest

2、數據預覽，View（urinetest）

3、加載相關的包，請加載前用install.packages命令安裝好

library(ggplot2)

library(segmented)

library(splines)

library(Hmisc)

library(rms)

library(mgcv)

library(caret)

一、數據探索

ggplot(urinetest, aes(dosage, urine) )+geom_point#繪製散點圖

從圖形可以看出，當利尿劑使用劑量<25ml時，病人的尿量在2000-2300ml之間波動。當利尿劑劑量為25-30ml時，兩者成線性關係。當>30ml時，隨著利尿劑劑量的增加，尿量不再出現明顯的變化。

由此看出，兩者呈現出一種非線性的變化關係，存在閾值效應和飽和效應，在不同藥物劑量範圍內，劑量-反應關係函數差別很大，如果強行用單一的線性迴歸來建立預測建模，不符合臨床實際，模型預測的準確性將會大打折扣。下面我們先用線性迴歸來分析一下。

二、建立線性迴歸模型

model.lm

summary(model.lm)#查看回歸模型結果

模型結果如下：

（1）殘差的最大值、最小值、中位數等，描述的是預測值和實際值之差的分佈；

（2）迴歸方程的係數和統計學檢驗結果；

（3）模型的擬合情況。其中Residual standard error為殘差標準誤，是模型用自變量預測因變量的平均誤差，該值越小說明模型擬合越好；Adjusted R-squared為調整R²，可理解為模型對數據集的解釋程度，該值越大模型擬合程度越好。本研究中線性迴歸模型的殘差標準誤的值為159.8；調整R²為0.5902。

接下來看看線性迴歸的擬合效果

ggplot(urinetest, aes(dosage, urine) ) +

geom_point +

stat_smooth(method = lm, formula = y ~ x)

從圖形可以直觀看出擬合直線與數據點存在一定的偏離，擬合效果不佳。

三、建立曲線方程

下面嘗試用曲線模型去擬合，例如對數曲線型、指數曲線型、S曲線型等。我們以對數曲線為例。

model.log

summary(model.log)#查看模型概況

對數曲線模型的殘差標準誤的值為151.5，調整R²

為0.6318，兩個指標比簡單線性迴歸模型略有提高。

#擬合曲線

ggplot(urinetest, aes(dosage, urine)) +

geom_point +

stat_smooth(method = lm, formula = y ~ log(x))

從圖形可以看出，擬合曲線的效果較直線有所改善。

四、建立分段迴歸模型

在數據探索時我們發現，藥物劑量和尿量的散點圖分佈呈現三段式變化特徵，我們以此為依據，建立一個分段迴歸模型。在R中我們可以使用segmented這個包。

model.segmented

summary(model.segmented)#查看模型概況

分段迴歸結果顯示，軟件自動將模型分成了兩段，拐點為dosage=32.534，殘差標準誤為124.9，調整R²為0.7499，兩個指標較曲線模型得到了進一步提升。

#查看擬合效果

plot(dosage,urine, pch=1, cex=1.5)

abline(a=coef(model.lm)[1],b=coef(model.lm)[2],col="red",lwd= 2.5)

plot(model.segmented, col='blue', lwd= 2.5 ,add=T)

在構建的上述模型中，函數自動將模型分成了兩段。但根據對散點圖的分析，我們認為將模型分為三段更為合適，此時可以手動設置25和30兩個劑量拐點，軟件會自動尋找附近的點做為最佳拐點。

#手動設置拐點，分三段迴歸

model.segmented2

summary(model.segmented2)#查看模型概況

軟件找到的兩個最佳拐點分別為24.075和30.166，此時分段迴歸模型的殘差標準誤為99.01，調整R²為0.8427，預測效果比曲線模型明顯提升。

#查看擬合效果

plot(dosage,urine, pch=1, cex=1.5)

abline(a=coef(model.lm)[1],b=coef(model.lm)[2],col="red",lwd= 2.5)

plot(model.segmented2, col='blue', lwd= 2.5 ,add=T)

五、樣條迴歸

上述提到的曲線方程和分段迴歸兩種方法都有一定的缺點。曲線方程是非局部的，當某一個因變量的值發生變化時，即使距離很遠的點也會受到影響。如果採用多項式建立曲線方程，當多項式的冪較高時，自變量的一個微小變化，就會引起因變量很大的變化，得出的模型不適合外推到其他數據樣本。而在分段迴歸模型中，每一段都是基於線性迴歸而建立的，拐點之間的連接顯得比較生硬。

那麼有沒有辦法建立一個既具有分段迴歸模型的優點，又可以擬合比較平滑的模型呢？樣條迴歸則兼具曲線方程和分段迴歸的優點，可以靈活的分段展示自變量與因變量之間的關係。樣條迴歸把數據集劃分成一個個連續的區間，劃分的點稱為節點，每個節點之間用單獨的模型（線性函數或者低階多項式函數）來擬合。節點越多，模型就越靈活。但是過多的節點也會導致過擬合問題，所以一般先嚐試設置3個節點為宜。

樣條迴歸很多種，我們主要講限制性立方樣條回歸。

model.spline

summary(model.spline)#查看模型概況

樣條迴歸模型的殘差標準誤為139.6，調整R²為0.6872。比線性迴歸和曲線迴歸好，但不如分段迴歸。

#樣條迴歸擬合效果

ggplot(urinetest, aes(dosage, urine) ) +

geom_point +

stat_smooth(method = lm, formula = y ~ rcs(x, c(20,30,35)) )

六、Lowess函數建立局部加權迴歸

以上介紹的模型都是參數模型，選擇什麼樣的曲線，設置多少個拐點，這些步驟都需要進行嘗試，但也會容易出現過擬合現象。於是有學者提出了Lowess非參數迴歸，它沒有迴歸係數可估計，只是在尋找一條擬合效果相對更好的曲線。

model.lowess

summary(model.lowess)#查看概況

#查看擬合

ggplot(urinetest, aes(dosage, urine)) +

geom_point +

stat_smooth

局部加權給一般只做數據探索，stat_smooth就是默認用lowess畫擬合圖

七、廣義可加模型

和lowess函數一樣，廣義可加模型也無法給出明確的係數，但它的適用範圍更廣，可以執行因變量與多個自變量之間的各種非參數擬合。

它可以是任意的單變量函數的疊加，這些函數既可以是線性，也可以是非線性。它的因變量可以服從二項分佈、Poisson分佈、Gamma分佈等更廣義的範疇。它的任務就是根據目前的數據，找出一條最貼合的曲線。

model.gam

summary(model.gam)#查看模型概況

廣義可加模型的調整R²為0.837，但沒有給出殘差標準誤的結果，所以我們需要利用模型生成預測值，用預測值和真實值進行比較，得出殘差標準誤為98.5，是上述眾多模型中表現最優秀的。

pr.gam

#計算RSME和R方

data.frame(RMSE = RMSE(pr.gam, urinetest$urine),

R2 = R2(pr.gam, urinetest$urine))

#查看模型擬合情況

ggplot(urinetest, aes(dosage, urine) ) +

geom_point +

stat_smooth(method = gam, formula = y ~ s(x))

從圖形可以看出，廣義可加模型的曲線擬合效果非常好。雖然模型在本數據集中表現良好，但仍需要注意過擬合的情況。

八、總結

各個模型的擬合指標比較

通過比較模型指標，雖然廣義可加模型表現較好，可是它並不能提供係數，無法解釋變量之間的內在聯繫。而結合了專業背景而建立的分段迴歸模型表現相對更為優異。

分段迴歸的結果彙總如下：

為方便臨床應用，我們將劑量節點取整，分別為A=24和C=30，分段迴歸方程的書寫格式為：

Y=β0+β1X1+β2（X1-A）X2+β3（X1-C）X3

（1）當X1≤A時，即X≤24時，X2=0，X3=0，

Y=β0+β1X1=2168.470-0.692*X

（2）當A＜X1≤C，即24＜X≤30時，X2=1，X3=0，

Y=β0+β1X1+β2（X1-A）X2=2168.470-0.692*X+92.703*(X-24)=-56.402+92.011*X

（3）當X1＞C，即X＞30時，X2=1，X3=1，

Y=β0+β1X1+β2（X1-A）X2+β3（X1-C）X3

=2168.470-0.692*X+92.703*(X-24)-96.839*(X-30)=2848.768-4.828*X

由醫咖會與心聯喬治心臟健康研究中心（HHRC）聯合建立的心血管研究協作網絡及數據共享平臺（CDS）已經上線！

目前開放共享的數據為“中國房顫註冊研究”，共有2.5萬多房顫數據，歡迎來申請使用數據，發表SCI論文！

分享到:

閱讀更多 醫咖會 的文章

關鍵字: 非線性數據庫模型

數據庫講壇｜有關阻塞與非阻塞、同步與異步、I/O 模型-愛可生

迴歸分析預測法(Regression Analysis Prediction Method)

HanLP的CoreBiGramTableDictionary讀取自己訓練的模型Bug解決

AI 基礎：模型、算法和訓練的關係及遷移學習

03.05 AI 基礎：模型、算法和訓練的關係及遷移學習

02.29 「Django 學習筆記」2、模型

代碼也能預訓練，微軟&哈工大最新提出 CodeBERT 模型，支持自然-編程雙語處理

模型、參數、非線性、前向傳播、反向偏微分｜深度學習入門

關於SVM,LR,和GBDT的介紹理解

正則化到底是怎麼消除過擬合的？這次終於有人講明白了

一文讀懂線性迴歸、嶺迴歸和Lasso迴歸

軟件測試模型之 W 模型

03.14 企業財務報表模型圖完整版

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

01.08 如何建立非線性迴歸預測模型

相關文章:

數據庫講壇｜有關阻塞與非阻塞、同步與異步、I/O 模型-愛可生

迴歸分析預測法(Regression Analysis Prediction Method)

HanLP的CoreBiGramTableDictionary讀取自己訓練的模型Bug解決

AI 基礎：模型、算法和訓練的關係及遷移學習

03.05 AI 基礎：模型、算法和訓練的關係及遷移學習

02.29 「Django 學習筆記」2、模型

代碼也能預訓練，微軟&哈工大最新提出 CodeBERT 模型，支持自然-編程雙語處理

模型、參數、非線性、前向傳播、反向偏微分｜深度學習入門

關於SVM,LR,和GBDT的介紹理解

正則化到底是怎麼消除過擬合的？這次終於有人講明白了

一文讀懂線性迴歸、嶺迴歸和Lasso迴歸

軟件測試模型之 W 模型

03.14 企業財務報表模型圖完整版

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

一個人現在適合去哪裡旅遊？

如果通脹增大，房價卻不漲，那麼用什麼資產來保值可以抵抗通脹？

你會選擇的存單，還是理財？為什麼？

有哪些風險較小、所需成本較低的理財投資產品？

春節過後不想打工了想自己創業，又不知道有什麼好的項目投資，在三四萬之內的有什麼好的建議？

身為國字號控衛的劉煒，運球水平在NBA怎麼只能達到中鋒的運球水平？

全新天籟怎麼樣？

人應該合群嗎？

20萬預算，能買到什麼樣的MPV？

rav4 2019款兩驅風尚X限量版國Ⅴ和國Ⅵ在配置上有什麼不同？

你認為有無私的人嗎？

你認為哪個明星最具搞笑天分？

說一說你們單位發的奇葩“年貨”？

你經歷過什麼搞笑的事情？

人到中年萬事休，春節過後，50歲的中年人還需要為理想而奮鬥嗎？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪