研究生(外文):Meng-Ke Hsieh
論文名稱(外文):Methods of estimating the optimal number and locations of cutpoints
指導教授(外文):Chung Chang
中文關鍵詞:概似估計量切分點個數交叉驗證AIC切分點位置多變量 Cox 比例風險模型
外文關鍵詞:cross validationcox proportional hazard modelCut pointsgenetic algorithm
在醫學中常會需要將連續型的預後因子做切分,轉換成類別型的變數,方便臨床上的判定及診斷。在傳統方法中,一般而言是找一個切分點。本文將提供一個方法,當不只一個切分點的時候,可以正確決定出切分點位置(cut point) 及切分點個數(cut number),藉由多變量Cox 比例風險模型及基因演算法,運用概似估計量當作判定最佳切分點位置的準則,及交叉驗證(cross validation) 來修正p-value、AIC ,藉此選擇正確切分點個數。最後,利用子宮頸癌(cervical cancer) 的資料來研究不同預後因子下最佳的切分點個數及切分點位置。
In clinical,we often need to cut the continuous prognostic factor into categorical variables
in order to determine the clinical diagnosis. Traditionally, there are many ways to find one cut point to divide data into two groups. This paper will provide a method, when you need more than one cut point, you can correctly determine the optimal numbers of cut points and their locations. By multivariate Cox proportional hazard model and genetic algorithm , using the log-likelihood statistic as the criterion to determine the optimal cut points, and two-fold cross validation to correct the p-value, AIC, and select the correct
number of cut points. At last, we use cervical cancer data to discuss the different prognostic
factors under the optimal number of points and their locations.
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
1 研究動機與目的 1
2 資料描述 2
2.1資料處理 2
2.2 變數介紹 2
2.2.1連續型變數 2
2.2.2離散型變數 2
3 研究方法5
3.1 Kaplan-Meier 存活函數 5
3.2 Cox 比例風險模型 5
3.3 羅吉斯迴歸(Logistic regression) 5
3.4 AIC (Akaike information criterion) 6
3.5 傳統方法 6
3.6 估計切分點個數和位置 6
3.6.1 概似比檢定Likelihood ratio test 7
3.7 校正型一誤差Corrected Type I error 8
3.7.1 部分概似函數Partial likelihood 9
3.8 兩摺交叉驗證及拔靴法Twofold Cross-Validation with bootstrap 9
3.9 基因演算法Genetic Algorithms 12
3.10 模擬 14
3.10.1 模擬設計 14
4 研究結果15
4.1 決定切分點 15
4.1.1 二元資料 15
4.1.2 存活資料 16
4.1.3 多變量存活資料 17
4.2 模擬結果 19
4.2.1 單變量模擬結果 19
4.2.2 多變量模擬結果 21
4.3 子宮頸癌資料分析 24
5 結論與結語 27
參考文獻 28
A 附錄 29
附錄 29
A.1 附錄一 29
A.2 附錄二 31
