|
本文主要在探討於種類機率(class probability)可能不等的多項式模式( multinomial model)下, 如何估計母體種類數。它在實際上有許多應用, 如: 未觀測到之動物種類數之估計、某作者字彙數之估計、某朝代錢幣種 類數之估計及軟體之錯誤數目之估計等。母體種類數的估計在生物學的應 用上是一個古典的問題。Bunge & Fitzpatrick (1993)回顧關於這個問題 的不同模式和不同方法, 他們也收集了這個題目的相關參考論文超過550 篇。本文主要討論最一般的多項式模式: 考慮一個母體,其由N個未知的不 同種類所構成。我們每次選取一個個體,記下它的種類別, 再把它放回母 體。n次個體選取完成後, 稱此選取為n階段選取(n- stage selection)。 我們的目標就是在n次選取完成後估計種類數N 。 Bunge, Fitzpatrick & Handley(1992)在其論文中提及過去處理本問題有三個主要的程序: (1) 假定多項式分配中的種類機率有某一函數形式(functional form) (例如: McNeil, 1973)。 (2) 以一有母數(parametric)機率密度函數(p. d.f)描述或近似種類機率的分配(例如: Sichel, 1986)。 (3) 無母數樣 本涵蓋率(sample coverage)方法: 藉由樣本涵蓋率的估計來估計種類數( 例如: Chao & Lee, 1992)。在樣本涵蓋率法中種類機率的變異係數( coefficient of variation)於測度母體差異(heterogeneity)時扮演重要 的角色。在本文中, 藉由樣本涵蓋率的想法, 我們提出另一個替代的無母 數方法 --- 使用鞅估計函數 (martingale estimating function)。這個 方法提供了一類估計量, 此類估計量包括種類機率均等時的最大概似估計 量(maximum likelihood estimator)(Darroch, 1958)和種類機率不等時 的無母數樣本涵蓋率估計量(sample coverage estimator)(Chao & Lee, 1992)。Chao & Lee (1992)並列有樣本涵蓋率應用在種類數和母體個數的 估計的歷史可供參考; 亦可參看Becker(1984), Becker & Heyde(1990), Yip(1989,1991)和Yip等(1993)關於重複捕取(capture-recapture)模式下 鞅估計函數的使用。然而, 前述的鞅估計函數法只處理種類機率均等的情 況。本文將之推廣, 可同時處理種類機率不等的情況。另外我們以重抽 法(bootstrap resampling method) 估計鞅估計函數估計量之變異數( variance), 且證明在種類機率之變異係數已知時,此類估計量具一致性( consistency)。最後列出相關的模擬結果且比較各估計量之優劣, 並以白 居易的七言絕句做為實例以供參考。
|