freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

調(diào)查技能培訓(xùn)教程-資料下載頁

2025-06-30 12:27本頁面
  

【正文】 來代替一個(gè)相似的受者記錄中缺失的或不一致數(shù)據(jù)。 為了找到一個(gè)與受者記錄相似的供者記錄,必須先確定與需要進(jìn)行插補(bǔ)處理的變量相關(guān)的變量,建立插補(bǔ)類。然后,插補(bǔ)類中通過所有審核的記錄集就是供者記錄的集合,這些記錄用來插補(bǔ)受者中缺失的數(shù)據(jù)。熱平臺(tái)插補(bǔ)可以用來插補(bǔ)定量數(shù)據(jù),也可以用來插補(bǔ)定性數(shù)據(jù),但通常只用定性變量建立插補(bǔ)類。 例 樣本 序號(hào) 性別 年齡 婚姻狀況 收入 汽車 擁有 1 男 青年 未婚 70 無 2 男 中老年 已婚 100 有 3 女 青年 未婚 50 無 4 男 中老年 已婚 70 有 5 男 青年 未婚 90 有 6 女 中老年 喪偶 30 無 7 男 中老年 已婚 8 女 青年 離異 45 有 9 男 青年 未婚 無 10 女 中老年 喪偶 20 11 男 青年 未婚 50 有 12 男 中老年 已婚 插補(bǔ)情況 受者 收入 汽車擁有 供者 7 70 有 4 9 90 5 10 無 6 12 70 有 4 在序貫熱平臺(tái)插補(bǔ)方法中,數(shù)據(jù)在插補(bǔ)類中是按某種順序排列進(jìn)行處理的,插補(bǔ)就是用這個(gè)序列需要插補(bǔ)數(shù)據(jù)前面某一個(gè)有效的回答單元的數(shù)據(jù)來代替缺失的數(shù)值。如果每次都使用相同的排序及選取方法,序貫熱平臺(tái)法是一種確定性的插補(bǔ)方法。而隨機(jī)熱平臺(tái)插補(bǔ),供者是在插補(bǔ)類中隨機(jī)選出的,因此是一種隨機(jī)插補(bǔ)方法。 供者插補(bǔ)方法(局限于熱平臺(tái)插補(bǔ)和最近鄰插補(bǔ))的優(yōu)點(diǎn)是,因?yàn)橄嗨频墓┱撸ㄈ绻竞图彝サ龋┚哂邢嗨频奶卣?,因此插補(bǔ)出的數(shù)值應(yīng)該是相當(dāng)準(zhǔn)確的。使用供者插補(bǔ)可以保持?jǐn)?shù)據(jù)的原始分布形式。 冷平臺(tái)插補(bǔ) 冷平臺(tái)插補(bǔ)與熱平臺(tái)插補(bǔ)類似,不同之處在于熱平臺(tái)插補(bǔ)使用當(dāng)前調(diào)查的供者,而冷平臺(tái)插補(bǔ)則使用其它資料中的供者。冷平臺(tái)插補(bǔ)經(jīng)常使用前期的調(diào)查或普查中的歷史數(shù)據(jù)。 最近鄰插補(bǔ) 最近鄰插補(bǔ),就像熱平臺(tái)插補(bǔ),也是基于匹配變量選擇一個(gè)供者記錄。但是,用這種方法,目的不一定是非要找出一個(gè)和受者記錄在匹配變量上完全相同的供者記錄,而是要在插補(bǔ)類中按匹配變量找到和受者記錄最接近的供者記錄——即找到距離最近的值?!白罱笔峭ㄟ^兩個(gè)觀測(cè)對(duì)象之間的距離來定義的,兩個(gè)觀測(cè)對(duì)象之間的距離是由輔助數(shù)據(jù)計(jì)算的。 隨機(jī)性插補(bǔ) 任何用于定量數(shù)據(jù)的確定性插補(bǔ)都能通過加上隨機(jī)殘差變得具有非確定性。例如,我們可以用平均值加上隨機(jī)殘差來進(jìn)行插補(bǔ): 其中, 是變量 第個(gè) 記錄的插補(bǔ)值; 是插補(bǔ)類的均值; 是從被調(diào)查者或某一分布的隨機(jī)模型中抽取的殘差。 哪些值需要插補(bǔ) 由于無回答或回答無效檢出的審核失效的記錄一般都需要進(jìn)行插補(bǔ)。但是并不是所有審核失效的數(shù)據(jù)都需插補(bǔ)。對(duì)一個(gè)記錄應(yīng)盡可能限制需插補(bǔ)的項(xiàng)目。 確定哪些字段需要插補(bǔ)應(yīng)遵循以下三條準(zhǔn)則: 應(yīng)該通過變更盡可能少的數(shù)據(jù)項(xiàng)(字段),以使每條記錄都滿足審核規(guī)則的要求; 盡可能保持?jǐn)?shù)據(jù)文檔的原始頻數(shù)結(jié)構(gòu); 插補(bǔ)規(guī)則的確定,不是參考其它任何具體規(guī)定,而是由相應(yīng)的審核規(guī)則導(dǎo)出。 舉例說,假設(shè)某份問卷中關(guān)于一位被調(diào)查者的背景資料是:受教育程度(大學(xué)),婚姻狀況(已婚),性別(女),年齡(10歲)。顯然,這條記錄中,年齡婚姻狀況、年齡受教育程度是不符合審核規(guī)則的。為了糾正審核失效,可以同時(shí)調(diào)整婚姻狀況和受教育程度,也可以只對(duì)年齡作調(diào)整,一般傾向于采用后者。 插補(bǔ)后數(shù)據(jù)的方差估計(jì) 前面講到的所有插補(bǔ)方法都能為每一個(gè)缺失的或不一致的值生成一個(gè)單一的插補(bǔ)值,這些方法也都會(huì)在某種程度上扭曲插補(bǔ)變量的原始分布,并導(dǎo)致使用標(biāo)準(zhǔn)方差估計(jì)公式得出的不適當(dāng)?shù)姆讲罟烙?jì)。分布扭曲的程度很大程度上取決于插補(bǔ)量的大小和所使用的插補(bǔ)方法。 插補(bǔ)時(shí)有一點(diǎn)特別重要,即應(yīng)該盡量避免因插補(bǔ)而引起的估計(jì)量的方差估計(jì)被人為低估。插補(bǔ)對(duì)方差估計(jì)的影響導(dǎo)致置信區(qū)間過窄,從而引起檢驗(yàn)中出現(xiàn)虛假顯著性。 經(jīng)過插補(bǔ)操作后,估計(jì)量的方差包括兩個(gè)分量:抽樣引起的方差分量(抽樣方差)和插補(bǔ)引起的方差分量(插補(bǔ)方差)。有插補(bǔ)數(shù)據(jù)時(shí),抽樣方差通常會(huì)低估,因?yàn)槌R?guī)的抽樣方差計(jì)算公式假定回答率為100%。隨機(jī)插補(bǔ)方法的一個(gè)好處是,它能給插補(bǔ)后的完整的數(shù)據(jù)集加進(jìn)一些噪聲。因此,大多數(shù)情況下,使用隨機(jī)插補(bǔ)方法時(shí),用常規(guī)方法也能正確地估計(jì)某一估計(jì)量的抽樣方差。但是,如果要得到估計(jì)量的總方差的話,還必須估計(jì)插補(bǔ)方差。 估計(jì)總方差中的抽樣方差和插補(bǔ)方差兩個(gè)分量都非常重要,因?yàn)椋? 有助于做出正確的推斷; 能如實(shí)地告知數(shù)據(jù)用戶調(diào)查數(shù)據(jù)的質(zhì)量; 了解抽樣方差和插補(bǔ)方差的相對(duì)重要性,有助于資源在樣本量和審核/插補(bǔ)過程之間合理的分配。 插補(bǔ)的準(zhǔn)則 雖然插補(bǔ)能改善最終數(shù)據(jù)的質(zhì)量,但也要小心選擇適當(dāng)?shù)牟逖a(bǔ)方法。插補(bǔ)方法是否適當(dāng)取決于調(diào)查的類型、目的、可用的輔助信息和錯(cuò)誤的性質(zhì)。審核和插補(bǔ)帶來的風(fēng)險(xiǎn)是它們會(huì)破壞報(bào)告數(shù)據(jù),產(chǎn)生符合預(yù)想模型的記錄,而這種模型后來可能表明并不正確。 以下是進(jìn)行插補(bǔ)的幾條準(zhǔn)則: 插補(bǔ)得到的記錄應(yīng)該和審核失效的記錄非常相似。這通常可以通過只對(duì)盡可能少的變量進(jìn)行插補(bǔ)而盡可能多地保留被調(diào)查者的原始回答數(shù)據(jù)來做到?;镜募俣ǎㄔ趯?shí)際工作中并不總成立)是一個(gè)被調(diào)查者更有可能只出錯(cuò)一兩次,而出錯(cuò)多次的情況較少; 好的插補(bǔ)會(huì)為評(píng)估留下審查的線索,并保證插補(bǔ)的記錄具有內(nèi)部一致性。插補(bǔ)處理過程應(yīng)該是自動(dòng)的、客觀的、可再現(xiàn)的和有效的; 插補(bǔ)得到的記錄應(yīng)該滿足所有的審核規(guī)則; 插補(bǔ)值應(yīng)標(biāo)明,插補(bǔ)方法和插補(bǔ)使用的資料也應(yīng)清楚地標(biāo)明。記錄中變量的插補(bǔ)和非插補(bǔ)的值都應(yīng)該保留,以便對(duì)插補(bǔ)的程度和影響進(jìn)行評(píng)估; 仔細(xì)選擇插補(bǔ)的方法,考慮每一種插補(bǔ)方法的優(yōu)缺點(diǎn)以及要插補(bǔ)的數(shù)據(jù)的類型; 插補(bǔ)方法應(yīng)減少無回答偏倚,并盡可能地保持不同變量之間的關(guān)系(即不應(yīng)破壞數(shù)據(jù)的多變量結(jié)構(gòu)); 插補(bǔ)系統(tǒng)應(yīng)事先思考、提出、編程和調(diào)試; 插補(bǔ)系統(tǒng)應(yīng)該能處理各種缺失或不一致的字段; 對(duì)于供者插補(bǔ)方法,插補(bǔ)得到的記錄應(yīng)盡可能與選中的供者相似。這有利于保證插補(bǔ)記錄中插補(bǔ)值與非插補(bǔ)值的組合不僅滿足審核規(guī)則而且具有多樣性。 5) 離群值的檢測(cè)和處理 離群值的檢測(cè)可以看作審核的一種類型,主要是用來發(fā)現(xiàn)和確認(rèn)可疑的記錄。應(yīng)該區(qū)分極值和影響值。如果一個(gè)記錄值和抽樣權(quán)數(shù)的組合對(duì)估計(jì)有較大的影響,我們就稱這樣的觀測(cè)值為影響值。但極值不一定是影響值。 應(yīng)區(qū)別單變量離群值和多變量離群值。如果一個(gè)離群值對(duì)應(yīng)一個(gè)變量,該觀測(cè)值就是一個(gè)單變量離群值;如果一個(gè)離群值對(duì)應(yīng)兩個(gè)或多個(gè)變量,我們就說該觀測(cè)值是一個(gè)多變量離群值。例如,某人的身高是2米,或體重是45公斤,這種情況可能并不少,但身高2米且體重只有45公斤的人,即是一個(gè)多變量離群值的例子。 有許多原因會(huì)導(dǎo)致離群值的產(chǎn)生: 數(shù)據(jù)中有錯(cuò)誤(如,數(shù)據(jù)錄入錯(cuò)誤); 離群值可能來自另一模型或分布,如,大多數(shù)數(shù)據(jù)服從某個(gè)正態(tài)分布,但所推測(cè)的離群值很可能是來自一個(gè)指數(shù)分布; 離群值的出現(xiàn),可能是由于數(shù)據(jù)固有的變異性??雌饋碇档脩岩傻臇|西,可能僅僅是由于數(shù)據(jù)集固有的變異性。 離群值的檢測(cè) 傳統(tǒng)上,離群值是通過測(cè)量它們和數(shù)據(jù)中心的相對(duì)距離來辯認(rèn)的。設(shè) 是觀測(cè)到的樣本數(shù)據(jù), 和 分別是數(shù)據(jù)集中趨勢(shì)和離散趨勢(shì)的度量, 離數(shù)據(jù)中心的相對(duì)距離 定義為: 如果 大于預(yù)先確定的偏離值,那么該觀測(cè)值就被認(rèn)為是一個(gè)離群值。 離群值也可以通過下面的容許區(qū)間進(jìn)行確認(rèn): 這里, 和 分別是預(yù)先確定的下限和上限的值。如果總體是偏態(tài)的, 和 就不相等。落在這個(gè)區(qū)間之外的觀測(cè)值被認(rèn)為是離群值。 樣本均值和樣本方差是度量數(shù)據(jù)集中趨勢(shì)和離散程度最常用的統(tǒng)計(jì)量。但是,由于它們對(duì)離群值比較敏感。 因?yàn)樯鲜鲈?,檢測(cè)離群值的最常用的方法之一是四分位數(shù)法。這種方法用中位數(shù)度量數(shù)據(jù)的集中趨勢(shì),四分位數(shù)間距度量數(shù)據(jù)的離散程度,因?yàn)檫@些統(tǒng)計(jì)量對(duì)離群值更為穩(wěn)?。床淮竺舾校?。注意這里所說的中位數(shù)和四分位數(shù)都是用加權(quán)的樣本數(shù)據(jù)計(jì)算出來的。 與 分別稱為下四分位數(shù)間距與上四分位數(shù)間距。由此可得容許區(qū)間為: 其中, 和 可以通過以前的數(shù)據(jù)或基于過去的經(jīng)驗(yàn)來確定。任何落到這個(gè)區(qū)間之外的觀測(cè)值都被認(rèn)為是一個(gè)離群值。 離群值的處理 在手工審核系統(tǒng)中,對(duì)離群值進(jìn)行檢查,如果確認(rèn)是錯(cuò)誤,就要回訪并校正。在自動(dòng)審核系統(tǒng)中,離群值經(jīng)常要進(jìn)行插補(bǔ)處理。有些情況下,如果認(rèn)為離群值無妨大礙,可以不對(duì)離群值做任何處理。 在審核時(shí)沒有進(jìn)行處理的離群值可以在估計(jì)的時(shí)候處理。簡單地忽略未經(jīng)處理的離群值會(huì)影響估計(jì)的效果,并導(dǎo)致估計(jì)量的方差增大;給離群值賦予 1 或 0 的權(quán)數(shù)會(huì)使估計(jì)結(jié)果發(fā)生偏倚。離群值處理的目的是在不引入較大偏倚的前提下,盡量減少對(duì)估計(jì)量抽樣誤差的影響。 估計(jì)時(shí)有三種方法可以處理離群值,即: 1) 改變數(shù)值 處理極值的一種方法是縮尾化,這種方法首先要將樣本數(shù)據(jù)按從小到大依次排序 :假設(shè) 是將樣本觀測(cè)值按從小到大的順序重新排列得到的有序樣本。若樣本數(shù)據(jù)中前 個(gè)最大值(即有序樣本值中的 )被認(rèn)為是離群值,則單側(cè) 次縮尾估計(jì)量就可以通過用第 個(gè)最大值 代替所有離群值來定義,即: 2) 調(diào)整權(quán)數(shù) 處理離群值的另一種方法是,降低離群值的權(quán)數(shù)使它們的影響變小。若賦予離群值的抽樣權(quán)數(shù)為1或0,這樣做對(duì)估計(jì)的影響太大,特別是對(duì)偏態(tài)總體的估計(jì)。這樣做對(duì)估計(jì)的具體影響是使估計(jì)出現(xiàn)嚴(yán)重的偏倚—通常是低估。 3) 使用穩(wěn)健估計(jì)量 通常樣本均值和樣本方差估計(jì)量在正態(tài)性的假定下是最優(yōu)的。但是,這些估計(jì)量對(duì)離群值非常敏感。穩(wěn)健估計(jì)量則能克服這種局限性,因?yàn)樗鼘?duì)分布的假定不太敏感。比如,中位數(shù)比均值更穩(wěn)?。凰姆治粩?shù)間距比通常的方差估計(jì)量更穩(wěn)健。 小結(jié) 處理是調(diào)查過程中的一個(gè)重要環(huán)節(jié),它將問卷中的回答轉(zhuǎn)換為適合于匯總制表和數(shù)據(jù)分析的形式。 數(shù)據(jù)處理是一個(gè)費(fèi)錢、費(fèi)時(shí),需要耗費(fèi)可觀資源并對(duì)最后的數(shù)據(jù)質(zhì)量有著很大的影響的過程。 處理通常從初步的問卷“凈化”開始,接著是編碼和數(shù)據(jù)錄入,然后是更進(jìn)一步的審核,以便確定缺失和不一致的數(shù)據(jù),在此基礎(chǔ)上進(jìn)行插補(bǔ),得出合理的替代值。離群值的檢測(cè)也可以用來確定可疑值。問卷一旦完整、一致和有效,數(shù)據(jù)通常就儲(chǔ)存在數(shù)據(jù)庫中。自動(dòng)化能使處理過程效率更高,并提高數(shù)據(jù)的最終質(zhì)量。67 / 67
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1