freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)參考文獻(xiàn)(編輯修改稿)

2025-07-26 11:00 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 ,以及模式評(píng)估及最終的認(rèn)識(shí)表達(dá)。在探討過(guò)程中,數(shù)據(jù)挖掘一詞常常用來(lái)描述整個(gè)過(guò)程,然而,作為數(shù)據(jù)挖掘先導(dǎo)的數(shù)據(jù)準(zhǔn)備往往比實(shí)際挖掘更加費(fèi)時(shí)。 數(shù)據(jù)挖掘方案初期需關(guān)注的較重要事項(xiàng)之一,是仔細(xì)研究待分析數(shù)據(jù)的類(lèi)型。數(shù)據(jù)可分為兩類(lèi):結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)駐存在磁盤(pán)或文件的固定區(qū)域,相關(guān)數(shù)據(jù)庫(kù)和電子數(shù)據(jù)表就是典型的結(jié)構(gòu)化數(shù)據(jù)。不在固定位置駐存而是以松散形式存在的數(shù)據(jù)(如文本文檔或圖像)稱(chēng)為非結(jié)構(gòu)化數(shù)據(jù)。它們各自的字詞很少帶有關(guān)聯(lián)信息,但組合到一起就會(huì)形成一種語(yǔ)境,其含義可歸結(jié)為字詞的集合,但對(duì)任何一個(gè)單字來(lái)說(shuō)又不具必然性。同樣,就圖像而言,人們通常都是從整體上來(lái)解釋一幅圖,而不是分析其各個(gè)部分。然而,對(duì)于機(jī)器識(shí)別來(lái)說(shuō),可能只需幾個(gè)特征就能完成一次精確識(shí)別。 非結(jié)構(gòu)化數(shù)據(jù)可分為兩個(gè)基本類(lèi)別。第一類(lèi)是固有的、非語(yǔ)言基礎(chǔ)的文件,如圖像、視頻或音頻文件。第二類(lèi)是基于書(shū)寫(xiě)或打印語(yǔ)言的文本文件,如文字處理文檔、電子郵件或電子數(shù)據(jù)表。盡管存在顯著差異,這兩類(lèi)非結(jié)構(gòu)化數(shù)據(jù)都能以相同方式進(jìn)行處理。一種標(biāo)準(zhǔn)處理方式傾向于從文本中識(shí)別和提取關(guān)鍵特征,而后該文本又可作為分析數(shù)據(jù)使用。這個(gè)被稱(chēng)作特征提取的過(guò)程,是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘的一個(gè)關(guān)鍵步驟。 數(shù)據(jù)整理具有減少內(nèi)存需求和詢(xún)問(wèn)反應(yīng)時(shí)間的計(jì)算優(yōu)勢(shì),因而通常有利于待分析數(shù)據(jù)量的精簡(jiǎn)。特征提取是通過(guò)對(duì)基于關(guān)鍵字組合的原始數(shù)據(jù)進(jìn)行分析,生成一組新的、更加簡(jiǎn)潔的數(shù)據(jù)。特征提取還可用于圖像中實(shí)體目標(biāo)的識(shí)別或分類(lèi)。 假如有人駕駛飛機(jī)、無(wú)人機(jī)和衛(wèi)星上多光譜傳感器的功能得到擴(kuò)展,只需提取最顯著的特征,就可從龐大的圖庫(kù)中發(fā)掘出一個(gè)特定區(qū)域。例如,樹(shù)葉紋絡(luò)和顏色、道路樣式、甚至是鄰近建筑的外形,都能夠從無(wú)人機(jī)拍攝的實(shí)時(shí)影像中提取出來(lái),并可從中挖掘出應(yīng)用了關(guān)聯(lián)規(guī)則分析方法的模式。關(guān)聯(lián)規(guī)則分析用來(lái)描述多條信息一起出現(xiàn)或相互關(guān)聯(lián)的情況,并能利用經(jīng)過(guò)提煉加工的圖像資料來(lái)揭示先前可能并未發(fā)現(xiàn)的、非相關(guān)區(qū)域之間的關(guān)系,比如預(yù)示有地下掩體的地形地貌和道路連通方式。 結(jié)束信息采集和加工后,可利用多種方法對(duì)數(shù)據(jù)資料進(jìn)行模式化處理。這些挖掘手段旨在識(shí)別那些可用于未來(lái)預(yù)測(cè)的現(xiàn)有數(shù)據(jù)資料的特征。關(guān)聯(lián)規(guī)則挖掘可用來(lái)描述多條信息一起出現(xiàn)或相互關(guān)聯(lián)的情況,關(guān)聯(lián)規(guī)則通常是“如果……,那么……?!钡臉?gòu)成形式。這些方法可用于營(yíng)銷(xiāo)研究,以確定產(chǎn)品布局,或者是通過(guò)對(duì)制造爆炸裝置最有可能購(gòu)買(mǎi)的物品的確認(rèn)來(lái)實(shí)現(xiàn)預(yù)防犯罪的目的。利用關(guān)聯(lián)規(guī)則對(duì)某國(guó)軍事基地之間的車(chē)輛活動(dòng)進(jìn)行挖掘分析,從而確定該國(guó)是在轉(zhuǎn)運(yùn)剩余物資還是在進(jìn)行戰(zhàn)爭(zhēng)準(zhǔn)備。 分類(lèi)預(yù)測(cè)術(shù)屬于古時(shí)候的發(fā)明,人們利用這種技術(shù)創(chuàng)造出一個(gè)模型,以便對(duì)未來(lái)數(shù)據(jù)中的類(lèi)似事件進(jìn)行預(yù)測(cè)。此產(chǎn)品由一種能夠?qū)⒎诸?lèi)數(shù)據(jù)歸類(lèi)的分類(lèi)樹(shù)構(gòu)成。分類(lèi)法是一種能夠?qū)⒛承┦荜P(guān)注特征從對(duì)象總體中分離出來(lái)的普通方法,其基礎(chǔ)是來(lái)自于一套己知訓(xùn)練數(shù)據(jù)的模型。這些訓(xùn)練模型可用來(lái)識(shí)別和預(yù)測(cè)未知數(shù)據(jù)的類(lèi)似模式。 作為最古老的數(shù)據(jù)挖掘方法之一的聚類(lèi)分析法和最近鄰分類(lèi)法的原理十分簡(jiǎn)單,即具有共性的事物之間比無(wú)共性的事物之間的聯(lián)系更為緊密。 分類(lèi)預(yù)測(cè)會(huì)產(chǎn)生誤分類(lèi)風(fēng)險(xiǎn)。誤分類(lèi)問(wèn)題的典型案例出現(xiàn)在1999年春天,當(dāng)時(shí)美國(guó)防部將原有的一個(gè)項(xiàng)目分配給了美陸軍情報(bào)與保密司令部信息控制中心。此項(xiàng)目旨在利用數(shù)據(jù)相關(guān)工具確定那些方法是否適用于反情報(bào)作戰(zhàn)。這次實(shí)驗(yàn)的目的是確定數(shù)據(jù)挖掘能否識(shí)別前方公司存在對(duì)中國(guó)的技術(shù)泄密風(fēng)險(xiǎn)。大量關(guān)聯(lián)圖表揭示了技術(shù)轉(zhuǎn)讓的諸多途徑,其中涉及一些知名人物,例如時(shí)任斯坦福大學(xué)教務(wù)長(zhǎng)的康多利扎賴(lài)斯和美國(guó)防部前任部長(zhǎng)威廉科恩。當(dāng)然,這些誤分類(lèi)很容易識(shí)別,但方法問(wèn)題和眾多潛在(或錯(cuò)誤)關(guān)聯(lián)將嚴(yán)重?fù)p害用同一模式得出的其他分類(lèi)的價(jià)值。 兼任美國(guó)眾議院武裝部隊(duì)委員會(huì)和眾議院國(guó)家安全委員會(huì)副主席的科特韋爾登,2005年9月在參議院司法委員會(huì)的聽(tīng)證會(huì)上就“A級(jí)威脅”問(wèn)題作證時(shí)稱(chēng),雖然早在2001年就有人提出要廢棄“A級(jí)威脅”,但一個(gè)新的數(shù)據(jù)挖掘項(xiàng)目己在美國(guó)防部?jī)?nèi)部得到了廣泛提議。該項(xiàng)目呼吁組建一個(gè)名為‘`A級(jí)預(yù)測(cè)(Able Providence )’,類(lèi)似于“A級(jí)威脅”的小組,在海軍情報(bào)部門(mén)負(fù)責(zé)人領(lǐng)導(dǎo)下從可公開(kāi)利用的開(kāi)放源信息中搜集情報(bào)。 對(duì)于非結(jié)構(gòu)化文本數(shù)據(jù)來(lái)說(shuō),作為從多種文本源中提取信息的結(jié)果,文本挖掘(數(shù)據(jù)挖掘的一種)是對(duì)先前未知模式的層層剝離。數(shù)據(jù)被聯(lián)接起來(lái),從而形成新的理論或引出深層含義。有人可能會(huì)把文本挖掘與使用互聯(lián)網(wǎng)搜索引擎尋找信息這類(lèi)做法聯(lián)系在一起,但網(wǎng)上搜索只能查找那些已知的、有所記述的主題,而文本挖掘的目的是發(fā)現(xiàn)未知信息,很可能是以前沒(méi)有明確記述的信息。通過(guò)對(duì)電子郵件信息、網(wǎng)上聊天室和其他文本源進(jìn)行分析,文本挖掘可以成為一種用來(lái)搜尋潛在恐怖主義威脅的工具,美國(guó)隋報(bào)機(jī)構(gòu)對(duì)此很感興趣。在英語(yǔ)方面,文本挖掘已經(jīng)是一項(xiàng)十分龐大和艱巨的任務(wù),而其他語(yǔ)言文本使這項(xiàng)工作更加復(fù)雜。 常規(guī)數(shù)據(jù)挖掘與文本挖掘的一個(gè)重要區(qū)別是,文本挖掘是從自然語(yǔ)言文本中提取一些模式,而不是從實(shí)際常規(guī)系統(tǒng)的事實(shí)數(shù)據(jù)庫(kù)中提取。從原始文本資料到內(nèi)容總結(jié)過(guò)程中的用語(yǔ)提取,使文本資料中使用頻率最高的字詞和短語(yǔ)被羅列出來(lái),而諸如連詞之類(lèi)的常用詞并不包括在內(nèi)。較為困難的是獲得這些字頻列表并用某種數(shù)學(xué)模式來(lái)確定是否能提取出有意義的內(nèi)在關(guān)聯(lián)。 文本挖掘的一種分析方式被稱(chēng)為潛在語(yǔ)義索引(LSI ),它更注重從文獻(xiàn)庫(kù)中提取字詞的潛在含義(dimension )。換言之,一種普通語(yǔ)境被賦予了多種語(yǔ)義。Google這類(lèi)搜索引擎也會(huì)用到LSI,以改善同義和多義情況下的文件查詢(xún)和信息檢索。就同義來(lái)說(shuō),不同作者可能使用不同詞語(yǔ)來(lái)描述同一種想法,因此,當(dāng)一個(gè)人就某個(gè)主題進(jìn)行查詢(xún)、但使用的主題詞與實(shí)際出現(xiàn)在文獻(xiàn)中的并不相同時(shí),他可能就無(wú)法檢索到這個(gè)文獻(xiàn)。相反,就多義來(lái)說(shuō),同一詞語(yǔ)可能有多重含義,因此,檢索者有可能查到并非自己想要的、而是與其他備選含義對(duì)應(yīng)的文獻(xiàn)。應(yīng)用LSI的目的是找到信息檢索的最理想層次。 LSI充分利用概念性文獻(xiàn)內(nèi)容。舉例來(lái)說(shuō),檢索不是對(duì)個(gè)別項(xiàng)的搜索,而是一種概念性搜索,比如,別克、豐田和福特在概念上都是被視為汽車(chē),而不是它們各自的標(biāo)識(shí)。LSI的主旨是對(duì)可成圖( mapped )字詞的潛在語(yǔ)境或語(yǔ)句源予以確認(rèn)。而后這些個(gè)別項(xiàng)被“成圖”到一個(gè)能夠?qū)⑺鼈冇脭?shù)學(xué)方法表現(xiàn)出來(lái)的“概念空間”。遺憾的是,由于所有信息都是以不帶語(yǔ)義的數(shù)字形式存在,人類(lèi)并非很容易就能理解此概念空間。這會(huì)使LSI難以理解,因而必須用專(zhuān)業(yè)軟件完成結(jié)果解釋并進(jìn)行適當(dāng)數(shù)值分配。針對(duì)同現(xiàn)詞找出有意義的關(guān)聯(lián)規(guī)則是文本挖掘面臨的一個(gè)主要挑戰(zhàn)。一個(gè)詞(例如“炸彈,’)與其他不同的詞(如“戰(zhàn)爭(zhēng)”或“百老匯,’)組合時(shí)。數(shù)據(jù)挖掘技術(shù)及其應(yīng)用袁溪()1數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘(Data Mining, DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢(xún)優(yōu)化、決策支持、過(guò)程控制等,還可以進(jìn)行數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來(lái)數(shù)理統(tǒng)計(jì)技術(shù)和人工智能以及知識(shí)工程等領(lǐng)域的研究成果構(gòu)建自己的理淪體系,是一個(gè)交叉學(xué)科領(lǐng)域,集成了數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等技術(shù)作為多學(xué)科綜合產(chǎn)物的數(shù)據(jù)挖掘技術(shù)雖然歷史較短,但從20世紀(jì)90年代以來(lái),由于其面對(duì)海量數(shù)據(jù)處理的有效性使得它越來(lái)越引起人們的重視,發(fā)展速度很快從某種意義上說(shuō),數(shù)據(jù)挖掘(DM)是數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD)的一個(gè)過(guò)程,然而,大部分學(xué)者認(rèn)為KDD和DM是兩個(gè)等價(jià)的概念,研究人工智能的人習(xí)慣稱(chēng)KDD,而研究數(shù)據(jù)庫(kù)的人習(xí)慣稱(chēng)DM我們對(duì)KDD和DM不進(jìn)行區(qū)分,統(tǒng)稱(chēng)為數(shù)據(jù)挖掘2數(shù)據(jù)挖掘技術(shù) 雖然我們把各個(gè)步驟按順序排列,但要注意數(shù)據(jù)挖掘過(guò)程并不是線(xiàn)性的。要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。各步驟的內(nèi)容如下確定業(yè)務(wù)對(duì)象:清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。(2)數(shù)據(jù)準(zhǔn)備:①數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)②數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析做準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類(lèi)型。③數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型。這個(gè)分析模型是針對(duì)挖掘算法建立的。建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。 (3)數(shù)據(jù)挖掘:對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成 (4)結(jié)果分析:解釋并評(píng)估結(jié)果其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1