freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

三七大數(shù)據(jù)平臺(tái)技術(shù)解決方案-v10-文庫(kù)吧資料

2025-05-06 06:33本頁(yè)面
  

【正文】 篇論文作為一個(gè)對(duì)象,它的值為論文的題目。在我們的實(shí)現(xiàn)中,這種聯(lián)系不僅包括了網(wǎng)頁(yè)間存在的鏈接,而且當(dāng)某個(gè)網(wǎng)頁(yè) Pageobj 包含多個(gè)具有相同意義的對(duì)象 o1,o2,…, on 時(shí),可以引入一個(gè)虛擬對(duì)象 Vobj,這樣,網(wǎng)頁(yè)代表的對(duì)象Pageobj 作為源對(duì)象,虛擬對(duì)象 Vobj 作為其目標(biāo)對(duì)象,而 o1,o2,…,on 又作為 Vobj的目標(biāo)對(duì)象,并且 Vobj 與 o1,o2,…,on 的聯(lián)系都有相同的標(biāo)記。? 半結(jié)構(gòu)化數(shù)據(jù)的表示具體地,象 WWW 這種數(shù)據(jù)模型可表示成 3 種關(guān)系: {Obj(oid),Ref(source,label,destination),Val(oid,value)} 其中 Obj 表示一個(gè)無(wú)限的對(duì)象集合,例如 WWW 上的網(wǎng)頁(yè),網(wǎng)頁(yè)中的內(nèi)容都可看成是對(duì)象。要對(duì)這樣的數(shù)據(jù)進(jìn)行查詢等處理,首要問(wèn)題就是對(duì)半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行描述。? 半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型半結(jié)構(gòu)化數(shù)據(jù)是缺乏嚴(yán)格、完整結(jié)構(gòu)的數(shù)據(jù)。不規(guī)則的結(jié)構(gòu):一個(gè)數(shù)據(jù)集合可能由異構(gòu)的元素組成,或用不同類型的數(shù)據(jù)表示相同的信息。半結(jié)構(gòu)化數(shù)據(jù)主要來(lái)源有 3 方面:在 WWW 等對(duì)存儲(chǔ)數(shù)據(jù)無(wú)嚴(yán)格模式限制的情形下,常見(jiàn)的有 HTML、XML 和SGML 文件;在郵件、電子商務(wù)、檢索和病歷處理中,存在著大量結(jié)構(gòu)和內(nèi)容均不固定的數(shù)據(jù)異構(gòu)信息源集成情形下,由于信息源上的互操作要存取的信息源范圍很廣,包括各類數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、電子圖書(shū)館和文件系統(tǒng)等。Inter 上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫(kù)都有一定的數(shù)據(jù)模型,可以,沒(méi)有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),Inter 上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱為半結(jié)構(gòu)化數(shù)據(jù)。有一些結(jié)構(gòu)化數(shù)據(jù),為用于 web 頁(yè)面的顯示而與 html 語(yǔ)言的標(biāo)記符號(hào)嵌在一起,構(gòu)成了物理上的半結(jié)構(gòu)化數(shù)據(jù)。因此半結(jié)構(gòu)化數(shù)據(jù)模型及其抽取技術(shù)是面向 Inter 的數(shù)據(jù)挖掘技術(shù)實(shí)施的前提。針對(duì) Inter 上的數(shù)據(jù)半結(jié)構(gòu)化的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型則成為了解決上述問(wèn)題的關(guān)鍵所在。如果想要利用 Inter 上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,必須先要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來(lái),提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。所謂半結(jié)構(gòu)化是相對(duì)于結(jié)構(gòu)化(傳統(tǒng)數(shù)據(jù)庫(kù))和非結(jié)構(gòu)化(如一本書(shū)、一張圖片等) 而言的。 數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)并行處理 數(shù)據(jù)分析 可視化 傳統(tǒng)解決方案的分析3 相關(guān)技術(shù)的研究 參考模型框架 數(shù)據(jù)采集 結(jié)構(gòu)化數(shù)據(jù)的采集 半結(jié)構(gòu)化數(shù)據(jù)的采集Inter 上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫(kù)都有一定的數(shù)據(jù)模型,可以根據(jù)模型來(lái)具體描述特定的數(shù)據(jù),同時(shí)可以很好地定義和解釋相關(guān)的查詢語(yǔ)言。對(duì)于少量數(shù)據(jù)的數(shù)據(jù)源來(lái)說(shuō),采用人工清理就可以了,但對(duì)于規(guī)模較大的數(shù)據(jù)源,手工清理是不可行的,必須借助信息技術(shù),采用自動(dòng)清理方法。當(dāng)然,對(duì)任何現(xiàn)實(shí)世界中的數(shù)據(jù)源,人工完成數(shù)據(jù)清理是沒(méi)有問(wèn)題的。由于半結(jié)構(gòu)化數(shù)據(jù) XML( Extensible Markup Language,可擴(kuò)展標(biāo)識(shí)語(yǔ)言)的快速增長(zhǎng)以及廣泛應(yīng)用,其在數(shù)據(jù)清理中越來(lái)越重要。在相似重復(fù)記錄檢測(cè)中采用長(zhǎng)度過(guò)濾方法優(yōu)化相似檢測(cè)算法,避免了不必要的編輯距離計(jì)算,從而提高了相似重復(fù)記錄的檢測(cè)效率;4) 在數(shù)據(jù)清理的相關(guān)研究中,數(shù)據(jù)清理整體框架的研究正逐漸成為研究的熱點(diǎn)。對(duì)于數(shù)據(jù)清理有很多內(nèi)容值得研究,比如:3) 在數(shù)據(jù)清理的研究中,盡管檢測(cè)相似重復(fù)記錄受到最多的關(guān)注,采取了許多措施,但檢測(cè)效率與檢測(cè)精度并不令人滿意。另外,從市場(chǎng)上眾多的相關(guān)產(chǎn)品,也可以明白這一點(diǎn)。根據(jù)“進(jìn)去的是垃圾,出來(lái)的也是垃圾(garbage in,garbage out)”這條原理,若不進(jìn)行清理,這些臟數(shù)據(jù)會(huì)扭曲從數(shù)據(jù)中獲得的信息,影響信息系統(tǒng)的運(yùn)行效果,也為企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、建立決策支持系統(tǒng)、應(yīng)用商務(wù)智能帶來(lái)隱患。因此,企業(yè)數(shù)據(jù)質(zhì)量的管理正在獲得越來(lái)越多的關(guān)注。 數(shù)據(jù)采集 數(shù)據(jù)清洗隨著信息化建設(shè)的不斷深入,企事業(yè)單位積累了大量的電子數(shù)據(jù),這些數(shù)據(jù)非常重要。這里比較大的挑戰(zhàn)是數(shù)據(jù)搜集設(shè)備內(nèi)在的不確定性。在一種特定類型的眾包,即參與感測(cè)中不確定性和錯(cuò)誤的問(wèn)題更加顯著。作為人,我們可以查看關(guān)于飯店的評(píng)價(jià),有些是正面的,有些是負(fù)面的,然后我們形成一個(gè)總結(jié)性評(píng)估,基于此評(píng)估我們可以決定是否去這個(gè)飯店試試。雖然大部分這種錯(cuò)誤會(huì)被其他的人發(fā)現(xiàn)并且糾正,我們需要技術(shù)來(lái)支撐。Wikipedia在線百科全書(shū)就是眾包數(shù)據(jù)的最著名的例子,信息時(shí)由未經(jīng)審查的陌生人提供的,通常他們提供的信息時(shí)正確的。這些專家有可能在空間和時(shí)間上是分離的,數(shù)據(jù)系統(tǒng)應(yīng)該接受這種分布式的專家輸入,并支持多個(gè)專家之間的協(xié)作。在今天復(fù)雜的世界中,通常需要來(lái)自各個(gè)不同的領(lǐng)域的多個(gè)專家去真正理解到底在發(fā)生什么。新的可視化分析嘗試按照這種原理去做,至少是在整個(gè)管道中建模和分析得環(huán)節(jié)。? 人力的介入與協(xié)作盡管機(jī)器分析取得了很大的進(jìn)展,但還是存在人可以輕易檢測(cè)出的很多模式,計(jì)算機(jī)算法卻很難做到。還有一個(gè)重要方向是重新思考在大數(shù)據(jù)中信息共享的安全性研究。目前關(guān)于差異化隱私的研究是解決這個(gè)問(wèn)題的重要一步,但是這個(gè)研究刪除掉的信息太多了,在很多實(shí)際的情況中無(wú)法用。還有很多其他的具有挑戰(zhàn)性的研究課題。將用戶的位置信息隱藏起來(lái)遠(yuǎn)比隱藏用戶的身份信息要困難得多。其他幾種個(gè)人信息如關(guān)于個(gè)人健康(比如在癌癥治療中心去過(guò))或者宗教偏好(比如去過(guò)教堂)等也可以通過(guò)觀察匿名用戶的移動(dòng)和使用模式推理獲得。比如,我們可以通過(guò)幾個(gè)靜態(tài)的連接點(diǎn)(如基站)跟蹤用戶的位置信息。如果只是隱藏用戶的身份信息,而沒(méi)有隱藏他的位置信息,這并不是一個(gè)好的解決方案。例如,我們考慮從基于位置的服務(wù)中收集到的數(shù)據(jù)。然而,公眾還是很擔(dān)心個(gè)人數(shù)據(jù)的不正當(dāng)使用,特別是通過(guò)鏈接多個(gè)數(shù)據(jù)源的數(shù)據(jù)。對(duì)于電子醫(yī)療記錄,有嚴(yán)格的法律規(guī)定可以做什么,不可以做什么。當(dāng)需要使用大數(shù)據(jù)時(shí),有可能定義新型的準(zhǔn)則,這時(shí)就需要設(shè)計(jì)新的索引結(jié)構(gòu)來(lái)支持新的準(zhǔn)則。我們需要實(shí)現(xiàn)建立索引結(jié)構(gòu)來(lái)快速找到符合要求的數(shù)據(jù)。在數(shù)據(jù)分析得過(guò)程中,這種類型的搜索有可能重復(fù)地發(fā)生。我們需要預(yù)先獲得部分的結(jié)果,以便我們可以通過(guò)在新數(shù)據(jù)上少量的漸進(jìn)式計(jì)算就可以快速地做決定。比如,如果懷疑一個(gè)欺詐性信用卡交易,在交易完成之前我們就應(yīng)該標(biāo)識(shí)出這樣的交易,這樣可以從根本上防止欺詐性交易的發(fā)生。但是,這里的處理速度不完全是談到大數(shù)據(jù)時(shí)通常所談到的速度,在大數(shù)據(jù)中還需要應(yīng)對(duì)數(shù)據(jù)獲取的速度的挑戰(zhàn)。需要處理的數(shù)據(jù)集越大,分析所需要的時(shí)間就越長(zhǎng)。存儲(chǔ)子系統(tǒng)這種變化的影響基本上觸及數(shù)據(jù)處理的每個(gè)方面,包括查詢處理算法,查詢排隊(duì)算法,數(shù)據(jù)庫(kù)設(shè)計(jì),并發(fā)性控制方法以及恢復(fù)方法。如今,硬盤(pán)正在逐步被固態(tài)驅(qū)動(dòng)器取代,其他的技術(shù)如相變內(nèi)存正在出現(xiàn)。多年來(lái),永久性數(shù)據(jù)主要是存在硬盤(pán)上。系統(tǒng)驅(qū)動(dòng)的整體優(yōu)化要求程序是足夠透明的,比如在關(guān)系型數(shù)據(jù)庫(kù)中,說(shuō)明式的查詢語(yǔ)言就是這樣設(shè)計(jì)的。在這種情況下,說(shuō)明式編程方案更加有效,甚至是那些在做復(fù)雜的機(jī)器學(xué)習(xí)任務(wù)的程序,因?yàn)闉榱双@得好的整體性能,跨多個(gè)用戶程序的全局優(yōu)化是是十分必要的。第二個(gè)巨大的轉(zhuǎn)變是向云計(jì)算的遷移,云計(jì)算將多個(gè)分離的計(jì)算任務(wù)匯聚到非常大的計(jì)算機(jī)群中,每個(gè)計(jì)算任務(wù)具有不同的性能目標(biāo)。另外,在將來(lái)出于規(guī)律的考慮,我們可能不會(huì)持續(xù)使用系統(tǒng)中的硬件,數(shù)據(jù)處理系統(tǒng)可能需要主動(dòng)第管理處理器的功耗。不幸的是,過(guò)去應(yīng)用于跨節(jié)點(diǎn)數(shù)據(jù)處理的并行數(shù)據(jù)處理技術(shù)并不能直接用于節(jié)點(diǎn)內(nèi)的并行處理,因?yàn)榧軜?gòu)看上去非常不同。首先,在過(guò)去 5 年,處理器技術(shù)已經(jīng)有了巨大的轉(zhuǎn)變,根據(jù)摩爾定理處理器的主頻每 18 個(gè)月就會(huì)翻倍,現(xiàn)在因?yàn)楣β屎蜕岬南拗?,單個(gè)處理器的主頻基本上停滯不前了,業(yè)界都在通過(guò)多核技術(shù)來(lái)生產(chǎn)處理器。在過(guò)去,這些挑戰(zhàn)都是通過(guò)更快的處理器來(lái)應(yīng)對(duì)的。? 數(shù)據(jù)的大小任何人對(duì)大數(shù)據(jù)的第一個(gè)想法就是它的大小。這是一個(gè)非常大的挑戰(zhàn)。即便是在數(shù)據(jù)清洗和錯(cuò)誤糾正之后,數(shù)據(jù)還可能是不完整的和錯(cuò)誤的。少一些的結(jié)構(gòu)化設(shè)計(jì)對(duì)于一些目的可能更加有效,但是計(jì)算機(jī)系統(tǒng)的有效性則有賴于多個(gè)數(shù)據(jù)的大小和結(jié)構(gòu)的一致性。所以,通過(guò)機(jī)器進(jìn)行數(shù)據(jù)分析的第一步就是必須仔細(xì)地定義數(shù)據(jù)結(jié)構(gòu)。實(shí)際上,自然語(yǔ)言的豐富性和微妙可以提供有價(jià)值的深度。三七數(shù)據(jù)大數(shù)據(jù)技術(shù)解決方案北京三七數(shù)據(jù)技術(shù)有限公司2022 年 7 月 31 日目 錄1 概述 ..........................................................................................................................................62 面臨的挑戰(zhàn) ..............................................................................................................................6 數(shù)據(jù)采集 ...............................................................................................................................10 數(shù)據(jù)清洗 ...............................................................................................................................10 數(shù)據(jù)存儲(chǔ) ...............................................................................................................................12 數(shù)據(jù)并行處理 .......................................................................................................................12 數(shù)據(jù)分析 ...............................................................................................................................12 可視化 ...................................................................................................................................12 傳統(tǒng)解決方案的分析 ............................................................................................................123 相關(guān)技術(shù)的研究 .....................................................................................................................12 參考模型框架 .......................................................................................................................12 數(shù)據(jù)采集 ...............................................................................................................................12 結(jié)構(gòu)化數(shù)據(jù)的采集 .......................................................................................................12 半結(jié)構(gòu)化數(shù)據(jù)的采集 ...................................................................................................12 非結(jié)構(gòu)化文本數(shù)據(jù)中信息的抽取 ...............................................................................15 數(shù)據(jù)清洗和數(shù)據(jù)質(zhì)量的保證 ................................................................................................15 數(shù)據(jù)質(zhì)量的概念及分類 ...............................................................................................15 數(shù)據(jù)清洗的原理 ........................................................................................................
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1