freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

外文文獻(xiàn)翻譯中英文對(duì)照計(jì)算機(jī)科學(xué)與技術(shù)預(yù)處理和挖掘web日志數(shù)據(jù)網(wǎng)站個(gè)性化(已修改)

2024-12-22 05:20 本頁面
 

【正文】 南京理工大學(xué)泰州科技學(xué)院 畢業(yè)設(shè)計(jì) (論文 )外文資料翻譯 系 部: 計(jì)算機(jī)科學(xué)與技術(shù) 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 姓 名: 學(xué) 號(hào): 外文出處: Dipartimento di Informatica, Universit181。a di Pisa 附 件: ; 。 指 導(dǎo)教師評(píng)語: 簽名: 年 月 日 注: 請(qǐng)將該封面與附件裝訂成冊。 附件 1:外文資料翻譯譯文 預(yù)處理和挖掘 Web 日志數(shù)據(jù)網(wǎng)站個(gè)性化 摘要: 我們描述了 Web 使用挖掘活動(dòng)的一個(gè)持續(xù)項(xiàng)目要求,我們叫它 ClickWorld3,旨在提取導(dǎo)航行為的一個(gè)網(wǎng)站的用戶的模型。該模型的推斷在訪問日志的網(wǎng)絡(luò)服務(wù)器通過數(shù)據(jù)和 Web 挖掘技術(shù)的功能。提取的知識(shí)是部署 的個(gè)性化和主動(dòng)提供 網(wǎng)絡(luò)服務(wù)給用戶。第一,我們 描述預(yù)處理步驟訪問日志必要的步驟,選擇并準(zhǔn)備數(shù)據(jù),知識(shí)提取。然后 ,我們表現(xiàn)出兩套實(shí)驗(yàn): 第一,一個(gè)嘗試性預(yù)測的用戶基礎(chǔ)上訪問的網(wǎng)頁;第二,試圖預(yù)測是否用戶可能有興趣參觀的一部分網(wǎng)頁。 關(guān)鍵詞:知識(shí)發(fā)現(xiàn), Web 挖掘,分類。 導(dǎo)言 Web 挖掘是利用數(shù)據(jù)挖掘技術(shù)在自動(dòng)化發(fā)現(xiàn)和提取信息從網(wǎng)絡(luò)的文件和服務(wù)。一個(gè)常見的分類 Web 挖掘的三個(gè)主要的研究項(xiàng)目 明 確的規(guī)定:內(nèi)容分鐘法,結(jié)構(gòu)挖掘和使用挖掘。 區(qū)分這些類別沒有一個(gè)明確的界限,而是將經(jīng)常使用的方法相結(jié)合區(qū)分出 不同 的 類別。 內(nèi) 容涵蓋 數(shù)據(jù)挖掘技術(shù)提取模型,網(wǎng)絡(luò)對(duì)象的內(nèi)容,包括純文字,半結(jié)構(gòu)化文件(例如, HTML 或 XML 語言),結(jié)構(gòu)化文件(數(shù)字圖書館),動(dòng)態(tài)的文件,多媒體文件。提取模型被用于分類的網(wǎng)頁對(duì)象,提取關(guān)鍵字用于信息檢索,推斷結(jié)構(gòu)的半結(jié)構(gòu)化或非結(jié)構(gòu)化的對(duì)象。 結(jié)構(gòu)挖掘旨在發(fā)掘基本的拓?fù)浣Y(jié)構(gòu)的互連, 籌措之間的網(wǎng)絡(luò)對(duì)象。該模型建立可用于分類和排名的網(wǎng)站,并發(fā)現(xiàn) 了它們之間的相似性。 使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)使用從網(wǎng)絡(luò)模式的數(shù)據(jù)。數(shù)據(jù)通常是收集用戶的互動(dòng)關(guān)系在網(wǎng)上,例如網(wǎng)站 /代理服務(wù)器日志,用戶查詢,登記數(shù)據(jù)。使用挖掘工具發(fā)現(xiàn) 和預(yù)測用戶行為,以幫助設(shè)計(jì)師為改善網(wǎng)站,來吸引游客,或給普通用戶的個(gè)性化和適應(yīng)性的服務(wù)。 在本文中,我們描述了 Web 使用挖掘活動(dòng)的一個(gè)持續(xù)項(xiàng)目要求 ClickWorld ,旨在提取模型,以用戶的行為為目的的個(gè)性化網(wǎng)站。我們從中期全國性大型門戶網(wǎng)站 收集和預(yù)處理訪問日志 ,花費(fèi)的時(shí)間為 5 個(gè)月。該網(wǎng)站包括了民族地區(qū)如網(wǎng)址為: 的 新聞,論壇,笑話等,以及 30 多個(gè)地方 , 例如, 與城市專用信息,如本地新聞,餐廳地址,戲劇節(jié)目,巴士的時(shí)間表, ECC 等 。 預(yù)處理步驟包括數(shù)據(jù)選擇,清洗和轉(zhuǎn)化和通過驗(yàn)證的用戶和用戶會(huì)話。結(jié)果預(yù)處理, 方 法是一個(gè)數(shù)據(jù)集市的網(wǎng)絡(luò)訪問和注冊信息。從預(yù)處理的數(shù)據(jù), Web 挖掘的目的是發(fā)現(xiàn)模式調(diào)整方法從統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和模式識(shí)別。其中基本數(shù)據(jù)挖掘技術(shù),我們提到的關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)集團(tuán)的物體,常常要求用戶一起 。集群,集團(tuán)用戶提供類似的瀏覽方式,或集團(tuán)類似的物體內(nèi)容或訪問的模式 。分類,而有利于的用戶被分到某一類或類別 。和序列模式,即序列請(qǐng)求這是 常見的許多用戶。 在 ClickWorld 項(xiàng)目,有幾個(gè)上述方法,目前被用來提取有用的信息主動(dòng)提供個(gè)性化網(wǎng)頁網(wǎng)站。在本文中,我們描述了兩套分類實(shí)驗(yàn)。第一個(gè),一項(xiàng)旨在提取一分類模型能夠性別歧視的用戶根據(jù)設(shè)置的網(wǎng)頁訪問。第二次試驗(yàn)的目的是提取 一 分類模型能夠歧視這些用戶訪問的網(wǎng)頁有關(guān)例如:提供給典型的實(shí)驗(yàn)。 預(yù)處理的 Web 個(gè)性化 我們已經(jīng)制定了一個(gè)數(shù)據(jù)集市的網(wǎng)頁記錄特殊的 支持網(wǎng)絡(luò)個(gè)人化分析。該數(shù)據(jù)集市是人口從一個(gè)網(wǎng)絡(luò)日志數(shù)據(jù)倉庫房子, 如中所描述的,或更簡單地說,從原材料網(wǎng)絡(luò) /代理服務(wù)器日志種來。在這一節(jié)中,我們描 述了一些預(yù)處理和編碼步驟進(jìn)行數(shù)據(jù)的選擇,理解,清洗和轉(zhuǎn)化。雖然其中一些是一般數(shù)據(jù)準(zhǔn)備步驟, Web 使用挖掘,值得注意的是,在許多人的一種領(lǐng)域知識(shí)必須一定要包括以清潔,正確和完整的輸入數(shù)據(jù)根據(jù)網(wǎng)頁的個(gè)性化需求。 用戶注冊數(shù)據(jù) 除了網(wǎng)頁訪問日志,我們考慮輸入包括個(gè)人資料的一個(gè)子集的用戶,即那些誰注冊的 網(wǎng)站,備注:注冊法不是強(qiáng)制性的 。對(duì)于注冊用戶,該系統(tǒng)記錄了以下資料:性別,城市,省,婚姻狀況,出生日期。此信息是提供 由用戶在一個(gè)網(wǎng)頁表單在登記時(shí),作為一個(gè)可預(yù)計(jì),數(shù)據(jù)的標(biāo)準(zhǔn) 是對(duì)用戶公平。作 為預(yù)處理步驟,難以置信的數(shù)據(jù)檢測并刪除,如出生數(shù)據(jù)在未來或在遙遠(yuǎn)的過去。此外,一些額外的投入沒有進(jìn)口的數(shù)據(jù)信息,因?yàn)閹缀跛械闹捣謩e為左為默認(rèn)選擇的網(wǎng)頁表單。換言之,領(lǐng)域被認(rèn)為是不利于區(qū)分用戶的選擇和喜好。 為了避免用戶位數(shù)的登錄名和密碼在每個(gè)訪問 Cookie重復(fù)。如果一個(gè) Cookie 是由用戶的瀏覽器,然后認(rèn)證并不是必需的。否則,身份驗(yàn)證后,一個(gè)新的 Cookie 發(fā)送到用戶的瀏覽器。隨著這一機(jī)制,可以跟蹤任何用戶只要她刪除的 Cookie 的 體系。此外,如果用戶注冊,該協(xié)會(huì)登錄 cookie 是可以在輸入數(shù)據(jù),然后可以跟蹤用戶后, 還原她刪除的 cookie. 這種機(jī)制使檢測非人類的用戶,如系統(tǒng)診斷診斷和監(jiān)測方案。通過檢查的數(shù)量分配給 cookie 每個(gè)用戶,我們發(fā)現(xiàn),用戶登錄 ‘ test009’ 被派到以上 獨(dú)特的 Cookie。這不僅是可能的,如果用戶是一些程序,自動(dòng)刪除指定的 cookie,例如:系統(tǒng)診斷程序。 網(wǎng)站的網(wǎng)址 一方面,有一些標(biāo)準(zhǔn)化的網(wǎng)頁必須形成的統(tǒng)一的網(wǎng)址,以消除不相關(guān)的句法的差異。例如,主機(jī)可以在 IP 格式或自身 格式,如 是相同的主機(jī)作為。另一方面,也有一些網(wǎng)絡(luò)服務(wù)器程序采用非標(biāo)準(zhǔn)格式的參數(shù)傳遞。網(wǎng)站的 服務(wù)器程序是其中之一。例如,在以下網(wǎng)址: 3478, |DX, 文件的名字 1,3478, |DX,載有 00 碼的地方網(wǎng)站,網(wǎng)頁識(shí)別碼( 3478)及其專用的參數(shù)( DX 型)。 上述的形式設(shè)計(jì)了效率的機(jī)器進(jìn)程。作為一個(gè)例子,網(wǎng)頁標(biāo)識(shí)是一個(gè)關(guān)鍵的數(shù)據(jù)庫表的網(wǎng)頁模板發(fā)現(xiàn),雖然參數(shù)可以檢索的網(wǎng) 頁內(nèi)容在一些其他就座。不幸的是,這是一場噩夢時(shí),挖掘點(diǎn)擊的網(wǎng)址。句法功能的網(wǎng)址是很少的幫助:我們需要一些語義信息,或本論文指定的網(wǎng)址。 在最好的,我們可以預(yù)期,一個(gè)應(yīng)用程
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1