freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

個(gè)性化搜索模型設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文-資料下載頁

2025-07-09 21:13本頁面

【導(dǎo)讀】師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知,除文中特別加。而使用過的材料。均已在文中作了明確的說明并表示了謝意。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文。不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。全意識(shí)到本聲明的法律后果由本人承擔(dān)。同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)大學(xué)可以將本學(xué)位。印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。涉密論文按學(xué)校規(guī)定處理。程序清單等),文科類論文正文字?jǐn)?shù)不少于萬字。有圖紙應(yīng)符合國家技術(shù)標(biāo)準(zhǔn)規(guī)范。圖表整潔,布局合理,文字注釋必須使用工程。蹤、學(xué)習(xí)與更新等問題。我所設(shè)計(jì)的中心思想是,用戶注冊(cè)登錄到個(gè)性化搜索。引擎,根據(jù)用戶注冊(cè)的興趣信息以及用戶提交的檢索查詢?cè)~來反映用戶的興趣,

  

【正文】 程序中分析其的分類技術(shù)在用戶興趣模型中,有效識(shí)別用戶興趣類別偏好。用戶輸入檢索關(guān)鍵詞給搜索引擎,搜索引擎返回搜索結(jié)果,如果用戶對(duì)某一類感興趣,用戶會(huì)對(duì)該類的文檔進(jìn)行瀏覽,通過用戶鍵入的檢索關(guān)鍵詞以及用戶注冊(cè)時(shí)填寫的興趣類信息,通過用戶模型將查詢映射到對(duì)應(yīng)類別體系。用戶興趣模型有效識(shí)別用戶興趣偏好類別 后,對(duì)與之相關(guān)的資源進(jìn)行推薦、信息過濾等相關(guān)技術(shù)起到良好作用。 用戶興趣挖掘流程 用戶興趣挖掘的大致過程可分為用戶信息數(shù)據(jù)的采集、用戶信息的表達(dá)方法、用戶興趣分析建模以及用戶興趣更新與學(xué)習(xí)四個(gè)方面。 首先用戶需要有信息數(shù)據(jù)的采集工作,獲取到用戶信息后,就需要合理的表示用戶的信息,經(jīng)過分析用戶興趣偏好來構(gòu)建用戶的興趣模型,最后根據(jù)用戶的興趣變化規(guī)律,需要對(duì)用戶興趣進(jìn)行更新學(xué)習(xí)。 用戶通過搜索引擎查詢,然后查看相關(guān)文檔,需要網(wǎng)絡(luò)爬蟲系統(tǒng)根據(jù)用戶 點(diǎn)擊的 URL 下載網(wǎng)頁信息,然后 通過正文抽取,抽取正文內(nèi)容。用戶信息的采 集有多種方法包括:用戶自主提供,客戶端軟件跟蹤,服務(wù)器端跟蹤學(xué)習(xí)與信 息挖掘等。用戶模型數(shù)據(jù)獲取方法大體可以包括顯式信息挖掘和隱式信息挖 掘:顯式信息的收集由用戶給搜索系統(tǒng)提供相關(guān)信息表達(dá)其興趣、偏好、檢索 意圖以及對(duì)檢索結(jié)果做出的評(píng)價(jià)和反饋的信息。顯式信息是由用戶主觀能動(dòng)提 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 10 供給系統(tǒng)的信息,這些信息可能包括:用戶背景信息主要包括用戶提供的性 別、年齡、學(xué)歷、專業(yè)和職務(wù)等。這些信息有利于了解用戶的興趣背景,并針 對(duì)某些特定的領(lǐng)域,使用統(tǒng)計(jì)信息對(duì)用戶進(jìn)行聚類或分類,來挖掘用戶潛在的 檢索偏好和意圖。用戶興趣偏好是指在特定的興趣分類的體系框架下,由用戶 選定的自己感興趣的信息類別。這種方法能夠快速的收集用戶的興趣信息,比 較準(zhǔn)確地反映用戶的需求和興趣。用戶檢索意圖不再僅僅局限在一個(gè)關(guān)鍵字或 幾個(gè)關(guān)鍵字的邏輯組合,還可以引入更符合用戶習(xí)慣的自然語言查詢,增加用 戶表達(dá)其檢索意圖的途徑,讓用戶提供盡可能多的語言信息。評(píng)價(jià)與反饋即基 于相關(guān)反饋的技術(shù),通過用戶對(duì)返回的部分結(jié)果進(jìn)行標(biāo)定來確定用戶的興趣類 別偏好,然后對(duì)搜索結(jié)果 重新排序。隱式信息挖掘是指通過對(duì)用戶的瀏覽行為 進(jìn)行跟蹤而得到的隱式信息。提出隱式用戶興趣挖掘,過程包括挖掘用戶行 為、表示用戶行為特征、構(gòu)建用戶模型和識(shí)別用戶興趣模式。隱式信息的收 集需要監(jiān)視用戶在 WEB 頁面的行為,例如采集用戶在某一頁面停留的時(shí)間、 文檔的長(zhǎng)度、用戶訪問的 URL 地址和 URL 路徑的歷史等數(shù)據(jù),形成日志文件, 通過分析該日志文件總結(jié)出用戶的特征數(shù)據(jù)。研究表明一定時(shí)間段的 WEB 訪問 日志中蘊(yùn)含了用戶的穩(wěn)定興趣。這種方法對(duì)用戶透明,但用戶數(shù)據(jù)的收集往往 需要一段較長(zhǎng)的時(shí)間。實(shí)驗(yàn)數(shù)據(jù)采用爬蟲程序收 集網(wǎng)上信息到數(shù)據(jù)庫中,可收集各個(gè)搜索引擎中的網(wǎng)上資料。 為了收集和存儲(chǔ)用戶信息,跟蹤用戶的興趣與行為,有必要為每個(gè)用戶建立一個(gè)用戶描述文件。用戶描述文件用來定義用戶信息在計(jì)算機(jī)內(nèi)的表達(dá)和存儲(chǔ)形式,刻畫用戶的興趣特征與用戶之間的關(guān)系。用戶信息表達(dá)方法為用戶建模服務(wù),如何有效表達(dá)用戶信息是用戶建模的核心技術(shù)問題,用戶搜索上網(wǎng)首先通過搜索引擎提交查詢串,搜索引擎系統(tǒng)返回給用戶相關(guān)文檔,用戶瀏覽相關(guān)文檔。本文將相關(guān)文檔放入用戶興趣庫,最后形成用戶興趣模 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 11 型。用戶興趣隨著時(shí)間變化會(huì)發(fā)生變化。 例如用戶對(duì)某類關(guān)注度很高,那么用戶在該類的興趣就會(huì)升高;人的情緒、環(huán)境等因素也影響用戶興趣變化,如果情緒低落等,用戶在某類的興趣可能減小,啟發(fā)本文要進(jìn)行用戶興趣更新學(xué)習(xí)。具體過程如圖 31 所示。 圖 31 用戶興趣表示 用戶模型是用來表示和存儲(chǔ)在計(jì)算機(jī)用戶的形式化定義,描述用戶興趣特征和用戶興趣之間的關(guān)系,不同的用戶模型的個(gè)性化服務(wù)系統(tǒng)有其自身的特點(diǎn),采用用戶模型的形式往往與他們的數(shù)據(jù)源集合關(guān)聯(lián)。作為宏道用戶使用靜態(tài)信息來描述用戶背景;描述基于超鏈文件的加權(quán)關(guān)鍵詞向量個(gè)人 WebWatcher 方法;基于關(guān)鍵詞和表達(dá)語境關(guān)系的加權(quán)語義網(wǎng),描述用戶顯式和隱式反饋信息;PVA 使用類型繼承。 在該領(lǐng)域的知識(shí)來表達(dá)個(gè)人觀點(diǎn),描述代理日志信息; siteseer 使用用戶的書簽和目錄結(jié)構(gòu)來描述自定義目錄類型。在一般情況下,從內(nèi)容的用戶模式可以分為兩類基于興趣和行為的基礎(chǔ)。用戶的興趣模型可以表示為一個(gè)加權(quán)矢量互聯(lián)網(wǎng)資源 搜 索 引 擎 系 統(tǒng) 網(wǎng) 頁 文 檔 用戶興趣庫 用 戶 興 趣 模 型 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 12 模型,類型層次結(jié)構(gòu)模型,加權(quán)語義網(wǎng)模型,書簽和目錄基于用戶模型結(jié)構(gòu);基于行為可以在瀏覽模式或用戶訪問模式表達(dá)。 用戶興趣模型能否準(zhǔn)確有效地捕捉和描述用戶興趣并及時(shí)跟蹤反映其變化 ,將直接或間接決定過濾成功與否, 由此可見用戶模型的重要性。用戶興趣模型是推薦系統(tǒng)中的一個(gè)模塊,是在計(jì)算機(jī)中建立的對(duì)用戶興趣特征的描述,能獲取、表示、存儲(chǔ)和修改用戶興趣偏好。能進(jìn)行推理,對(duì)用戶進(jìn)行分類和識(shí)別,幫助系統(tǒng)更好的理解用戶特征和類別,理解用戶的需求和任務(wù) ,從 而更好的實(shí)現(xiàn)用戶所需要的功能。也就是說用戶興趣建模是從有關(guān)用戶興趣和行為的信息如訪問內(nèi)容、瀏覽行為、下載行為、背景知識(shí)等中歸納出可計(jì)算的用戶興趣表示的過程。用戶興趣建模的目的是為采集到的用戶信息提供形式化的描述手段;為基于用戶信息的分析和挖掘提供理論和方法;指導(dǎo)用戶信息在個(gè)性化信息檢索中的應(yīng)用。目前基于內(nèi)容的用戶興趣分析技術(shù)多為相關(guān)性分析技術(shù),通過建立的用戶興趣模型來計(jì)算用戶查詢和被檢索文檔的相關(guān)程度,達(dá)到個(gè)性化檢索和排序的目的。擬采取的研究方式內(nèi)容分析模型以向量空間模型為基礎(chǔ),研究基于用戶訪問的文本內(nèi) 容 的形 式化描述手段和方法,并探索該模型在個(gè)性化信息檢索中的應(yīng)用,通過融合語言模型和相關(guān)性模型改進(jìn)向量模型忽視特征共現(xiàn)的缺點(diǎn),解決實(shí)際應(yīng)用中初始數(shù)據(jù)稀疏對(duì)用戶模型的影響。同時(shí)用戶建模通過向量空間模型構(gòu)建,可以把用戶預(yù)先給定的相關(guān)信息即用戶通過填表或上傳直接給定文本信息,或通過用戶在網(wǎng)絡(luò)上的訪問行為隱式獲取的文本信息,以及把用戶輸入的 Query 表示特征權(quán)重的向量空間,其中每個(gè)特征的權(quán)重通過 TF*IDF 進(jìn)行計(jì)算。然后采用向量空間夾角實(shí)時(shí)計(jì)算信息流與用戶模型的相關(guān)度,最后通過排序或設(shè)定閾值獲得相關(guān)信息。 用戶的興趣 并不是固定的,用戶模型是不固定的,用戶會(huì)因?yàn)橐恍﹤€(gè)人因素或外部因素,個(gè)人興趣也發(fā)生了改變,用戶模型應(yīng)該考慮更新模塊。這要求用戶模型根據(jù)用戶的變化來自適應(yīng)變化,隨時(shí)間的變化,用戶興趣的變化遵循 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 13 一定的規(guī)則。 本章小結(jié) 本章主要對(duì)用戶興趣挖掘過程進(jìn)行了介紹,用戶興趣挖掘過程可以分為用戶興趣獲取,建立用戶信息和用戶模型的表達(dá)模式分析,用戶模型更新。其中,用戶信息的數(shù)據(jù)采集是收集用戶的在線信息,瀏覽的用戶的喜好,用戶偏好行為識(shí)別;用戶信息表達(dá)為用戶興趣建模服務(wù)的步驟,有效清晰的表達(dá)用戶信息是構(gòu)建高效用戶興趣模型的前提 條件;用戶興趣分析與建模是核心部分,只有合理的用戶興趣模型才能反映出用戶的需求。 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 14 第 4章 個(gè)性化搜索系統(tǒng)總體設(shè)計(jì) 搜索技術(shù)中融入用戶興趣信息的采集,首先開發(fā)一個(gè)基于用戶的個(gè)性化搜索引擎系統(tǒng)。該系統(tǒng)能個(gè)性化的完成用戶的搜索行為,生成用戶興趣模式優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容??傮w來說此系統(tǒng)的設(shè)計(jì)至少應(yīng)一該滿足以下幾點(diǎn)功能要求 :用戶注冊(cè)登陸、用戶興趣錄入,得到搜索返回結(jié)果。生成特定用戶興趣模式,優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容,提高檢索效率。 系統(tǒng)總體設(shè)計(jì) 主要分為兩大部分,一個(gè)是控制臺(tái)程序,一個(gè)是用戶端,而每一部分都有其各自的功能,這些功能的詳細(xì)說明將在本章稍后闡明。 網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它是從萬維網(wǎng)搜索引擎進(jìn)行網(wǎng)頁下載,是搜索引擎的重要組成部分。傳統(tǒng)爬蟲從一個(gè)或多個(gè)初始網(wǎng)頁 URL 中得到初始的網(wǎng)頁,在網(wǎng)頁的抓取過程中,不斷從當(dāng)前頁的提取新的 URL 隊(duì)列,直到滿足系統(tǒng)必須停止條件。聚焦爬蟲的工作過程是更復(fù)雜的,根據(jù)一定的網(wǎng)頁分析算法過濾無關(guān)鏈接需要,保留有用的鏈接和放置在隊(duì)列中等待的 URL 捕獲。然后,它將根據(jù)一定的搜索 策略選擇的網(wǎng)頁 URL 的隊(duì)列中檢索,并重復(fù)這個(gè)過程,直到達(dá)到系統(tǒng)停止?fàn)顟B(tài)。此外,所有被蜘蛛抓取的網(wǎng)頁將被存儲(chǔ),分析和篩選,并建立了索引,以便查詢和檢索;對(duì)聚焦爬蟲,通過這種方法得到的分析結(jié)果也可能是后反饋給在爬行過程的指導(dǎo)。 網(wǎng)絡(luò)爬蟲的組成: 在網(wǎng)絡(luò)爬蟲的體系框架中,主要由控制器,解析器,資源信息庫三部分的資源基礎(chǔ)組成。該控制器的主要工作是在多線程中分配工作任務(wù)負(fù)責(zé)執(zhí)行。分析器的主要工作是下載頁面,頁面處理,主要是一些 JS 腳本標(biāo)簽, CSS 代碼內(nèi) 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 15 容,空間特征, HTML 標(biāo)簽,內(nèi)容處理,基本的工作是由解析器來完成。 資源數(shù)據(jù)庫用于存儲(chǔ)下載的網(wǎng)站資源,一般由大型數(shù)據(jù)庫,如 Oracle 數(shù)據(jù)庫,并建立了索引。 控制器 控制器是網(wǎng)絡(luò)爬蟲的中央控制器,它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的 URL 鏈接,分配一線程,然后啟動(dòng)線程調(diào)用爬蟲爬取網(wǎng)頁的過程。 解析器 解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分,其負(fù)責(zé)的工作主要有:下載網(wǎng)頁的功能,對(duì)網(wǎng)頁的文本進(jìn)行處理,如過濾功能,抽取特殊 HTML 標(biāo)簽的功能,分析數(shù)據(jù)功能。 資源庫 主要是用來存儲(chǔ)網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器,并提供生成索引的目標(biāo)源。中大型的數(shù)據(jù)庫產(chǎn)品有: Oracle、 Sql Server 等。 本程序用戶端主要是用戶搜索界面,用戶的登錄,用戶的注冊(cè)的信息,用戶在注冊(cè)信息時(shí),所鍵入的興趣選擇信息,以及用戶提交搜索關(guān)鍵詞,最后,用戶得到經(jīng)過篩選之后與自己興趣相關(guān)的搜索結(jié)果。 用戶端使用的是顯示興趣挖掘用戶的行為習(xí)慣,根據(jù)用戶的所選擇興趣來表示用戶的真實(shí)興趣,根據(jù)用戶的鍵入檢索關(guān)鍵詞和用戶所選擇的興趣來為用戶選擇相關(guān)的頁面內(nèi)容。 下面通過個(gè)性化搜索的功能模塊圖來表示個(gè)性化搜索系統(tǒng)的相關(guān)功能,以及各模塊的組成部分。 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 16 程序功能模塊圖如圖 41 所示。 圖 41 功能結(jié)構(gòu)圖 系統(tǒng)數(shù)據(jù)庫的設(shè)計(jì) 數(shù)據(jù)庫中含有四張表:用戶信息表、興趣信息與興趣名稱映射表、頁面信息表、用戶興趣映射表。接下來分別作介紹。 主要存儲(chǔ)指定用戶的所選興趣信息,包括了用戶ID,興趣 ID 兩方面的字段信息。如表 41 所示。 表 41 用戶與用戶興趣映射表 字段名稱 字段類型 字段說明 UserID int 用戶 id IntrestID int 興趣 id 個(gè)性化搜索 控制臺(tái) 用戶端 網(wǎng) 絡(luò) 資 源 下 載 網(wǎng) 絡(luò) 資 源 分 析 用 戶 登 錄 用 戶 注 冊(cè) 用 戶 興 趣 錄 入 提 交 檢 索 關(guān) 鍵 詞 返 回 用 戶 查 詢 結(jié) 果 網(wǎng) 絡(luò) 資 源 存 儲(chǔ) 生 成 索 引 網(wǎng) 絡(luò) 資 源 重 寫 哈爾濱 華德學(xué)院 畢業(yè)設(shè)計(jì)(論文) 17 主要是存儲(chǔ)頁面的各種信息,包括了網(wǎng)頁 id、網(wǎng)頁主題、網(wǎng)頁鏈接、網(wǎng)頁內(nèi)容、網(wǎng)頁元信息等字段信息。如表 42 所示。 表 42 頁面信息表 字段名稱 字段類型 字段說明 ID int 網(wǎng)頁 id Title Nvarchar(MAX) 網(wǎng)頁主題 Url Nvarchar(MAX) 網(wǎng)頁鏈接 Content Nvarchar(MAX) 網(wǎng)頁內(nèi)容 Meta Nvarchar(MAX) 頁面元信息 主要是存儲(chǔ)用戶的個(gè)人信息,包括用戶登錄名、用戶密碼、用戶顯示名稱等字段信息。如表 43 所示。 表 43 用戶信息表 字段名稱 字段類型 字段說明 UseName Nvchar(50) 用戶登錄姓名 Password Nvchar(50) 用戶密碼 NickName Nvchar(50) 用戶顯示名稱 id 與興趣名稱映射表 主要是存儲(chǔ)興趣類別的信息,包括興趣 id,興趣名稱等字段信息。如表 44 所示。 表 44 興趣 id 與興趣名稱映射表 字段名稱 字段類型 字段說明 ID int 興趣 id Name Nvchar(50) 興趣名稱 如上的四張表為個(gè)性化搜索系統(tǒng)的數(shù)據(jù)庫表,其核心部分是用戶的 ID,根
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1