freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

個性化搜索模型設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

2025-07-09 21:13本頁面

【導讀】師的指導下進行的研究工作及取得的成果。盡我所知,除文中特別加。而使用過的材料。均已在文中作了明確的說明并表示了謝意。除了文中特別加以標注引用的內(nèi)容外,本論文。不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。究做出重要貢獻的個人和集體,均已在文中以明確方式標明。全意識到本聲明的法律后果由本人承擔。同意學校保留并向國家有關(guān)部門或機構(gòu)送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權(quán)大學可以將本學位。印或掃描等復制手段保存和匯編本學位論文。涉密論文按學校規(guī)定處理。程序清單等),文科類論文正文字數(shù)不少于萬字。有圖紙應(yīng)符合國家技術(shù)標準規(guī)范。圖表整潔,布局合理,文字注釋必須使用工程。蹤、學習與更新等問題。我所設(shè)計的中心思想是,用戶注冊登錄到個性化搜索。引擎,根據(jù)用戶注冊的興趣信息以及用戶提交的檢索查詢詞來反映用戶的興趣,

  

【正文】 程序中分析其的分類技術(shù)在用戶興趣模型中,有效識別用戶興趣類別偏好。用戶輸入檢索關(guān)鍵詞給搜索引擎,搜索引擎返回搜索結(jié)果,如果用戶對某一類感興趣,用戶會對該類的文檔進行瀏覽,通過用戶鍵入的檢索關(guān)鍵詞以及用戶注冊時填寫的興趣類信息,通過用戶模型將查詢映射到對應(yīng)類別體系。用戶興趣模型有效識別用戶興趣偏好類別 后,對與之相關(guān)的資源進行推薦、信息過濾等相關(guān)技術(shù)起到良好作用。 用戶興趣挖掘流程 用戶興趣挖掘的大致過程可分為用戶信息數(shù)據(jù)的采集、用戶信息的表達方法、用戶興趣分析建模以及用戶興趣更新與學習四個方面。 首先用戶需要有信息數(shù)據(jù)的采集工作,獲取到用戶信息后,就需要合理的表示用戶的信息,經(jīng)過分析用戶興趣偏好來構(gòu)建用戶的興趣模型,最后根據(jù)用戶的興趣變化規(guī)律,需要對用戶興趣進行更新學習。 用戶通過搜索引擎查詢,然后查看相關(guān)文檔,需要網(wǎng)絡(luò)爬蟲系統(tǒng)根據(jù)用戶 點擊的 URL 下載網(wǎng)頁信息,然后 通過正文抽取,抽取正文內(nèi)容。用戶信息的采 集有多種方法包括:用戶自主提供,客戶端軟件跟蹤,服務(wù)器端跟蹤學習與信 息挖掘等。用戶模型數(shù)據(jù)獲取方法大體可以包括顯式信息挖掘和隱式信息挖 掘:顯式信息的收集由用戶給搜索系統(tǒng)提供相關(guān)信息表達其興趣、偏好、檢索 意圖以及對檢索結(jié)果做出的評價和反饋的信息。顯式信息是由用戶主觀能動提 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 10 供給系統(tǒng)的信息,這些信息可能包括:用戶背景信息主要包括用戶提供的性 別、年齡、學歷、專業(yè)和職務(wù)等。這些信息有利于了解用戶的興趣背景,并針 對某些特定的領(lǐng)域,使用統(tǒng)計信息對用戶進行聚類或分類,來挖掘用戶潛在的 檢索偏好和意圖。用戶興趣偏好是指在特定的興趣分類的體系框架下,由用戶 選定的自己感興趣的信息類別。這種方法能夠快速的收集用戶的興趣信息,比 較準確地反映用戶的需求和興趣。用戶檢索意圖不再僅僅局限在一個關(guān)鍵字或 幾個關(guān)鍵字的邏輯組合,還可以引入更符合用戶習慣的自然語言查詢,增加用 戶表達其檢索意圖的途徑,讓用戶提供盡可能多的語言信息。評價與反饋即基 于相關(guān)反饋的技術(shù),通過用戶對返回的部分結(jié)果進行標定來確定用戶的興趣類 別偏好,然后對搜索結(jié)果 重新排序。隱式信息挖掘是指通過對用戶的瀏覽行為 進行跟蹤而得到的隱式信息。提出隱式用戶興趣挖掘,過程包括挖掘用戶行 為、表示用戶行為特征、構(gòu)建用戶模型和識別用戶興趣模式。隱式信息的收 集需要監(jiān)視用戶在 WEB 頁面的行為,例如采集用戶在某一頁面停留的時間、 文檔的長度、用戶訪問的 URL 地址和 URL 路徑的歷史等數(shù)據(jù),形成日志文件, 通過分析該日志文件總結(jié)出用戶的特征數(shù)據(jù)。研究表明一定時間段的 WEB 訪問 日志中蘊含了用戶的穩(wěn)定興趣。這種方法對用戶透明,但用戶數(shù)據(jù)的收集往往 需要一段較長的時間。實驗數(shù)據(jù)采用爬蟲程序收 集網(wǎng)上信息到數(shù)據(jù)庫中,可收集各個搜索引擎中的網(wǎng)上資料。 為了收集和存儲用戶信息,跟蹤用戶的興趣與行為,有必要為每個用戶建立一個用戶描述文件。用戶描述文件用來定義用戶信息在計算機內(nèi)的表達和存儲形式,刻畫用戶的興趣特征與用戶之間的關(guān)系。用戶信息表達方法為用戶建模服務(wù),如何有效表達用戶信息是用戶建模的核心技術(shù)問題,用戶搜索上網(wǎng)首先通過搜索引擎提交查詢串,搜索引擎系統(tǒng)返回給用戶相關(guān)文檔,用戶瀏覽相關(guān)文檔。本文將相關(guān)文檔放入用戶興趣庫,最后形成用戶興趣模 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 11 型。用戶興趣隨著時間變化會發(fā)生變化。 例如用戶對某類關(guān)注度很高,那么用戶在該類的興趣就會升高;人的情緒、環(huán)境等因素也影響用戶興趣變化,如果情緒低落等,用戶在某類的興趣可能減小,啟發(fā)本文要進行用戶興趣更新學習。具體過程如圖 31 所示。 圖 31 用戶興趣表示 用戶模型是用來表示和存儲在計算機用戶的形式化定義,描述用戶興趣特征和用戶興趣之間的關(guān)系,不同的用戶模型的個性化服務(wù)系統(tǒng)有其自身的特點,采用用戶模型的形式往往與他們的數(shù)據(jù)源集合關(guān)聯(lián)。作為宏道用戶使用靜態(tài)信息來描述用戶背景;描述基于超鏈文件的加權(quán)關(guān)鍵詞向量個人 WebWatcher 方法;基于關(guān)鍵詞和表達語境關(guān)系的加權(quán)語義網(wǎng),描述用戶顯式和隱式反饋信息;PVA 使用類型繼承。 在該領(lǐng)域的知識來表達個人觀點,描述代理日志信息; siteseer 使用用戶的書簽和目錄結(jié)構(gòu)來描述自定義目錄類型。在一般情況下,從內(nèi)容的用戶模式可以分為兩類基于興趣和行為的基礎(chǔ)。用戶的興趣模型可以表示為一個加權(quán)矢量互聯(lián)網(wǎng)資源 搜 索 引 擎 系 統(tǒng) 網(wǎng) 頁 文 檔 用戶興趣庫 用 戶 興 趣 模 型 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 12 模型,類型層次結(jié)構(gòu)模型,加權(quán)語義網(wǎng)模型,書簽和目錄基于用戶模型結(jié)構(gòu);基于行為可以在瀏覽模式或用戶訪問模式表達。 用戶興趣模型能否準確有效地捕捉和描述用戶興趣并及時跟蹤反映其變化 ,將直接或間接決定過濾成功與否, 由此可見用戶模型的重要性。用戶興趣模型是推薦系統(tǒng)中的一個模塊,是在計算機中建立的對用戶興趣特征的描述,能獲取、表示、存儲和修改用戶興趣偏好。能進行推理,對用戶進行分類和識別,幫助系統(tǒng)更好的理解用戶特征和類別,理解用戶的需求和任務(wù) ,從 而更好的實現(xiàn)用戶所需要的功能。也就是說用戶興趣建模是從有關(guān)用戶興趣和行為的信息如訪問內(nèi)容、瀏覽行為、下載行為、背景知識等中歸納出可計算的用戶興趣表示的過程。用戶興趣建模的目的是為采集到的用戶信息提供形式化的描述手段;為基于用戶信息的分析和挖掘提供理論和方法;指導用戶信息在個性化信息檢索中的應(yīng)用。目前基于內(nèi)容的用戶興趣分析技術(shù)多為相關(guān)性分析技術(shù),通過建立的用戶興趣模型來計算用戶查詢和被檢索文檔的相關(guān)程度,達到個性化檢索和排序的目的。擬采取的研究方式內(nèi)容分析模型以向量空間模型為基礎(chǔ),研究基于用戶訪問的文本內(nèi) 容 的形 式化描述手段和方法,并探索該模型在個性化信息檢索中的應(yīng)用,通過融合語言模型和相關(guān)性模型改進向量模型忽視特征共現(xiàn)的缺點,解決實際應(yīng)用中初始數(shù)據(jù)稀疏對用戶模型的影響。同時用戶建模通過向量空間模型構(gòu)建,可以把用戶預(yù)先給定的相關(guān)信息即用戶通過填表或上傳直接給定文本信息,或通過用戶在網(wǎng)絡(luò)上的訪問行為隱式獲取的文本信息,以及把用戶輸入的 Query 表示特征權(quán)重的向量空間,其中每個特征的權(quán)重通過 TF*IDF 進行計算。然后采用向量空間夾角實時計算信息流與用戶模型的相關(guān)度,最后通過排序或設(shè)定閾值獲得相關(guān)信息。 用戶的興趣 并不是固定的,用戶模型是不固定的,用戶會因為一些個人因素或外部因素,個人興趣也發(fā)生了改變,用戶模型應(yīng)該考慮更新模塊。這要求用戶模型根據(jù)用戶的變化來自適應(yīng)變化,隨時間的變化,用戶興趣的變化遵循 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 13 一定的規(guī)則。 本章小結(jié) 本章主要對用戶興趣挖掘過程進行了介紹,用戶興趣挖掘過程可以分為用戶興趣獲取,建立用戶信息和用戶模型的表達模式分析,用戶模型更新。其中,用戶信息的數(shù)據(jù)采集是收集用戶的在線信息,瀏覽的用戶的喜好,用戶偏好行為識別;用戶信息表達為用戶興趣建模服務(wù)的步驟,有效清晰的表達用戶信息是構(gòu)建高效用戶興趣模型的前提 條件;用戶興趣分析與建模是核心部分,只有合理的用戶興趣模型才能反映出用戶的需求。 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 14 第 4章 個性化搜索系統(tǒng)總體設(shè)計 搜索技術(shù)中融入用戶興趣信息的采集,首先開發(fā)一個基于用戶的個性化搜索引擎系統(tǒng)。該系統(tǒng)能個性化的完成用戶的搜索行為,生成用戶興趣模式優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容??傮w來說此系統(tǒng)的設(shè)計至少應(yīng)一該滿足以下幾點功能要求 :用戶注冊登陸、用戶興趣錄入,得到搜索返回結(jié)果。生成特定用戶興趣模式,優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容,提高檢索效率。 系統(tǒng)總體設(shè)計 主要分為兩大部分,一個是控制臺程序,一個是用戶端,而每一部分都有其各自的功能,這些功能的詳細說明將在本章稍后闡明。 網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它是從萬維網(wǎng)搜索引擎進行網(wǎng)頁下載,是搜索引擎的重要組成部分。傳統(tǒng)爬蟲從一個或多個初始網(wǎng)頁 URL 中得到初始的網(wǎng)頁,在網(wǎng)頁的抓取過程中,不斷從當前頁的提取新的 URL 隊列,直到滿足系統(tǒng)必須停止條件。聚焦爬蟲的工作過程是更復雜的,根據(jù)一定的網(wǎng)頁分析算法過濾無關(guān)鏈接需要,保留有用的鏈接和放置在隊列中等待的 URL 捕獲。然后,它將根據(jù)一定的搜索 策略選擇的網(wǎng)頁 URL 的隊列中檢索,并重復這個過程,直到達到系統(tǒng)停止狀態(tài)。此外,所有被蜘蛛抓取的網(wǎng)頁將被存儲,分析和篩選,并建立了索引,以便查詢和檢索;對聚焦爬蟲,通過這種方法得到的分析結(jié)果也可能是后反饋給在爬行過程的指導。 網(wǎng)絡(luò)爬蟲的組成: 在網(wǎng)絡(luò)爬蟲的體系框架中,主要由控制器,解析器,資源信息庫三部分的資源基礎(chǔ)組成。該控制器的主要工作是在多線程中分配工作任務(wù)負責執(zhí)行。分析器的主要工作是下載頁面,頁面處理,主要是一些 JS 腳本標簽, CSS 代碼內(nèi) 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 15 容,空間特征, HTML 標簽,內(nèi)容處理,基本的工作是由解析器來完成。 資源數(shù)據(jù)庫用于存儲下載的網(wǎng)站資源,一般由大型數(shù)據(jù)庫,如 Oracle 數(shù)據(jù)庫,并建立了索引。 控制器 控制器是網(wǎng)絡(luò)爬蟲的中央控制器,它主要是負責根據(jù)系統(tǒng)傳過來的 URL 鏈接,分配一線程,然后啟動線程調(diào)用爬蟲爬取網(wǎng)頁的過程。 解析器 解析器是負責網(wǎng)絡(luò)爬蟲的主要部分,其負責的工作主要有:下載網(wǎng)頁的功能,對網(wǎng)頁的文本進行處理,如過濾功能,抽取特殊 HTML 標簽的功能,分析數(shù)據(jù)功能。 資源庫 主要是用來存儲網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器,并提供生成索引的目標源。中大型的數(shù)據(jù)庫產(chǎn)品有: Oracle、 Sql Server 等。 本程序用戶端主要是用戶搜索界面,用戶的登錄,用戶的注冊的信息,用戶在注冊信息時,所鍵入的興趣選擇信息,以及用戶提交搜索關(guān)鍵詞,最后,用戶得到經(jīng)過篩選之后與自己興趣相關(guān)的搜索結(jié)果。 用戶端使用的是顯示興趣挖掘用戶的行為習慣,根據(jù)用戶的所選擇興趣來表示用戶的真實興趣,根據(jù)用戶的鍵入檢索關(guān)鍵詞和用戶所選擇的興趣來為用戶選擇相關(guān)的頁面內(nèi)容。 下面通過個性化搜索的功能模塊圖來表示個性化搜索系統(tǒng)的相關(guān)功能,以及各模塊的組成部分。 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 16 程序功能模塊圖如圖 41 所示。 圖 41 功能結(jié)構(gòu)圖 系統(tǒng)數(shù)據(jù)庫的設(shè)計 數(shù)據(jù)庫中含有四張表:用戶信息表、興趣信息與興趣名稱映射表、頁面信息表、用戶興趣映射表。接下來分別作介紹。 主要存儲指定用戶的所選興趣信息,包括了用戶ID,興趣 ID 兩方面的字段信息。如表 41 所示。 表 41 用戶與用戶興趣映射表 字段名稱 字段類型 字段說明 UserID int 用戶 id IntrestID int 興趣 id 個性化搜索 控制臺 用戶端 網(wǎng) 絡(luò) 資 源 下 載 網(wǎng) 絡(luò) 資 源 分 析 用 戶 登 錄 用 戶 注 冊 用 戶 興 趣 錄 入 提 交 檢 索 關(guān) 鍵 詞 返 回 用 戶 查 詢 結(jié) 果 網(wǎng) 絡(luò) 資 源 存 儲 生 成 索 引 網(wǎng) 絡(luò) 資 源 重 寫 哈爾濱 華德學院 畢業(yè)設(shè)計(論文) 17 主要是存儲頁面的各種信息,包括了網(wǎng)頁 id、網(wǎng)頁主題、網(wǎng)頁鏈接、網(wǎng)頁內(nèi)容、網(wǎng)頁元信息等字段信息。如表 42 所示。 表 42 頁面信息表 字段名稱 字段類型 字段說明 ID int 網(wǎng)頁 id Title Nvarchar(MAX) 網(wǎng)頁主題 Url Nvarchar(MAX) 網(wǎng)頁鏈接 Content Nvarchar(MAX) 網(wǎng)頁內(nèi)容 Meta Nvarchar(MAX) 頁面元信息 主要是存儲用戶的個人信息,包括用戶登錄名、用戶密碼、用戶顯示名稱等字段信息。如表 43 所示。 表 43 用戶信息表 字段名稱 字段類型 字段說明 UseName Nvchar(50) 用戶登錄姓名 Password Nvchar(50) 用戶密碼 NickName Nvchar(50) 用戶顯示名稱 id 與興趣名稱映射表 主要是存儲興趣類別的信息,包括興趣 id,興趣名稱等字段信息。如表 44 所示。 表 44 興趣 id 與興趣名稱映射表 字段名稱 字段類型 字段說明 ID int 興趣 id Name Nvchar(50) 興趣名稱 如上的四張表為個性化搜索系統(tǒng)的數(shù)據(jù)庫表,其核心部分是用戶的 ID,根
點擊復制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1