freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

個性化推薦系統(tǒng)設(shè)計畢業(yè)論文-wenkub

2023-07-12 13:13:20 本頁面
 

【正文】 的學(xué)習(xí)方案。 WEKA 的諸多特點可以反映出,WEKA 的功能還是比較完善的。WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),它是由懷卡托大學(xué)研究而成的,是一個完全開放的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理、分類、聚類、關(guān)聯(lián)規(guī)則、屬性選擇以及在新的交互式界面上實現(xiàn)可視化等。同時基于關(guān)聯(lián)規(guī)則的推薦系統(tǒng)由于采用用戶數(shù)據(jù),不可避免的存在冷啟動和稀疏性問題。而最小支持度閾值和最小置信度閾值也是決定一個事務(wù)集合是否是頻繁事務(wù)集和一個關(guān)聯(lián)規(guī)則是否成立的決定因素。一般而言,F(xiàn)PGrowth要比Apriori快至少一個數(shù)量級。Apriori算法思路實現(xiàn)簡單,通過迭代不斷通過K1元頻繁項目集生成K元頻繁項目集,直到不能生成為止,最終可以得到最大頻繁項目集。 CF 的基本原理基于關(guān)聯(lián)規(guī)則的推薦更常見于電子商務(wù)系統(tǒng)中,并且也被證明行之有效。圖 2 給出了一個例子,對于用戶 A,根據(jù)用戶的歷史偏好,這里只計算得到一個鄰居 用戶C,然后將用戶C喜歡的物品D 推薦給用戶A。總體思想還是一個迭代優(yōu)化過程,有目標函數(shù),也有參數(shù)變量,只是多了個隱含變量,確定其他參數(shù)估計隱含變量,再確定隱含變量估計其他參數(shù),直至目標函數(shù)最優(yōu)。對應(yīng)于Kmeans來說就是我們一開始不知道每個樣例對應(yīng)隱含變量也就是最佳類別。這個過程有幾個難點,第一怎么假定y?是每個樣例硬指派一個y還是不同的y有不同的概率,概率如何度量。由于我們事先不知道類別y,那么我們首先可以對每個樣例假定一個y吧,但是怎么知道假定的對不對呢?怎么評價假定的好不好呢?我們使用樣本的極大似然估計來度量,這里是就是x和y的聯(lián)合分布P(x,y)了。(在理論上,可以有多組不同的和c值能夠使得J取得最小值,但這種現(xiàn)象實際上很少見)。Kmeans是要將J調(diào)整到最小。重復(fù)迭代第一步和第二步直到質(zhì)心不變或者變化很小。 重復(fù)下面過程直到收斂 {固定聚類數(shù)的鄰居: Kmeans算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。假設(shè)要計算點1的5個鄰居,那么根據(jù)點之間的距離,我們?nèi)∽罱?個點,分別是點2,點3,點4,點7和點5。b皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)皮爾遜相關(guān)系數(shù)一般用于計算兩個定距變量間聯(lián)系的緊密程度,它的取值在 [1,+1] 之間。②找到相似的用戶(通過相似度找到相似用戶):相似度的計算關(guān)于相似度的計算,現(xiàn)有的幾種基本方法都是基于向量(Vector)的,其實也就是計算兩個向量的距離,距離越近相似度越大。歸一化:如前面講到的,在計算用戶對物品的喜好程度時,可能需要對不同的行為數(shù)據(jù)進行加權(quán)。可以想象,這種推薦策略在 Web 的長尾中是很重要的,將大眾流行的東西推薦給長尾中的人怎么可能得到好的效果,這也回到推薦系統(tǒng)的一個核心問題:了解你的用戶,然后才能給出更好的推薦(1)基于用戶的協(xié)同過濾 首先,要實現(xiàn)協(xié)同過濾,需要以下3個核心步驟:①收集用戶偏好:從用戶的行為和偏好中發(fā)現(xiàn)規(guī)律,并基于此給予推薦,如何收集用戶的偏好信息成為系統(tǒng)推薦效果最基礎(chǔ)的決定因素。要理解什么是協(xié)同過濾 (Collaborative Filtering, 簡稱 CF) [5],首先想一個簡單的問題,如果你現(xiàn)在想看個電影,但你不知道具體看哪部,你會怎么做?大部分的人會問問周圍的朋友,看看最近有什么好看的電影推薦,而我們一般更傾向于從口味比較類似的朋友那里得到推薦。下面對這些方法的數(shù)學(xué)原理和工具或平臺做具體介紹。將算法研究重點放到對知識結(jié)構(gòu)與習(xí)題資源本身的信息的利用和處理上,以解決在ITS系統(tǒng)中為學(xué)生從海量資源中進行個性化資源推薦的問題,并將通過實驗證明該算法和系統(tǒng)的理論價值與應(yīng)用價值。相比于利益驅(qū)動的電子商務(wù)領(lǐng)域個性化推薦算法的蓬勃發(fā)展,主要應(yīng)用于教育領(lǐng)域的個性化推薦算法的研究則相對疲軟。為了能夠提高個性化推薦系統(tǒng)的準確率,本論文摒棄單一的協(xié)同過濾方法,提出新的推薦方法思路并將其理論應(yīng)用智能在線學(xué)習(xí)系統(tǒng)中,更大的發(fā)揮在線學(xué)習(xí)系統(tǒng)個性化推薦的作用,為學(xué)生提供更優(yōu)質(zhì)的服務(wù)。在教育領(lǐng)域,智能教學(xué)系統(tǒng)(Intellectual Tutoring System)利用人工智能和計算機技術(shù)來模擬現(xiàn)實教學(xué)過程,使得該系統(tǒng)具備了人力教學(xué)所不具備的高效率、高存儲、個性化等特點。個性化推薦系統(tǒng)設(shè)計畢業(yè)論文目錄1 研究目的 1 研究背景及意義 1 推薦系統(tǒng)現(xiàn)狀 2 論文內(nèi)容與章節(jié)安排 32 理論支持與相關(guān)技術(shù)的應(yīng)用與背景 4 相應(yīng)的推薦算法及數(shù)學(xué)原理 4 Weka的技術(shù)介紹與應(yīng)用 15 Weka系統(tǒng)簡介 15 Weka系統(tǒng)的特點與應(yīng)用 153 習(xí)題個性化推薦系統(tǒng)的設(shè)計原理 19 研究難題解決 19 基于記憶的過濾 20 基于用戶的協(xié)同過濾 20 基于內(nèi)容的協(xié)同過濾 22 基于規(guī)則的過濾 22 通過比例因子進行優(yōu)化 244 系統(tǒng)的實現(xiàn) 25 需求分析 25 概要設(shè)計 26 數(shù)據(jù)采集與預(yù)處理階段 26 數(shù)據(jù)處理階段 26 數(shù)據(jù)庫的設(shè)計 28 推薦系統(tǒng)的總體結(jié)構(gòu) 30 系統(tǒng)詳細設(shè)計 31 用戶信息管理模塊 31 用戶推薦模塊 34 用戶搜索模塊 36 系統(tǒng)的開發(fā)環(huán)境 365 總結(jié) 42參考文獻 44致謝辭 45附錄 46附錄1 英文原文 46附錄2 中文原文 54附錄3 部分代碼 591 研究目的智能在線學(xué)習(xí)系統(tǒng)[1]是個性化推薦的一種應(yīng)用,本文介紹的是基于OJ數(shù)據(jù)的習(xí)題個性化推薦系統(tǒng),本章簡要介紹個性化推薦的概念、背景與國內(nèi)外研究現(xiàn)狀,并且針對目前流行的推薦方法予以介紹。其廣闊的發(fā)展前景使得越來越多的專家開始投入到對ITS的研究中,希望可以憑借計算機對知識的有效處理,由計算機代替老師來提高學(xué)生學(xué)習(xí)效率,并最終實現(xiàn)人類對其自身認知過程的終極解碼。目前對于個性化推薦系統(tǒng)的研究正處于高速發(fā)展期,相關(guān)的推薦算法也已在電子商務(wù)領(lǐng)域、個性化搜索等領(lǐng)域得到一定程度的發(fā)展和應(yīng)用。由于教育領(lǐng)域內(nèi)知識本身具有很強的語義關(guān)系,軟件對用戶的輔導(dǎo)更多地是強調(diào)用戶在認知學(xué)習(xí)中對知識語義間聯(lián)系的掌握。對于介紹基于OJ數(shù)據(jù)的習(xí)題個性化推薦系統(tǒng)論文以下內(nèi)容安排如下:第二部分側(cè)重介紹本系統(tǒng)數(shù)據(jù)處理過程中依據(jù)的理論知識背景及技術(shù)應(yīng)用;第三部分講述了習(xí)題推薦系統(tǒng)實現(xiàn)過程中遇到的難題及整個系統(tǒng)的設(shè)計思路;第四部分描述系統(tǒng)實現(xiàn)的詳細步驟;第五部分總結(jié)了本系統(tǒng)設(shè)計與實現(xiàn)過程中的心得與體會。集體智慧 (Collective Intelligence) [7],大家在Web應(yīng)用中利用集體智慧構(gòu)建更加有趣的應(yīng)用或者得到更好的用戶體驗。這就是協(xié)同過濾的核心思想。用戶有很多方式向系統(tǒng)提供自己的偏好信息,而且不同的應(yīng)用也可能大不相同。但可以想象,不同行為的數(shù)據(jù)取值可能相差很大,比如,用戶的查看數(shù)據(jù)必然比購買數(shù)據(jù)大的多,如何將各個行為的數(shù)據(jù)統(tǒng)一在一個相同的取值范圍中,從而使得加權(quán)求和得到的總體喜好更加精確,就需要我們進行歸一化處理。在推薦的場景中,在用戶 物品偏好的二維矩陣中,我們可以將一個用戶對所有物品的偏好作為一個向量來計算用戶之間的相似度,或者將所有用戶對某個物品的偏好作為一個向量來計算物品之間的相似度。sx, sy是 x 和 y 的樣品標準偏差。但很明顯我們可以看出,這種方法對于孤立點的計算效果不好,因為要取固定個數(shù)的鄰居,當它附近沒有足夠多比較相似的點,就被迫取一些不太相似的點作為鄰居,這樣就影響了鄰居相似的程度,比如圖1中,點1和點5其實并不是很相似。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。Kmeans面對的第一個問題是如何保證收斂,前面的算法中強調(diào)結(jié)束條件就是收斂,可以證明的是Kmeans完全可以保證收斂性。假設(shè)當前J沒有達到最小值,那么首先可以固定每個類的質(zhì)心,調(diào)整每個樣例的所屬的類別來讓J函數(shù)減少,同樣,固定,調(diào)整每個類的質(zhì)心也可以使J減小。由于畸變函數(shù)J是非凸函數(shù),意味著我們不能保證取得的最小值是全局最小值,也就是說kmeans對質(zhì)心初始位置的選取比較感冒,但一般情況下kmeans達到的局部最優(yōu)已經(jīng)滿足需求。如果找到的y能夠使P(x,y)最大,那么我們找到的y就是樣例x的最佳類別了,x順手就聚類了。第二如何估計P(x,y),P(x,y)還可能依賴很多其他參數(shù),如何調(diào)整里面的參數(shù)讓P(x,y)最大。最開始可以隨便指定一個給它,然后為了讓P(x,y)最大(這里是要讓J最?。覀兦蟪鲈诮o定c情況下,J最小時的(前面提到的其他未知參數(shù)),然而此時發(fā)現(xiàn),可以有更好的(質(zhì)心與樣例距離最小的類別)指定給樣例,那么得到重新調(diào)整,上述過程就開始重復(fù)了,直到?jīng)]有更好的指定。③計算推薦。 CF 的基本原理(2)基于內(nèi)容的協(xié)同過濾基于內(nèi)容(物品)的CF的原理和基于用戶的CF類似,只是在計算鄰居時采用物品本身,而不是從用戶的角度,即基于用戶對物品的偏好找到相似的物品,然后根據(jù)用戶的歷史偏好,推薦相似的物品給他。其實際的意義為購買了一些物品的用戶更傾向于購買另一些物品。Apriori算法存在的問題是每次迭代都要判斷生成K元集合的K1元子集是否都是頻繁項目集,計算量巨大;并且Apriori算法是一個挖掘最大頻繁項目集的算法,無法得到全部頻繁模式集合。關(guān)聯(lián)規(guī)則挖掘中有兩個主要的概念,支持度和置信度。因此這兩個閾值也決定了推薦系統(tǒng)的準確率和召回率。并且存在熱門項目容易被過度推薦的問題。 WEKA系統(tǒng)的實現(xiàn)源自Eibe Frank等學(xué)者在機器學(xué)習(xí)方面的研究積累,1998年之前的WEKA版本是用C++來實現(xiàn)的,從1998年起,Eibe Frank開始用Java語言重新編寫該系統(tǒng),這一舉動還得到了項目組里其它成員以及若干自由軟件人的幫助。WEKA 數(shù)據(jù)挖掘平臺完整、實用、高水準地實現(xiàn)了許多流行的學(xué)習(xí)方案,這些方案能夠直接運用于一些實際的數(shù)據(jù)挖掘或研究領(lǐng)域。 下面簡單介紹數(shù)據(jù)挖掘流程的每個層次: (1)數(shù)據(jù)輸入層:是整個數(shù)據(jù)挖掘的準備階段,數(shù)據(jù)輸入方式有三種,分別為打開當?shù)匚募?,?shù)據(jù)庫導(dǎo)入。在該層,先對數(shù)據(jù)進行預(yù)處理,再將處理后的數(shù)據(jù)集置于學(xué)習(xí)方案中,進行相應(yīng)的挖掘任務(wù)。
數(shù)據(jù)挖掘系統(tǒng)3習(xí)題個性化推薦系統(tǒng)的設(shè)計原理在了解個性化推薦基本算法的基礎(chǔ)之上,本節(jié)主要將會講述在開發(fā)基于OJ數(shù)據(jù)的習(xí)題個性化推薦系統(tǒng)過程中解決的難題,除此以外將會具體介紹怎樣將基于記憶的協(xié)同過濾和基于規(guī)則的協(xié)同過濾兩種方法融合之后運用到本系統(tǒng)之中,真正的將用戶的歷史習(xí)題記錄利用率達到最大化,進而提高推薦習(xí)題對用戶的準確率?;谝粋€新用戶隸屬每個用戶群的概率和用戶群對推薦習(xí)題的概率,就可以預(yù)測新用戶對某習(xí)題的感興趣程度并進行推薦。利用用戶都有自己的歷史提交序列,具有下面性質(zhì)的序列:(1)該序列是一個鏈表,該鏈表的每個元素隱含(真正存儲不需要六個)有六個個成員變量:變量a題目號(對應(yīng)題目表中的id)、變量b題目得分(用于進行基于用戶的協(xié)同過濾)、變量c(對應(yīng)題目表中的關(guān)鍵詞屬性知識點,用于下面分析基于習(xí)題內(nèi)容的協(xié)同過濾)、變量d(權(quán)重信息,用于排序)、變量 e題目難度、f提交次數(shù).權(quán)重的計算:① 對題目得分和題目難度進行數(shù)據(jù)歸一化;②(e*t)/(b*f)(e表示題目難度,t表示答題時間,b表示題目得分Score,f表示提交次數(shù));② 權(quán)重決定了習(xí)題未來出現(xiàn)在推薦題目中的概率大小。(由于目前源數(shù)據(jù)中沒有將習(xí)題進行難度分類,所以該字段的初始化為3); t答題時間:限制為一個小時,分為三個時間段(10分鐘以內(nèi),30分鐘以內(nèi),60分鐘以內(nèi),分為1,2,3個階段)(源數(shù)據(jù)中沒有學(xué)生答題時間的記錄,初始化為2)。系統(tǒng)中Content類的初始化,在Content類中包包含了題號cId,標題title,題目內(nèi)容detail,歷史習(xí)題記錄scmList,關(guān)鍵字coreWord,基于內(nèi)容(習(xí)題)的協(xié)同過濾,簡單而言就是傳遞信息:我做了A題目,感覺掌握不牢固,還想做同一類型下的題目,weka得告訴我A題目的類型下的題目還有什么。通過比例因子對Contents Contents2進行加權(quán)得到在基于記憶的過濾下的候選題ContentA。習(xí)題個性化推薦利用運用關(guān)聯(lián)規(guī)則最廣的Apriori算法,構(gòu)建序列模式分析樹(得到候選題Contents3),利用學(xué)生成績表進行聚類分析;(得到候選題Contents4),通過比例因子得到基于規(guī)則的過濾下的候選題ContentB。:Web顯示層數(shù)據(jù)訪問層數(shù)據(jù)庫連接數(shù)據(jù)庫MySQLWeb 顯示層即為JSP頁面層,為用戶提供應(yīng)用程序的訪問,本論文中的系統(tǒng)以Web頁面的形式實現(xiàn)。為了能夠解決在海量題庫中為學(xué)生提供個性化資源推薦的問題,本系統(tǒng)將基于用戶的協(xié)同過濾、基于內(nèi)容的協(xié)同過濾和基于規(guī)則的過濾三種常用方法結(jié)合在一起。(由于目前源數(shù)據(jù)中沒有將習(xí)題進行難度分類,所以該字段的初始化為3); t答題時間:限制為一個小時,分為三個時間段(10分鐘以內(nèi),30分鐘以內(nèi),60分鐘以內(nèi),分為1,2,3個階段)(源數(shù)據(jù)中沒有學(xué)生答題時間的記錄,初始化為2);處理結(jié)果:初始化系統(tǒng)中的三個類,Student,Content,SCMap。未注冊的帳戶名激活狀態(tài)為否,當用戶第一次登陸時,系統(tǒng)會請求用戶注冊相關(guān)信息并將該用戶激活,注冊成功即可登陸系統(tǒng)使用相關(guān)功能(本系統(tǒng)中未初始化的用戶名不能注冊登錄使用)?!  』贠J數(shù)據(jù)的習(xí)題個性化推薦系統(tǒng)采用傳統(tǒng)的登陸注冊頁面,系統(tǒng)新用戶首次登陸系統(tǒng),后臺會進行認證(非系統(tǒng)內(nèi)記錄學(xué)生不能進行注冊登錄),參見下圖:當系統(tǒng)內(nèi)預(yù)設(shè)的用戶首次注冊激活賬號,此時用戶的賬號處于激活狀態(tài),后臺認證該用戶,并且
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1