freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于大數(shù)據(jù)技術(shù)的電子商務(wù)個性化推薦系統(tǒng)設(shè)計與實現(xiàn)-資料下載頁

2025-08-17 14:55本頁面

【導(dǎo)讀】本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。授權(quán)北京交通大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,提供閱覽服務(wù),并采用影印、縮印或掃描等復(fù)制手段保存、匯編以供查閱和借閱。同意學(xué)校向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤。向所有關(guān)心、支持、幫助過我的人表示最真誠的感謝!本論文的工作是在我的導(dǎo)師XXX老師的悉心指導(dǎo)下完成的。驗進展以及文章修改等環(huán)節(jié),XXX老師的言傳身教使我受益匪淺。同時,XXX老師科學(xué)的工作方法和嚴謹?shù)闹螌W(xué)態(tài)度給了我很大的影響和幫。謹向XXX老師致以深深的謝意!他們對我無微不至的關(guān)懷,是支持我完成學(xué)業(yè)的精神動力。備中,集成所有的用戶信息并且通過一定的挖掘技術(shù)能夠得出用戶的潛在需求。目前電子商務(wù)個性化推薦的精準度還有待提高,息和購買信息給用戶推薦相關(guān)產(chǎn)品。企業(yè)進行相關(guān)產(chǎn)品的推薦,同時還闡述了推薦系統(tǒng)的主要部分的實現(xiàn)。

  

【正文】 個產(chǎn)業(yè)實現(xiàn)盈 利的關(guān)鍵,在于高的數(shù)據(jù)的“加工能力”,數(shù)據(jù)的“增值”是通過“加工”來實現(xiàn)的。隨著物聯(lián)網(wǎng)的發(fā)展,依靠大數(shù)據(jù)的發(fā)展能夠從資源的方面很好的支撐物聯(lián)網(wǎng)??蓮暮A坑脩魯?shù)據(jù)中深度分析、挖掘出用戶的消費習(xí)慣和行為方式,從而實施精準營銷及網(wǎng)絡(luò)優(yōu)化,今兒掌控數(shù)據(jù)增值的關(guān)鍵。 雖然國內(nèi)的大數(shù)據(jù)還處于初級階段,但是其商業(yè)價值已經(jīng)顯現(xiàn)出來。第一,手中握有數(shù)據(jù)的公司擁有絕對優(yōu)勢,基于數(shù)據(jù)交場即可產(chǎn)生很好的效益;第二,很多商業(yè)模式會產(chǎn)生與數(shù)據(jù)挖掘,定位角度不同,或偏重分析數(shù)據(jù)。比如,幫企業(yè)做挖掘內(nèi)部數(shù)據(jù),或偏重優(yōu)化,幫助企業(yè)更精準的找 到目標用戶,降低營銷成本,從而提高企業(yè)銷售率,增加利潤。 以后很長的時間里,數(shù)據(jù)都可能成為最大的交品商品。但數(shù)據(jù)量大并不能稱作是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)種類多、數(shù)據(jù)量大、非標準化數(shù)據(jù)的價值最大化。所以,大數(shù)據(jù)的價值是通過 交叉復(fù)用 、 數(shù)據(jù)共享后獲得 最大的數(shù)據(jù)價值。 大數(shù)據(jù)在應(yīng)該像 是基礎(chǔ)設(shè)施一樣,存在數(shù)據(jù) 監(jiān)管者 、管理者 和提供方,交叉復(fù)用的應(yīng)用會 使大數(shù)據(jù)變成一個大產(chǎn)業(yè)。 大數(shù)據(jù)被社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)的興起帶入新階段。在對行為進行分析的 基礎(chǔ)上,互聯(lián)網(wǎng)營銷進入個性化時代。應(yīng)用大數(shù)據(jù),大公司向廣告商明確什么是正確的時間,正確的用戶是誰,應(yīng)該發(fā)表的正確內(nèi)容是什么等,這也迎合了廣告商的需求。社交網(wǎng)絡(luò)產(chǎn)生了大量用戶以及的數(shù)據(jù)和完整的數(shù)據(jù),它同時也記錄了用戶群體的情緒,用挖掘信息的方式來了解用戶 ,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是營銷公司。 Hadoop 概述 Hadoop[31]是一個分布式計算平臺,它基礎(chǔ)是一個分布式計算模型和一個文件系統(tǒng)。在簡單的理解邏輯上分布編程。 Hadoop 不需要昂貴的機器,這是其減少了很多成本。同時它很受歡迎, 因為它是有 Apache 基金支持的開源軟件。 Hadoop 的思想是基于 Google 發(fā)表的某篇論文,關(guān)于文件系統(tǒng)的文獻 [32]和以及關(guān)于分布式處理框架的文獻 [33]。 Hadoop 的最初版本是由 DougCutting 和 Mike Cafarella 在 2020 年實現(xiàn)的。在 2020 年 12 月的時候 Hadoop 已經(jīng)穩(wěn)定運行于二十個節(jié)點了。 2020 年 Yahoo!開始使用 Hadoop,在 2020 年的時候在九百個節(jié)點運行 1TB 的數(shù)據(jù)集,排序時間僅僅為 209 秒,是當時的世界記錄 [34]。目前 Hadoop北 京 交 通 大 學(xué) 專 業(yè) 碩 士 學(xué) 位 論 文 … 電 子 商 務(wù) 個 性 化 推 薦 理 論 介 紹 16 的應(yīng)用已 經(jīng)非常普遍。許多人都都使用 Hadoop 框架完成網(wǎng)站的后臺數(shù)據(jù)處理。 HDFS 分布式文件系統(tǒng) HDFS 可以在廉價的服務(wù)器上運行,有很強的伸縮性,可以提供分布式文件系統(tǒng)給客戶來訪問。 HDFS 的備份機制可以保證它有災(zāi)難冗余能力,它的其中一個設(shè)計原則就是:只要做好備份工作即便是一個集群中的服務(wù)器換掉也可以正常工作。 有以下幾個問題亟待解決: 對超大數(shù)據(jù)文件進行存儲,這里提到的超大數(shù)據(jù)文件指的是幾百 GB 甚至幾百 TB 大小的文件。 流式數(shù)據(jù)訪問,數(shù)據(jù)采用高效訪問模式:通常是一次寫入、多次讀取。 在普通廉價的硬件上運行的時候:把數(shù)據(jù)分布在大量廉價的機器上可以保證單個組建失效時整個系統(tǒng)仍然正常工作。 備份數(shù)據(jù):具有好的備份能力可以避免節(jié)點失效帶來的損失。 HDFS 通過 NameNode 來管理整個文件系統(tǒng),所以 NameNode 上面存儲了文件的元數(shù)據(jù),但是實際的文件數(shù)據(jù)是存儲倒 DataNode 上面的。有利于分布式文件維護和管理可以通過分離這種關(guān)聯(lián)方式。 NameNode 存儲的是目錄,文件分塊和文件分塊存儲位置的信息, NameNode 處理文件的打開、重命名、關(guān)閉以及目錄的操作。想要獲取文件信息或者寫文件,必須先和 NameNode 通信進行請求,而實際的工作則交由具體的 DataNode 和客戶端來完成。 由于元數(shù)據(jù)非常珍貴,元數(shù)據(jù)的保護工作尤為重要,幾種方式如下 [35]: 元數(shù)據(jù)備份。 Hadoop 的 Secondary Namenode。 Checkpoint Node 方案。 Facebook 的 AvatarNode 方案。 不同的 DataNode 存儲分塊的文件數(shù)據(jù)。一般將文件分為 64M 一塊,然后在不同的節(jié)點上存儲,同時每一快數(shù)據(jù)塊都有 幾個備份。也可以將特定的文件分成特定的數(shù)據(jù)塊大小和數(shù)量。對于備份數(shù)據(jù)塊存儲的位置要求有一塊靠近第一塊存儲的位置,而至少有一塊存儲在比較遠的位置(這個比較遠的位置指的就是不同的數(shù)據(jù)中心或者不同的機架),這樣數(shù)據(jù)不會因為同一機架數(shù)據(jù)中心的損壞而受到影響 整個文件系統(tǒng)的元數(shù)據(jù)通過 NameNode 存儲, DataNode 和 NameNode 會定期北 京 交 通 大 學(xué) 專 業(yè) 碩 士 學(xué) 位 論 文 … 電 子 商 務(wù) 個 性 化 推 薦 理 論 介 紹 17 通過心跳包來傳遞數(shù)據(jù)塊的信息,心跳包的另外一個作用是提示 NameNode 這個DataNode 可以運行的信息, NameNode 會計算出數(shù)據(jù)塊和備份應(yīng)該存儲的位置。NameNode 決定數(shù)據(jù)塊存儲的位置。 客戶端向 NameNode 請求創(chuàng)建新文件, NameNode 根據(jù)元數(shù)據(jù)的信息計算出文件的元數(shù)據(jù)信息,比如塊存放的位置,分塊大小等等。 NameNode 把這些信息回傳給客戶端,并使用租約機制通過心跳包告訴 DataNode 客戶端會來存儲數(shù)據(jù)??蛻舳耸盏叫畔⒑髮?shù)據(jù)分塊之后通過管道 pipeline 向 DataNode 傳輸數(shù)據(jù),數(shù)據(jù)一個節(jié)點接著一個節(jié)點的往下流,直到數(shù)據(jù)到達所有的備份節(jié)點??蛻舳藶闀? pipeline 所有流經(jīng)的數(shù)據(jù)節(jié)點保存一個確認隊列 (ack queue),確保所有的節(jié)點都已經(jīng) 收到數(shù)據(jù),如果有一個數(shù)據(jù)節(jié)點壞了就從 pipeline 中刪除。 NameNode 會被通知分配一個數(shù)據(jù)節(jié)點,直到足夠的備份節(jié)點被分配出去,于是數(shù)據(jù)就保存好了。其他數(shù)據(jù)塊也通過這樣的方式存儲文件直到所有的所有的數(shù)據(jù)塊都完成存儲。 一次寫入多次讀取是 HDFS 針對文件操作類型的一個重要的特點。數(shù)據(jù)是塊存儲的,客戶端首先訪問 NameNode,取得文件的元數(shù)據(jù),包括數(shù)據(jù)塊存儲的位置信息,然后選擇每一個塊的距離 client 最近的位置(這個最近的位置是通信速率而不是物理位置)。然后 client 直接訪問 DataNode,從 DataNode 中獲取數(shù)據(jù)。修改數(shù)據(jù)的開銷比較大, HDFS 針對的是少修改的文件。針對大數(shù)據(jù)文件的 HDFS寫入之后可以重復(fù)使用,一個文件的多個分塊是可以并行讀取的,分塊的基礎(chǔ)上。 MapReduce編程模型 MapReduce 編程模型是 Google 最引以為豪的三大云計算相關(guān)的核心技術(shù) (GFS, Big Table, MapReduce)之一,被設(shè)計用于并行運算處理海量數(shù)據(jù)集(大于1TB)。它的最初靈感來源于函數(shù)式編程語言中經(jīng)常用到的映射( Map)和規(guī)約(Reduce)函數(shù),它將復(fù)雜的并行算法處理過程抽象為一組概念簡單的接口,用來實現(xiàn)大規(guī)模海量信息處理的分部化、并行化,從而使得開發(fā)人員編寫程序不需要什么份豐富的編程經(jīng)驗。 MapReduce 編程模型可以應(yīng)用在集群之上,這些集群是由規(guī)模能靈活調(diào)整的普通 PC 所構(gòu)成的。上千個普通 PC 所組成的集群中可以運行典型的 MapReduce。MapReduce 編程模型的優(yōu)點在于:通過一組簡單卻的接口實現(xiàn)了大規(guī)模計算的分布化和并行自動化,通過這些接口,可以組建由普通 PC 構(gòu)成的高性能集群。 MapReduce 借助 Hadoop 平臺實現(xiàn)數(shù)據(jù)挖掘,通 過對輸入數(shù)據(jù)的分割來分別計算。輸入文件首先會被劃分為多個分塊,以便 Map 任務(wù)能夠用并發(fā)的方式進行,文件的劃分過程并不考慮輸入文件的內(nèi)部邏輯結(jié)構(gòu),具體的劃分模式可以讓使用 北 京 交 通 大 學(xué) 專 業(yè) 碩 士 學(xué) 位 論 文 … 電 子 商 務(wù) 個 性 化 推 薦 理 論 介 紹 18 者自行定義。當然也可以使用 Hadoop 已定義的集中簡單方式來劃分。 當單個 Map 任務(wù)開始時,分析輸入的文件,產(chǎn)生鍵值對,通過里面的繼承方法對鍵值對進行數(shù)據(jù)處理,將處理結(jié)果存入內(nèi)存緩沖區(qū)。內(nèi)存中的數(shù)據(jù)信息板塊組被劃分到 R 個區(qū)域,同時寫入本地磁盤的當中。送回本地磁盤數(shù)據(jù)數(shù)列的位置信息到管理機,這些位置信息將由管理機負責(zé)傳送到執(zhí)行 Reduce 任務(wù)的工作站。當把這些數(shù)據(jù)的位置信息告知給執(zhí)行 Reduce 任務(wù)的工作站,工作站通過遠程方式讀取來自于執(zhí)行 Map 任務(wù)工作站的本地緩存數(shù)據(jù)。當所有中間數(shù)據(jù)都被 Reduce工作站讀取后,工作站利用中間關(guān)鍵字把數(shù)據(jù)分組,擁有相同關(guān)鍵字的數(shù)據(jù)被分到同一組,并把這些數(shù)據(jù)按照排序進行歸類。 Reduce 工作站對每一個由唯一的中間關(guān)鍵字對應(yīng)的中間數(shù)據(jù)進行分組,它發(fā)送關(guān)鍵字和相對應(yīng)的中間值給用戶的Reduce 函數(shù), Reduce 函數(shù)的輸出結(jié)果將被添加到最后的文件中 [36]。 我們可以把 MapReduce 理解為,把一堆雜亂無章的數(shù) 據(jù)按照某種特征歸納起來,然后處理并得到最后的結(jié)果。 Map 面對的是互不相關(guān)而且雜亂無章的的數(shù)據(jù),它解析每個數(shù)據(jù),從中提取出 key 和 value,也就是提取了數(shù)據(jù)的特征。經(jīng)過MapReduce 的 Shuffle 階段之后,在 Reduce 階段看到的都是已經(jīng)被歸納過的數(shù)據(jù)了,我們可以基于以上做法作進一步的處理。 MapReduce 的主要思想是使用整塊分割為局部,然后處理局部信息,最后整合處理后的數(shù)據(jù),形成統(tǒng)一的數(shù)據(jù)集。因為 MapReduce 擁有分割再進行整合的特點,所以本文在后面的算法優(yōu)化中提出了基于 MapReduce 的分割算法,挖掘每塊數(shù)據(jù)集,然后再將其進行合并,最后數(shù)據(jù)庫將會得到合并后的相集。 北 京 交 通 大 學(xué) 專 業(yè) 碩 士 學(xué) 位 論 文 參 考 文 獻 19 3 基于大數(shù)據(jù)技術(shù)的電子商務(wù)個性化推薦系統(tǒng)可行性分析 當前大數(shù)據(jù)技術(shù)已經(jīng)在很多行業(yè)中進行了廣泛而深入的應(yīng)用,包括通信行業(yè)、智慧醫(yī)療、商業(yè)運營、城市交通、汽車產(chǎn)業(yè)、倉儲問題等等。大數(shù)據(jù)技術(shù)已經(jīng)為這些行業(yè)帶來極大利潤,而且方便了人們的日常生活。大數(shù)據(jù)所依賴的 Hadoop、Hbase 等技術(shù)隨著各家 IT 企業(yè)不斷的使用,已經(jīng)得到了極大的發(fā)展。大數(shù)據(jù)相關(guān)社區(qū)日益成熟,各種數(shù)據(jù)中心不 斷建立,降低了大數(shù)據(jù)技術(shù)的技術(shù)門檻。隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)已經(jīng)擁有了成熟的生態(tài)圈,形成了包括數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)挖掘、工作流處理、系統(tǒng)部署配置監(jiān)控等配套系統(tǒng)及解決方案。 為了更好地發(fā)展電子商務(wù)的線上盈利,各大電子商務(wù)在個性化推薦上投入了大量的人力與資金。但是由于推薦本身不確定性較大,個性化推薦產(chǎn)生的經(jīng)濟社會效益沒有預(yù)想中的大?;诖髷?shù)據(jù)技術(shù),綜合設(shè)計研發(fā)一套電子商務(wù)個性化推薦系統(tǒng),將增加電子商務(wù)推薦的準確率以及用戶粘性,增加電子商務(wù)企業(yè)的利潤。 經(jīng)過多年的電子商務(wù)的飛速發(fā)展,電子商務(wù)網(wǎng)站已經(jīng)積 累了大量的用戶數(shù)據(jù)。從這些用戶歷史購買數(shù)據(jù)以及瀏覽行為等,可以對用戶進行更加深入的個性化推薦。促進用戶的消費,滿足用戶的需求,提升電子商務(wù)網(wǎng)站的營收率。 綜上所述,基于大數(shù)據(jù)技術(shù)的電子商務(wù)個性化推薦系統(tǒng)具有較高的可行性。 北 京 交 通 大 學(xué) 專 業(yè) 碩 士 學(xué) 位 論 文 參 考 文 獻 20 4 基于大數(shù)據(jù)技術(shù)的電子商務(wù)個性化推薦架構(gòu) 推薦系統(tǒng)的具體設(shè)計依賴于其具體的使用場景,比如亞馬遜主要完成電子商務(wù)方向的推薦,豆瓣完成社交關(guān)系、文藝生活相關(guān)推薦, Digg 完成新聞應(yīng)用相關(guān)推薦。本文主要針對基于電子商務(wù)網(wǎng)站的應(yīng)用場景來設(shè)計出一個基于大數(shù)據(jù)技術(shù)的電子商務(wù) 個性化推薦系統(tǒng)。對于一 個標準的電子商務(wù)網(wǎng)站系統(tǒng),其系統(tǒng)架構(gòu)圖如圖 41 所示。 圖 41 電子商務(wù)網(wǎng)站系統(tǒng)架構(gòu)圖 Emerce site system architecture diagram 如上圖 41 所示,對于一般購物網(wǎng)站來講,主要分為 web 前端模塊,業(yè)務(wù)處理模塊、前端數(shù)據(jù)庫模塊、日志處理模塊、推薦系統(tǒng)模塊、核心業(yè)務(wù)模塊。 web前端模塊負責(zé)界面展示以及與用戶的 UI 交互;核心處理業(yè)務(wù)一般封裝成服務(wù),核心數(shù)據(jù)庫的訪問只對核心業(yè)務(wù)模塊開放;中間的日志等模塊負責(zé)簡單界面展示相關(guān)處理。推薦系統(tǒng)相對于后臺業(yè)務(wù)并不是非常的核心,但對于整個電子商務(wù)網(wǎng)站來說非常重要。隨著個性化推薦技術(shù)的不斷發(fā)展,電子商務(wù)水平的不斷提高,推薦系統(tǒng)也已經(jīng)成了整個系統(tǒng)的一項基本服務(wù)。當前的推薦系統(tǒng)已經(jīng)不是簡簡單單的一個后臺邏輯或者是一個函數(shù)調(diào)用可以完成的。廣義上說,推薦系統(tǒng)屬于數(shù)據(jù)挖掘和機器學(xué)習(xí)范疇,推薦系統(tǒng)的服務(wù)也更依賴與科學(xué)的推薦算法以及大量的學(xué)習(xí)數(shù)據(jù)。 本章節(jié)從電子商務(wù)個性化推薦需求出發(fā),詳細分析具 體的功能需求,深入研究當前個性化推薦系統(tǒng)的系統(tǒng)架構(gòu),提出基于大數(shù)據(jù)技術(shù)的電子商務(wù)個性化推薦架構(gòu)。該架構(gòu)依賴電子商務(wù)積累的大量數(shù)據(jù)源頭, 根據(jù)用戶的所有數(shù)據(jù)信息,對北 京 交 通 大 學(xué) 專 業(yè) 碩 士 學(xué) 位 論 文 參 考 文 獻 21 原有的電子商務(wù)個性化推薦結(jié)構(gòu)進行改進,重新設(shè)計了基于 hadoop 的電子商務(wù)個性化推薦架構(gòu),并給了新的推薦結(jié)構(gòu)中的核心模塊,同時根據(jù) MapReduce 的算法特點,使用關(guān)聯(lián)規(guī)則的推薦
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1