當(dāng)前位置首頁 > 計算機 > 并行計算/云計算
搜柄,搜必應(yīng)! 快速導(dǎo)航 | 使用教程

暨南大學(xué)并行計算實驗室MapReduce研究現(xiàn)狀

文檔格式:PPT| 18 頁|大小 256KB|積分 9.9|2024-10-23 發(fā)布|文檔ID:248368784
第1頁
第2頁
第3頁
下載文檔到電腦,查找使用更方便 還剩頁未讀,繼續(xù)閱讀>>
1 / 18
此文檔下載收益歸作者所有 下載文檔
  • 版權(quán)提示
  • 文本預(yù)覽
  • 常見問題
  • Click to edit the title text format,Click to edit the outline text format,Second Outline Level,Third Outline Level,Fourth Outline Level,Fifth Outline Level,Sixth Outline Level,Seventh Outline Level,Eighth Outline Level,Ninth Outline Level,*,Click to edit the title text format,Click to edit the outline text format,Second Outline Level,Third Outline Level,Fourth Outline Level,Fifth Outline Level,Sixth Outline Level,Seventh Outline Level,Eighth Outline Level,Ninth Outline Level,暨南大學(xué)并行計算實驗室,MapReduce,研究現(xiàn)狀,專 業(yè):計算機軟件與理論,姓 名:周敏 丁光華,指導(dǎo)教師:周繼鵬 教授,摘要,MapReduce,研究,調(diào)試、監(jiān)控等,優(yōu)化、擴展等,常用,API,Hadoop,改造,數(shù)據(jù)挖掘項目,Redpoll,Canopy,k-means,Naive bayes,SVM,調(diào)試,標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)出錯,Web,顯示,(50030,50060,50070),NameNode,JobTracker,DataNode,TaskTracker,日志,本地重現(xiàn),:Local Runner,DistributedCache,中放入調(diào)試代碼,Profiling,目的:查性能瓶頸,內(nèi)存泄漏,線程死鎖等,工具:,jmap,jstat,hprof,jconsole,jprofiler mat,jstack,對,JobTracker,的,Profile,對各,slave,節(jié)點,TaskTracker,的,Profile,對各,slave,節(jié)點某,Child,進(jìn)程的,Profile(,可能存在單點執(zhí)行速度過慢,),監(jiān)控,目的:監(jiān)控集群或單個節(jié)點,I/O,內(nèi)存及,CPU,工具:,Ganglia,調(diào)優(yōu)點,(1),I/O,Shuffle,調(diào)優(yōu)點,(2),數(shù)據(jù)壓縮,推測,性執(zhí)行,(,同時執(zhí)行同一,Task,殺死運行慢的,),同一節(jié)點的,Child,重用,jvm,重寫,Partitioner,使分布到各,Reducer,的數(shù)據(jù)均勻,設(shè)置堆空間大小,常用,API,Mapper,Reducer,Writable,ComparableWritable,InputFormat,OutputFormat,Partitioner,Comparator,DistributedCache,Streaming(bash/python),Hadoop,改造,JobTracker,與作業(yè)調(diào)度耦合性太強,JobHistory,應(yīng)獨立為一個,jvm,進(jìn)程,邏輯不應(yīng)與,JobTracker,耦合太強,在,HDFS,之上整合,MPI,統(tǒng)一作業(yè)調(diào)度,Shuffle,過程只需一次,I/O,單塊磁盤失效導(dǎo)致整個節(jié)點失效問題,(,改,DFSClient),Hadoop,改造,文件系統(tǒng)兼容,posix,使,Map,的,key,輸出不排序,只分區(qū),NameNode,單點故障問題,RPC,支持大數(shù)據(jù),(,如文件,),傳輸,集群資源分配,權(quán)限管理,大規(guī)模數(shù)據(jù)挖掘,:Redpoll,文本數(shù)據(jù)挖掘,分布式分詞,分布式向量空間模型,距離度量,語料,搜狗新聞,20 news group,wikipedia,前提:,假定一個屬性值對分類的影響?yīng)毩⒂谄渌麑傩缘闹怠?/p>

    類條件獨立),樸素貝葉斯分類工作過程,每個數(shù)據(jù)樣本用一個,n,維特征向量 表示,分別描述對,n,個屬性 樣本的,n,個度量,假設(shè)有,m,個類 給定一個未知的數(shù)據(jù)樣本,X,,分類法將預(yù)測具有最高后驗概率(條件,X,下)的類即是找最大化的 根據(jù)貝葉斯定理有,樸素貝葉斯分類,P(X),對所有類為常數(shù),最大化 ,對 的考慮分析:等概率,或,類條件獨立的樸素假定:,,(,k=1,,,2,,,n,)可以由訓(xùn)練樣本估值,是分類屬性,則根據(jù)樣本估值,是連續(xù)值屬性,則通常假定其服從高斯分布,因而,樸素貝葉斯分類,(,續(xù),),Canopy,大容量,高維數(shù)據(jù)集聚類,使用兩步聚類,不同的距離度量,節(jié)省計算時間,適用范圍較廣,K-means,EM,GAC,大規(guī)模支持向量機,解的稀疏性及問題的凸性,將大規(guī)模的原問題分解成小規(guī)模的子問題,迭代求解子問題,直到收斂至原問題的解,.,選塊算法,分解算法,序列最小最優(yōu)化法,(sequential minimal optimization,SMO),并行實現(xiàn),Thinking in MapReduce,B,A,D,A,A,C,B,C,B,C,D,Group,Co-group,Function,Stream Flow,Filter,Filter,Aggregate,謝謝,!,。

    點擊閱讀更多內(nèi)容
    最新文檔
    傳統(tǒng)文化道德不是高懸的明月而是腳下的星光.pptx
    世界無煙日關(guān)注青少年成長健康無煙為成長護(hù)航.pptx
    五四青年節(jié)詩詞贊歌五四青年自強不息.pptx
    XX學(xué)校班主任培訓(xùn)用心管理慧做班主任.pptx
    拒絕熬夜健康養(yǎng)生規(guī)律作息遠(yuǎn)離亞健康.pptx
    兒童成長手冊時光里的童真印記.pptx
    幼兒園夏季傳染病預(yù)防指南預(yù)見夏天健康童行夏季傳染病預(yù)防科普.pptx
    高中生心理健康教育主題班會快樂學(xué)習(xí)高效學(xué)習(xí)正視壓力學(xué)會減壓.pptx
    員工職業(yè)道德與職業(yè)素養(yǎng)培訓(xùn)遵守職業(yè)道德提高職業(yè)修養(yǎng).pptx
    2025職業(yè)病防治法宣傳周健康守護(hù)職防同行.pptx
    XX幼兒園防災(zāi)減災(zāi)安全教育臨災(zāi)不亂安全童行學(xué)會保護(hù)自己.pptx
    在2025年縣教育工作大會暨高考備考工作推進(jìn)會上的講話發(fā)言材料.docx
    在2025年縣全面從嚴(yán)治黨和黨風(fēng)廉政會議上的講話發(fā)言材料.docx
    在2025年全市慶祝“五一”暨勞動模范表彰大會上的講話發(fā)言材料多篇.docx
    2025年稅務(wù)局青年代表在五四青年座談會上的發(fā)言材料3篇.docx
    在2025年市委全體會議上的主持講話發(fā)言材料.docx
    2025年黨風(fēng)廉政建設(shè)工作要點材料.docx
    在2025年全市青年干部慶祝五四青年節(jié)大會上的講話發(fā)言材料多篇.docx
    在入黨積極分子培訓(xùn)班上的講話發(fā)言材料.docx
    縣文旅局黨組書記在五一假期及夏季旅游安全生產(chǎn)工作部署會議上的講話發(fā)言材料.docx
    賣家[上傳人]:huozhebian
    資質(zhì):實名認(rèn)證