午啪啪夜福利无码亚洲,亚洲欧美suv精品,欧洲尺码日本尺码专线美国,老狼影院成年女人大片

個(gè)人中心
個(gè)人中心
添加客服微信
客服
添加客服微信
添加客服微信
關(guān)注微信公眾號(hào)
公眾號(hào)
關(guān)注微信公眾號(hào)
關(guān)注微信公眾號(hào)
升級(jí)會(huì)員
升級(jí)會(huì)員
返回頂部
2018年通信業(yè)務(wù)公司軟件研究院Hadoop及其組件培訓(xùn)課件
2018年通信業(yè)務(wù)公司軟件研究院Hadoop及其組件培訓(xùn)課件.pdf
下載文檔 下載文檔
管理專題
上傳人:地** 編號(hào):1266425 2024-12-16 71頁(yè) 2.57MB

下載文檔到電腦,查找使用更方便

30 金幣

  

還剩頁(yè)未讀,繼續(xù)閱讀

1、H Hadoopadoop及其組件及其組件目 錄五一Hadoop簡(jiǎn)介二HDFS三HBase四YarnZookeeper六Hive Hadoop是Apache基金會(huì)的一個(gè)項(xiàng)目總稱,主要由HDFS、MapReduce和Hbase等組件 HDFS-Google GFS,MapReduce-Google MapReduce,Hbase-Google BigTable Hadoop來(lái)源于其創(chuàng)始人Doug Cutting的兒子給一頭黃色大象取的名字 Hadoop最初只與網(wǎng)頁(yè)索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺(tái)Hadoop分布式資源調(diào)度框架Hadoop 特點(diǎn) 擴(kuò)容能力強(qiáng) 成本低 高效率 可靠性 適合場(chǎng)2、景 大數(shù)據(jù)分析 離線分析 不適合場(chǎng)景 少量數(shù)據(jù) 復(fù)雜數(shù)據(jù) 在線分析目 錄五一Hadoop簡(jiǎn)介二HDFS三HBase四YarnZookeeper六HiveHDFS起源 發(fā)表于2003年10月 HDFS是GFS的克隆版源自于源自于GoogleGoogle的的GFSGFS論文論文 易于擴(kuò)展的分布式文件系統(tǒng) 運(yùn)行在大量普通廉價(jià)機(jī)器上,提供容錯(cuò)機(jī)制 為大量用戶提供性能不錯(cuò)的文件存取服務(wù)HDFSHDFS特點(diǎn)特點(diǎn)HDFS優(yōu)點(diǎn)TB級(jí)、PB級(jí)數(shù)據(jù)百萬(wàn)規(guī)模以上的文件數(shù)量10K+節(jié)點(diǎn)規(guī)模處理超大文件處理超大文件通過多副本提高可靠性提供了容錯(cuò)和恢復(fù)機(jī)制運(yùn)行于廉價(jià)機(jī)器上運(yùn)行于廉價(jià)機(jī)器上0102HDFS缺點(diǎn)比如毫秒級(jí)不適3、合低延遲訪問不適合低延遲訪問占用namenode大量?jī)?nèi)存尋道時(shí)間超過讀取時(shí)間不適合小文件存取不適合小文件存取一個(gè)文件只有一個(gè)寫入者不支持多用戶寫入不支持多用戶寫入010203設(shè)計(jì)思想file100GB128MB128MB128MB128MB128MBblock1:node1,node2,node3block2:node2,node3,node4block3:node4,node5,node6block4:node5,node6,node7Sever1 Sever2 Sever3 Sever4 Sever5 Sever6Sever7 block1block2block1block1block2b4、lock2block3block3block4block3block4block4block1block2 block3副本策略 Block副本放置策略 副本1:同client的節(jié)點(diǎn)上 副本2:不同機(jī)架上中的節(jié)點(diǎn) 副本3:與第二個(gè)副本同一機(jī)架的另一個(gè)節(jié)點(diǎn)上 其他副本:隨機(jī)挑選體系架構(gòu)HDFS-體系架構(gòu)HDFS Client HDFS Client DiskDiskDisk心跳,負(fù)載均衡,復(fù)制塊等寫文件到磁盤協(xié)助NN工作1.維護(hù)元數(shù)據(jù)信息2.維護(hù)HDFS的目錄3.響應(yīng)客戶端的請(qǐng)求寫文件到磁盤寫文件到磁盤元數(shù)據(jù)助理file100GB128MB128MB128MB128MB128MBHDFS-設(shè)計(jì)思5、想Client APIClient API元數(shù)據(jù)bk1bk1bk1bk2bknbk2bk2Rack-ARack-BBlock副本放置策略副本放置策略副本1:同client的節(jié)點(diǎn)上;副本2:不同機(jī)架上中的節(jié)點(diǎn);副本3:與第二個(gè)副本同一機(jī)架的另一個(gè)節(jié)點(diǎn)上;其他副本:隨機(jī)挑選;12345HDFS-NN管理機(jī)制(元數(shù)據(jù)如何保證高實(shí)時(shí)性)Client APIClient API元數(shù)據(jù)是如何管理的元數(shù)據(jù)是如何管理的1.大量的客戶請(qǐng)求訪問,要快速返回請(qǐng)求block 塊地址2.大量的客戶請(qǐng)求存儲(chǔ),要快速記錄新bk的地址。問題:怎么實(shí)現(xiàn)?1.用內(nèi)存:斷電丟失2.用磁盤:檢索寫入速度慢真實(shí)情況:1)使用內(nèi)存(如果6、斷電從fsimage+edits log 同步)2)磁盤小文件-edits log3)磁盤大文件-fsimage內(nèi)存meta.dataedits logfsimage集群2.NN向edits log 里記錄元數(shù)據(jù)客戶端請(qǐng)求向HSFS 上傳文件8.每當(dāng)edits log 寫滿或時(shí)間閾值到達(dá)時(shí),新的元數(shù)據(jù)信息刷新到fsimage里面HDFS-NN管理機(jī)制(edits log 與 fsimage 如何合并)合并合并:edits log 是日志 要和fsimage 合并要運(yùn)算,這樣如果在NN上合并負(fù)載太大,所以真實(shí)合并是在SN上合并進(jìn)行的meta.dataeditsfsimageedits.new內(nèi)存7、磁盤磁盤磁盤editsfsimage磁盤磁盤1.edits 寫滿時(shí)/時(shí)間閾值到達(dá)時(shí)NN通知SN進(jìn)行checkpoint操作2.SN通知NN停止向edits里寫操作4.SN下載NN的fsimage文件下載NN的edits文件fsimage.chkpoint磁盤5.合并fsimage 和edits6.SN上傳新的fsimage.chkpoint文件7.NN將fsimage.chkpoint重命名fsimage8.NN將edits.new重命名為edits 由以上可知道,SN并不是NN的備份,它只是NN的一個(gè)助理,協(xié)助NN工作(SN完成對(duì)fsimage和edits文件進(jìn)行合并,并推送給NN,防止因e8、dits文過大,導(dǎo)致NN重啟變慢等工作)。一個(gè)典型的HA集群,兩個(gè)單獨(dú)的機(jī)器配置為NameNode,在任何時(shí)候NmaeNode處于活動(dòng)狀態(tài),另一個(gè)出于待機(jī)狀態(tài),活動(dòng)的NameNode負(fù)責(zé)處理集群客戶端的操作,待機(jī)時(shí)僅僅作為一個(gè)Slave,保持足夠的狀態(tài),如果有必要提供一個(gè)快速的故障轉(zhuǎn)移。HDFS-NameNode HA(高可用)ZKZKZKFailoverControllerActiveFailoverControllerStandbyNNActiveNNStandbyDNDNDNDNHeartbeatHeartbeatShare NN State with single writer(fec9、nced)Block Reports to Active&Standby DN fencing:Update cmds from oneMonitor Health of NN.OS.HWMonitor Health of NN.OS.HWClient Side Mount TableName Service1/share/Name Service1/user/NN-1NN-2NN-3NN-4DN-1DN-2DN-3DN-4.DN-nStorage Pool 1Storage Pool 2FederationHAHAHDFS-HDFS Federation(聯(lián)邦集群)HDFS Federati10、on的一些獨(dú)特的優(yōu)勢(shì)的一些獨(dú)特的優(yōu)勢(shì)第一點(diǎn),命名空間的擴(kuò)展.因?yàn)殡S著集群使用增長(zhǎng),HDFS上存放的數(shù)據(jù)也將會(huì)越來(lái)越多.這個(gè)時(shí)候如果還是將所有的數(shù)據(jù)都往一個(gè)NN上存放,將會(huì)出現(xiàn)瓶頸.這時(shí)候可以進(jìn)行橫向擴(kuò)展,把一些大的目錄分離出去.使得每個(gè)NN下的數(shù)據(jù)更加的精簡(jiǎn).第二點(diǎn),性能的提升.當(dāng)NN所持有的數(shù)據(jù)量達(dá)到了一個(gè)非常大規(guī)模的量級(jí)的時(shí)候(比如超過10億個(gè)文件),這個(gè)時(shí)候NN的處理效率可能就會(huì)有影響,它可能比較容易的會(huì)陷入一個(gè)繁忙的狀態(tài).而整個(gè)集群將會(huì)受限于一個(gè)單點(diǎn)NN的處理效率,從而影響集群整體的吞吐量.這個(gè)時(shí)候多NN機(jī)制顯然可以減輕很多這部分的壓力.第三點(diǎn),資源的隔離.通過多個(gè)命名空間,可以將關(guān)鍵11、數(shù)據(jù)文件目錄移到不同的NN上,以此不讓這些關(guān)鍵數(shù)據(jù)的讀寫操作受到其他普通文件讀寫操作的影響.這些NN將會(huì)只處理特定的關(guān)鍵的任務(wù)所發(fā)來(lái)的請(qǐng)求,而屏蔽了其他普通任務(wù)的文件讀寫請(qǐng)求.文件系統(tǒng)命名空間映像文件及修改日志editsfsimageedits.neweditsFsimage.ckptfsimageeditsfsimageFaimage.ckptNamenodeSecondary Namenode生成新的edits將edits替換為新的edits.new將fsimage替換為fsimage.ckpt復(fù)制復(fù)制復(fù)制Fsimage合并edits中的操作HDFS節(jié)點(diǎn)目錄結(jié)構(gòu)元數(shù)據(jù)節(jié)點(diǎn)目錄結(jié)構(gòu)元數(shù)據(jù)節(jié)點(diǎn)12、目錄結(jié)構(gòu)從元數(shù)據(jù)節(jié)點(diǎn)目錄結(jié)構(gòu)從元數(shù)據(jù)節(jié)點(diǎn)目錄結(jié)構(gòu)數(shù)據(jù)節(jié)點(diǎn)目錄結(jié)構(gòu)數(shù)據(jù)節(jié)點(diǎn)目錄結(jié)構(gòu)namespaceID=1232737062storageID=DS-1640411682-127.0.1.1-50010-1254997319480cTime=0storageType=DATA_NODElayoutVersion=-18數(shù)據(jù)節(jié)點(diǎn)的VERSION文件格式如元數(shù)據(jù)節(jié)點(diǎn)的VERSION文件格式如namespaceID=1232737062cTime=0storageType=NAME_NODElayoutVersion=-18寫操作讀操作HDFS2.0特性NameNode HAZKZKZKFailov13、erControllerActiveFailoverControllerStandbyNNActiveNNStandbyDNDNDNDNHeartbeatHeartbeatShare NN State with single writer(fecnced)Block Reports to Active&Standby DN fencing:Update cmds from oneMonitor Health of NN.OS.HWMonitor Health of NN.OS.HWHDFS2.0特性HDFS FederationClient Side Mount TableName Servi14、ce1/xdataName Service1/hadoopNM-1NM-2NM-3NM-4DM-1DM-1DM-1DM-1DM-1DM-1Storage Pool 1Storage Pool 2FederationHAHA目 錄五一Hadoop簡(jiǎn)介二HDFS三HBase四YarnZookeeper六Hive HBase簡(jiǎn)介-HBase是什么HBase Hadoop Database,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。分布式的、多版本的、面向列的開源數(shù)據(jù)庫(kù)利用Hadoop MapReduce來(lái)處理HB15、ase中的海量數(shù)據(jù)利用ZooKeeper作為協(xié)同服務(wù)利用Hadoop HDFS作為其文件存儲(chǔ)系統(tǒng)可提供高可靠性、高性能、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)可以使用本地文件系統(tǒng),也可以使用HDFS HBase簡(jiǎn)介-HBase發(fā)展Google發(fā)表論文BigTableHBase成為Hadoop的子項(xiàng)目HBase成為Apache的頂級(jí)項(xiàng)目HBase-1.0發(fā)布最新穩(wěn)定版本為1.2.220062007200820152016 HBase簡(jiǎn)介-HBase特點(diǎn)支持海量數(shù)據(jù)實(shí)時(shí)檢索NoSQL(key-value型存儲(chǔ))集群、數(shù)據(jù)可擴(kuò)展,可支持按行的無(wú)限擴(kuò)展、百萬(wàn)級(jí)的按列擴(kuò)展嚴(yán)格的一致性讀寫按列族存儲(chǔ)(高壓縮比)按行鍵檢索高16、效高可靠:基于HDFS、WAL機(jī)制高可用:基于ZooKeeper HBase簡(jiǎn)介-HBase應(yīng)用場(chǎng)景并不是所有場(chǎng)景都適合HBase-與關(guān)系數(shù)據(jù)庫(kù)比,HBase接口比較簡(jiǎn)單、有限存儲(chǔ)大量的數(shù)據(jù)(100s TB級(jí)數(shù)據(jù))-數(shù)據(jù)量太小無(wú)法發(fā)揮出HBase的作用瞬間寫入量很大,數(shù)據(jù)庫(kù)不好支撐或需要很高成本支撐的場(chǎng)景數(shù)據(jù)需要長(zhǎng)久保存,且量會(huì)持久增長(zhǎng)到比較大的場(chǎng)景在大規(guī)模數(shù)據(jù)集中進(jìn)行很好性能的隨機(jī)訪問需要進(jìn)行數(shù)據(jù)擴(kuò)展,包括列的修改和增加業(yè)務(wù)場(chǎng)景比較簡(jiǎn)單,不需要復(fù)雜的關(guān)系數(shù)據(jù)庫(kù)特性,例如交叉列、交叉表,事務(wù),連接等等 HBase架構(gòu)與原理-與Hadoop的關(guān)系HBase 可以直接使用本地文件系統(tǒng),也可以構(gòu)建在17、 Hadoop之上,使用HDFS文件系統(tǒng),為了提高系統(tǒng)的可靠性和安全性,使用HDFS比較穩(wěn)妥。兩者都具有良好的容錯(cuò)性和擴(kuò)展性,都可以擴(kuò)展到成百上千個(gè)節(jié)點(diǎn);HDFS適合批處理場(chǎng)景不支持?jǐn)?shù)據(jù)隨機(jī)查找不適合增量數(shù)據(jù)處理不支持?jǐn)?shù)據(jù)更新 HBase架構(gòu)與原理 數(shù)據(jù)模型1.HBase是建立在已有文件系統(tǒng)上的數(shù)據(jù)庫(kù),但HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),另一個(gè)不同的是HBase基于列的而不是基于行的模式。2.Hbase的數(shù)據(jù)以表的形式存儲(chǔ),但與我們了解的關(guān)系數(shù)據(jù)庫(kù)表不同。大:一個(gè)表可以有數(shù)十億行,上百萬(wàn)列;無(wú)模式:每行都有一個(gè)可排序的主鍵和多個(gè)列,列可以根據(jù)需要?jiǎng)討B(tài)增加18、,同一張表中不同的行可以有不同的列;面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索;稀疏:空(null)列并不占用存儲(chǔ)空間,表可以設(shè)計(jì)的非常稀疏;多版本:每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本,默認(rèn)情況下版本號(hào)自動(dòng)分配,是單元格插入時(shí)的時(shí)間戳;數(shù)據(jù)類型單一:Hbase中的數(shù)據(jù)都是字符串,沒有類型。3.一張Hbase表由多行數(shù)據(jù)構(gòu)成 每一行由rowkey 作為唯一標(biāo)識(shí)符 任何類型的數(shù)據(jù)都可以作為rowkey:string,long 等4.每行包含多個(gè)列族(列簇),沒個(gè)列族包含多個(gè)列。5.Hbase可根據(jù)rowkey,列族和列定位到cell,數(shù)據(jù)被存放到cell 中。HBase架構(gòu)與原理-總體架構(gòu)19、總體架構(gòu) HDFS ZooKeeper HMaster HRegionServerHbase寫數(shù)據(jù)流程DFS ClientHDFSDataNodeClientZookeeper123HRegionServerHlogHRegionStoreStoreFileHFileStoreFileHFileMemStore45DataNodeDataNode1、Client訪問zookeeper2、從meta表獲取相應(yīng)region信息,然后找到meta表的數(shù)據(jù);3、Client向HRegionserver發(fā)送寫請(qǐng)求。4、HRegionserver將數(shù)據(jù)寫到Hlog(write ahead log),為了數(shù)20、據(jù)的持久化和恢復(fù)。5、HRegionserver將數(shù)據(jù)寫到內(nèi)存(memstore)6、反饋Client寫成功。Hbase讀數(shù)據(jù)流程1、Client先訪問Zookeeper,從meta表讀取region的位置,然后讀取meta表中的數(shù)據(jù)。2、根據(jù)namespace、表名和rowkey在meta表中找到對(duì)應(yīng)的region信息3、找到這個(gè)Rgion對(duì)應(yīng)的RegionServer4、查找對(duì)應(yīng)的Region5、先從MemStore找數(shù)據(jù),如果沒有,則66、再到StoreFile上讀(為了讀取的效率)。DFS ClientHDFSDataNodeClientZookeeper123HRegionServe21、rHlogHRegionStoreStoreFileHFileStoreFileHFileMemStore4DataNodeDataNode56 HBase架構(gòu)與原理-總體架構(gòu)HMaster 負(fù)責(zé)Table和Region的管理工作 管理用戶對(duì)表信息的增刪改查操作 管理HRegionServer的負(fù)載均衡,調(diào)整Region分布 HRegionServer宕機(jī)后,負(fù)責(zé)失效HRegionServer上Region遷移 HBase中可以啟動(dòng)多個(gè)HMaster,通過Zookeeper保證總有一個(gè)Master在運(yùn)行HRegionServer HBase中最核心的模塊 負(fù)責(zé)響應(yīng)用戶I/O請(qǐng)求、向HDFS讀寫22、數(shù)據(jù) 每個(gè)HRegion對(duì)應(yīng)Table中一個(gè)Region 管理HRegion Region定位 HBase架構(gòu)與原理-與關(guān)系數(shù)據(jù)庫(kù)對(duì)比Hbase就是這樣一個(gè)基于列模式的映射數(shù)據(jù)庫(kù),它只能表示很簡(jiǎn)單的Key-Value 映射關(guān)系,這大大簡(jiǎn)化了傳統(tǒng)數(shù)據(jù)庫(kù),與傳統(tǒng)書庫(kù)庫(kù)相比有以下特點(diǎn):數(shù)據(jù)存儲(chǔ)類型:Hbase 只有簡(jiǎn)單的字符串類型,所有的數(shù)據(jù)類型交由用戶處理,只保存成字符串,而關(guān)系數(shù)據(jù)庫(kù)有豐富的類型選擇和存儲(chǔ)方式。數(shù)據(jù)操作:Hbase 只支持簡(jiǎn)單的插入、查詢、刪除、清空等操作,表與表之間是分離的,沒有復(fù)雜的關(guān)系,而傳統(tǒng)數(shù)據(jù)庫(kù)有各種函數(shù)和連接操作。存儲(chǔ)模式:Hbase 基于列,每個(gè)列族都有幾個(gè)文件保存23、,不同列族的文件是分離的。傳統(tǒng)數(shù)據(jù)庫(kù)是基于表結(jié)構(gòu)和行模式的。數(shù)據(jù)維護(hù):Hbase 的數(shù)據(jù)更新只是增加了一個(gè)新的版本,舊版本仍會(huì)保留,而傳統(tǒng)數(shù)據(jù)庫(kù)是替換舊的數(shù)據(jù)。可伸縮性:Hbase 擴(kuò)展性強(qiáng),關(guān)系數(shù)據(jù)庫(kù)需要開發(fā)中間件形成并行數(shù)據(jù)庫(kù) 數(shù)據(jù)類型:Hbase 可以存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。目 錄五一Hadoop簡(jiǎn)介二HDFS三HBase四YarnZookeeper六Hive Yarn簡(jiǎn)介 Hadoop 2.0新增系統(tǒng) 負(fù)責(zé)集群的資源管理和調(diào)度 使得多種計(jì)算框架可以運(yùn)行在一個(gè)集群中YARNYARN是什么是什么 良好的擴(kuò)展性、高可用性 對(duì)多種類型的應(yīng)用程序進(jìn)行統(tǒng)一管理和調(diào)度 自帶了多種多用戶調(diào)度器,適24、合共享集群環(huán)境YARNYARN的特點(diǎn)的特點(diǎn) Yarn架構(gòu) ResouceManager調(diào)度器調(diào)度器 根據(jù)容量、隊(duì)列等限制條件,將系統(tǒng)中的資源分配給多個(gè)隊(duì)列和應(yīng)用 可插拔的組件,自帶三個(gè)資源調(diào)度器,F(xiàn)IFO、Capacity Scheduler、Fair Scheduler 純調(diào)度器,不再負(fù)責(zé)監(jiān)控、跟蹤應(yīng)用的執(zhí)行狀態(tài) 僅根據(jù)各個(gè)應(yīng)用的資源需求進(jìn)行調(diào)度,通過資源容器container完成應(yīng)用管理器應(yīng)用管理器 負(fù)責(zé)接收作業(yè) 協(xié)商獲取第一個(gè)容器用于執(zhí)行AM 提供重啟失敗的AM container的服務(wù) NodeManager每個(gè)節(jié)點(diǎn)上的框架代理負(fù)責(zé)單個(gè)節(jié)點(diǎn)的資源管理和監(jiān)控定期將資源使用情況匯報(bào)給Res25、ourceManager接收來(lái)自ApplicationMaster的命令以啟動(dòng)或回收Container ApplicationMaster負(fù)責(zé)管理單個(gè)應(yīng)用程序向ResourceManager申請(qǐng)資源啟動(dòng)內(nèi)部任務(wù)負(fù)責(zé)任務(wù)的運(yùn)行監(jiān)控和容錯(cuò)等 Yarn流程 Yarn流程1.申請(qǐng)一個(gè)job2.job相關(guān)的資源提交路徑和jobIDHDFS:/tmp/xx/xx/yarn-staging/jobID3.提交資源4.匯報(bào)提交結(jié)果5.將Job加入任務(wù)隊(duì)列Resource Manager任務(wù)隊(duì)列6.領(lǐng)取任務(wù)Node ManagercontainerMRAppmaster10.啟動(dòng)Map任務(wù)9.向RM注冊(cè)12.J26、ob完成后注銷自己8.啟動(dòng)APPmasterMapReduceProgramJobRun JobClient JVMClient nodeNode ManagercontainerMap TaskyarnChild7.分配運(yùn)行資源,包括從HDFS中獲取資源包7.分配運(yùn)行資源,包括從HDFS中獲取資源包Node ManagercontainerMap TaskyarnChild7.分配運(yùn)行資源,包括從HDFS中獲取資源包Node ManagercontainerReduce TaskyarnChild7.分配運(yùn)行資源,包括從HDFS中獲取資源包11.啟動(dòng)Reduce任務(wù)6.領(lǐng)取任務(wù)6.領(lǐng)取任務(wù)627、.領(lǐng)取任務(wù)目 錄五一Hadoop簡(jiǎn)介二HDFS三HBase四YarnZookeeper六Hive ZooKeeper簡(jiǎn)介|基本功能分布式應(yīng)用的協(xié)調(diào)服務(wù)實(shí)現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)解決分布式集群中應(yīng)用程序的一致性問題維護(hù)和監(jiān)控存儲(chǔ)數(shù)據(jù)狀態(tài)的變化ZooKeeper是Google Chubby的一個(gè)開源實(shí)現(xiàn),是開源Hadoop項(xiàng)目中的一個(gè)子項(xiàng)目 ZooKeeper簡(jiǎn)介|設(shè)計(jì)目標(biāo)ZooKeeper設(shè)計(jì)目標(biāo)簡(jiǎn)單化健壯性有序性速度快HDFS NameNode HAMapReduce JobTracker HAYARN ResouceManager HAHBase Hmaster ActiveHiveS28、erver2并發(fā) ZooKeeper簡(jiǎn)介|基本功能 ZooKeeper架構(gòu)與原理|總體架構(gòu)FollowerFollowerFollowerFollower負(fù)責(zé)進(jìn)行投票的發(fā)起和決議,更新系統(tǒng)狀態(tài)用于接受客戶端請(qǐng)求并向客戶端返回結(jié)果,在選主過程中參與投票請(qǐng)求發(fā)起方 ZooKeeper架構(gòu)與原理|數(shù)據(jù)模型層次化的目錄結(jié)構(gòu),命名符合常規(guī)文件系統(tǒng)規(guī)范每個(gè)節(jié)點(diǎn)稱為znode,并且有一個(gè)唯一的路徑標(biāo)識(shí)節(jié)點(diǎn)znode可以包含數(shù)據(jù)和子節(jié)點(diǎn)每個(gè)znode中存儲(chǔ)的是同步相關(guān)的數(shù)據(jù),例如狀態(tài)信息、配置內(nèi)容、位置信息等一個(gè)znode維護(hù)了一個(gè)狀態(tài)結(jié)構(gòu),該結(jié)構(gòu)包括:版本號(hào)、ACL變更、時(shí)間戳等。屬性屬性描述描述cZxid29、/mZxid節(jié)點(diǎn)被創(chuàng)建/修改的Zxid值ctime/mtime節(jié)點(diǎn)被創(chuàng)建/修改的時(shí)間cversion節(jié)點(diǎn)所擁有的子節(jié)點(diǎn)被修改的版本號(hào)dataVersion節(jié)點(diǎn)被修改的版本號(hào)aclVersion節(jié)點(diǎn)的ACL被修改的版本號(hào)ephemeralOwner節(jié)點(diǎn)擁有者的會(huì)話IDdataLength節(jié)點(diǎn)數(shù)據(jù)域的長(zhǎng)度numChildren節(jié)點(diǎn)擁有的子節(jié)點(diǎn)個(gè)數(shù) ZooKeeper架構(gòu)與原理|znode短暫的(ephemeral)短暫znode不可以有子節(jié)點(diǎn) 在客戶端會(huì)話結(jié)束時(shí),ZooKeeper會(huì)將該短暫znode刪除持久的(persistent)不依賴于客戶端會(huì)話 只有當(dāng)客戶端明確要?jiǎng)h除時(shí)才會(huì)被刪除Znode30、主要有兩種類型,在創(chuàng)建時(shí)確定,不能被修改 ZooKeeper架構(gòu)與原理|watches客戶端可以在一個(gè)znode上設(shè)置一個(gè)監(jiān)視器(watch),如果該znode數(shù)據(jù)發(fā)生變更,ZooKeeper會(huì)通知客戶端,從而觸發(fā)監(jiān)視器中實(shí)現(xiàn)的邏輯的執(zhí)行。觀察維護(hù)在服務(wù)器本地 數(shù)據(jù)觀測(cè) 子節(jié)點(diǎn)觀測(cè) watch事件異步發(fā)送給客戶端 一次性觸發(fā)器單次觸發(fā)異步發(fā)送本地維護(hù)兩類觀察 ZooKeeper架構(gòu)與原理|ACLZooKeeper使用ACL來(lái)對(duì)znode進(jìn)行訪問控制。ACL的實(shí)現(xiàn)和UNIX文件訪問權(quán)限非常相似:使用許可位來(lái)對(duì)一個(gè)節(jié)點(diǎn)的不同操作進(jìn)行允許或禁止的權(quán)限控制。ACLACL權(quán)限權(quán)限描述描述CREATE(創(chuàng)31、建)創(chuàng)建子節(jié)點(diǎn)READ(讀)從節(jié)點(diǎn)獲取數(shù)據(jù)或列出節(jié)點(diǎn)的所以子節(jié)點(diǎn)WRITE(寫)設(shè)置節(jié)點(diǎn)的數(shù)據(jù)DELETE(刪除)刪除子節(jié)點(diǎn)ADMIN(管理)可以設(shè)置權(quán)限注意:一條ACL僅針對(duì)于一個(gè)特定的節(jié)點(diǎn),且不能被子節(jié)點(diǎn)繼承,即父節(jié)點(diǎn)的ACL與子節(jié)點(diǎn)的ACL相互獨(dú)立JavaJava API API 支持的支持的權(quán)限權(quán)限描述描述ZOO_OPEN_ACL_UNSAFE任何應(yīng)用程序可以在節(jié)點(diǎn)上執(zhí)行任何操作ZOO_READ_ACL_UNSAFE應(yīng)用程序只有讀權(quán)限ZOO_CREATOR_ALL_ACL授予節(jié)點(diǎn)創(chuàng)建者所有權(quán)限 ZooKeeper架構(gòu)與原理|原子廣播恢復(fù)模式恢復(fù)模式 當(dāng)服務(wù)啟動(dòng)或者在領(lǐng)導(dǎo)者崩潰后,zab32、就進(jìn)入了恢復(fù)模式,當(dāng)領(lǐng)導(dǎo)者被選舉出來(lái),且大多數(shù)follower完成了和leader的狀態(tài)同步以后,恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和follower具有相同的系統(tǒng)狀態(tài)。廣播模式廣播模式 一旦leader已經(jīng)和多數(shù)follower進(jìn)行了狀態(tài)同步后,就開始廣播消息了,即進(jìn)入廣播模式。ZooKeeper服務(wù)一直維持廣播模式,直到leader崩潰,或者leader失去了大部分follower的支持 ZooKeeper的核心是原子廣播這個(gè)機(jī)制保障了各個(gè)Server之間的同步實(shí)現(xiàn)這個(gè)機(jī)制的協(xié)議叫做Zab協(xié)議,Zab協(xié)議的兩種模式如下:來(lái)自同一個(gè)client的更新請(qǐng)求按其發(fā)送順序依次執(zhí)行更新請(qǐng)求33、順序進(jìn)行更新請(qǐng)求順序進(jìn)行 一次數(shù)據(jù)更新要么成功,要么失敗數(shù)據(jù)更新原子性數(shù)據(jù)更新原子性 Client無(wú)論連接到哪個(gè)Server,數(shù)據(jù)視圖都是一致的全局唯一數(shù)據(jù)視圖全局唯一數(shù)據(jù)視圖 一個(gè)更新一旦成功,其結(jié)果就會(huì)持久存在并且不會(huì)被撤銷可靠性 在一定事件范圍內(nèi),client能讀到最新數(shù)據(jù)實(shí)時(shí)性實(shí)時(shí)性 ZooKeeper架構(gòu)與原理|一致性保證目錄五一Hadoop簡(jiǎn)介二HDFS三HBase四YarnZookeeper六Hive Hive簡(jiǎn)介-Hive由來(lái)Hive是一個(gè)開源的,建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架,提供類似SQL的HQL語(yǔ)言操作結(jié)構(gòu)化數(shù)據(jù),其基本原理是將HQL語(yǔ)言自動(dòng)轉(zhuǎn)換成MapReduce任34、務(wù),從而完成對(duì)Hadoop集群中存儲(chǔ)的海量數(shù)據(jù)進(jìn)行查詢和分析。FaceBook建立海量用戶點(diǎn)擊數(shù)據(jù)、日志數(shù)據(jù)倉(cāng)庫(kù)利用Hadoop高吞吐和批量處理海量數(shù)據(jù)的優(yōu)勢(shì)方便普通分析人員使用類SQL語(yǔ)句進(jìn)行數(shù)據(jù)分析和建模 Hive簡(jiǎn)介-Hive特點(diǎn)使用HDFS作為底層存儲(chǔ)使用MapReduce作為執(zhí)行層使用HQL作為查詢接口通過HQL語(yǔ)言非常容易的完成數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)。通過HQL完成海量結(jié)構(gòu)化數(shù)據(jù)分析。靈活的數(shù)據(jù)存儲(chǔ)格式,支持JSON,CSV,TEXTFILE,RCFILESEQUENCEFILE等存儲(chǔ)格式,并支持自定義 擴(kuò)展多種客戶端連接方式,支持JDBC、Thrfit等接口 Hive簡(jiǎn)介35、-優(yōu)缺點(diǎn)優(yōu)點(diǎn) 海量結(jié)構(gòu)化數(shù)據(jù)分析匯總 高可靠性,高容錯(cuò)性 將復(fù)雜的MapReduce編寫任務(wù)簡(jiǎn)化為SQL語(yǔ)句。大大提升了開發(fā)效率 靈活的數(shù)據(jù)存儲(chǔ)TextFile,RCFile,ORC,SequenceFile,CSV,Parquest,自定義格式 可擴(kuò)充UDF/UDAF/UDTF缺點(diǎn) 延遲較高,性能有提升空間 不支持事務(wù)類操作Hive架構(gòu)介紹編譯器將一個(gè)編譯器將一個(gè)Hive QL轉(zhuǎn)換為操作符構(gòu)成的圖轉(zhuǎn)換為操作符構(gòu)成的圖操作符是操作符是Hive最小的處理單元最小的處理單元每個(gè)操作符代表每個(gè)操作符代表HDFS的一個(gè)操作或者一道的一個(gè)操作或者一道MapReduce作業(yè)作業(yè)作業(yè)可以跑在幾種計(jì)算引擎上面36、作業(yè)可以跑在幾種計(jì)算引擎上面邏輯執(zhí)行計(jì)劃:一個(gè)邏輯執(zhí)行計(jì)劃:一個(gè)Operator圖圖物理執(zhí)行計(jì)劃:一個(gè)物理執(zhí)行計(jì)劃:一個(gè)Task圖圖邏輯計(jì)劃優(yōu)化:把邏輯執(zhí)行計(jì)劃切分成子圖邏輯計(jì)劃優(yōu)化:把邏輯執(zhí)行計(jì)劃切分成子圖物理計(jì)劃優(yōu)化:每個(gè)物理計(jì)劃優(yōu)化:每個(gè)Task結(jié)點(diǎn)內(nèi),是結(jié)點(diǎn)內(nèi),是Operator結(jié)點(diǎn)構(gòu)成的子圖結(jié)點(diǎn)構(gòu)成的子圖Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理DFS 深度優(yōu)先搜索算法Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理Select*from a join b on a.id=b.id;Hive實(shí)現(xiàn)原理實(shí)現(xiàn)原理小結(jié):小結(jié):編譯器將一個(gè)編譯器將一個(gè)Hive QL轉(zhuǎn)換為操作符構(gòu)成的圖轉(zhuǎn)換為操作符構(gòu)成的圖操作符是操作符是Hive最小的處理單元最小的處理單元每個(gè)操作符代表每個(gè)操作符代表HDFS的一個(gè)操作或者一道的一個(gè)操作或者一道MapReduce作業(yè)作業(yè)作業(yè)可以跑在幾種計(jì)算引擎上面作業(yè)可以跑在幾種計(jì)算引擎上面SQL Tree DAGTHANKS
會(huì)員尊享權(quán)益 會(huì)員尊享權(quán)益 會(huì)員尊享權(quán)益
500萬(wàn)份文檔
500萬(wàn)份文檔 免費(fèi)下載
10萬(wàn)資源包
10萬(wàn)資源包 一鍵下載
4萬(wàn)份資料
4萬(wàn)份資料 打包下載
24小時(shí)客服
24小時(shí)客服 會(huì)員專屬
開通 VIP
升級(jí)會(huì)員
  • 周熱門排行

  • 月熱門排行

  • 季熱門排行

  1. 建筑工程公司資料員取證培訓(xùn)課件(307頁(yè)).ppt
  2. 建筑公司安全物資供應(yīng)單位及個(gè)人防護(hù)用品管理制度.doc
  3. 2021房地產(chǎn)公司創(chuàng)新建筑立面設(shè)計(jì)研發(fā)手冊(cè)(50頁(yè)).pdf
  4. 縣新型智慧城市綜合管理服務(wù)平臺(tái)可行性及概算方案研究報(bào)告(815頁(yè)).docx
  5. 施工企業(yè)安全技術(shù)交底范本大全(361頁(yè)).pdf
  6. 西安·綠地中心B座幕墻工程超高層單元式幕墻施工組織設(shè)計(jì)方案(223頁(yè)).pdf
  7. 住宅新中式和法式立面標(biāo)準(zhǔn)化設(shè)計(jì)產(chǎn)品研發(fā)手冊(cè)(含出入口標(biāo)準(zhǔn)化)(273頁(yè)).pdf
  8. 杭州 ·長(zhǎng)嶺居別墅項(xiàng)目故事線策劃方案.pdf
  9. 建筑工程技術(shù)技術(shù)交底(718頁(yè)).doc
  10. 總承包企業(yè)建設(shè)項(xiàng)目代發(fā)工資管理制度.doc
  11. 施工工地觸電傷害現(xiàn)場(chǎng)應(yīng)急搶救預(yù)案.doc
  12. 綠城售樓處示范區(qū)中式風(fēng)格建筑設(shè)計(jì)研發(fā)手冊(cè)(380頁(yè)).pdf
  13. 創(chuàng)新性公寓標(biāo)準(zhǔn)化研發(fā)手冊(cè)(101頁(yè)).pdf
  14. 建筑施工企業(yè)資料員項(xiàng)目實(shí)操手冊(cè)(25頁(yè)).pdf
  15. 水利水電工程單元工程施工質(zhì)量驗(yàn)收評(píng)定表.doc
  16. 園林綠化工程公司檔案管理制度(25頁(yè)).doc
  17. 2018智造系房地產(chǎn)產(chǎn)品價(jià)值梳理故事線方案(46頁(yè)).pdf
  18. 秦皇島市北環(huán)路道路改造工程監(jiān)理大綱(346頁(yè)).PDF
  19. 江蘇會(huì)展中心幕墻施工組織設(shè)計(jì)方案,玻璃幕墻,鋁板幕墻(230頁(yè)).doc
  20. 幕墻施工組織設(shè)計(jì)方案(陶板、玻璃幕墻上海)(73頁(yè)).doc
  21. 2020東莞棠樾別墅故事線提報(bào)方案(33頁(yè)).pdf
  22. 思源房地產(chǎn)項(xiàng)目產(chǎn)品設(shè)計(jì)研發(fā)體系方案(96頁(yè)).pptx
  1. 城市主供水管及備用原水管工程管道安裝施工組織設(shè)計(jì)方案105頁(yè).doc
  2. 建筑工程公司資料員取證培訓(xùn)課件(307頁(yè)).ppt
  3. 水泥混凝土路面工程施工方案(17頁(yè)).doc
  4. 水泥混凝土路面工程專項(xiàng)施工方案(17頁(yè)).doc
  5. 2023年版建筑公司30套施工方案編制指南(1041頁(yè)).pdf
  6. 建筑公司安全物資供應(yīng)單位及個(gè)人防護(hù)用品管理制度.doc
  7. 生態(tài)治理工程土石方工程及噴播植草籽施工方案(91頁(yè)).doc
  8. 2025預(yù)算員最全造價(jià)筆記包.zip
  9. 山西長(zhǎng)治長(zhǎng)豐綜合(43萬(wàn)方)項(xiàng)目(住宅+酒店+商業(yè)+辦公)建筑方案設(shè)計(jì)(246頁(yè)).pdf
  10. 施工企業(yè)安全技術(shù)交底范本大全(361頁(yè)).pdf
  11. 2024年建筑公司機(jī)電安裝工程質(zhì)量創(chuàng)優(yōu)策劃方案(108頁(yè)).docx
  12. 商業(yè)街夜市市集U+夜市定位規(guī)劃方案(73頁(yè)).pptx
  13. 生態(tài)治理工程土石方、噴播植草(灌木)籽施工方案(89頁(yè)).doc
  14. 地下停車場(chǎng)環(huán)氧地坪漆施工方案(19頁(yè)).docx
  15. 2021房地產(chǎn)公司創(chuàng)新建筑立面設(shè)計(jì)研發(fā)手冊(cè)(50頁(yè)).pdf
  16. 學(xué)生宿舍室外市政道路工程雨水管道工程施工組織設(shè)計(jì)方案(19頁(yè)).doc
  17. 工程施工機(jī)械車輛設(shè)備租賃合同(12頁(yè)).docx
  18. 中建二局-201號(hào)辦公質(zhì)保樓項(xiàng)目檢驗(yàn)和試驗(yàn)計(jì)劃方案(45頁(yè)).doc
  19. 建筑工程造價(jià)失控的原因分析及控制(3頁(yè)).docx
  20. 住宅新中式和法式立面標(biāo)準(zhǔn)化設(shè)計(jì)產(chǎn)品研發(fā)手冊(cè)(含出入口標(biāo)準(zhǔn)化)(273頁(yè)).pdf
  21. 抹灰工程施工方案(水泥砂漿)(20頁(yè)).docx
  22. 杭州 ·長(zhǎng)嶺居別墅項(xiàng)目故事線策劃方案.pdf
  1. 風(fēng)機(jī)安裝工程施工質(zhì)量強(qiáng)制性條文執(zhí)行記錄表(40頁(yè)).doc
  2. 鐵路特大橋高墩施工專項(xiàng)安全施工方案(48頁(yè)).doc
  3. 服裝店鋪形象維護(hù)細(xì)則及獎(jiǎng)懲管理制度.doc
  4. 東方國(guó)際休閑廣場(chǎng)商業(yè)定位與招商提案(51頁(yè)).ppt
  5. 建筑[2009]257號(hào)關(guān)于建立建筑業(yè)企業(yè)農(nóng)民工工資保證金制度的通知【5頁(yè)】.doc
  6. 城市垃圾中轉(zhuǎn)站升級(jí)改造工程項(xiàng)目可行性研究報(bào)告129頁(yè).docx
  7. 湖州市南潯區(qū)石淙鎮(zhèn)國(guó)土空間總體規(guī)劃方案(2021-2035年)(草案公示稿)(39頁(yè)).pdf
  8. 河南省城市基礎(chǔ)設(shè)升級(jí)改造項(xiàng)目可行性研究報(bào)告(107頁(yè)).doc
  9. 城市220kV電力線路改造工程項(xiàng)目可行性研究報(bào)告94頁(yè).doc
  10. 800MW光伏40MWh儲(chǔ)能光伏示范項(xiàng)目可行性研究報(bào)告306頁(yè).pdf
  11. 2023珠海城市主干道道路升級(jí)改造工程項(xiàng)目可行性研究報(bào)告305頁(yè).pdf
  12. 2023城鎮(zhèn)老舊小區(qū)配套基礎(chǔ)設(shè)施建設(shè)項(xiàng)目可行性研究報(bào)告(163頁(yè)).pdf
  13. 城市主供水管及備用原水管工程管道安裝施工組織設(shè)計(jì)方案105頁(yè).doc
  14. 2022城市更新改造補(bǔ)短板老舊小區(qū)改造項(xiàng)目可行性研究報(bào)告(206頁(yè)).docx
  15. 2023年城鎮(zhèn)老舊小區(qū)改造及配套基礎(chǔ)設(shè)施建設(shè)項(xiàng)目可行性研究報(bào)告(84頁(yè)).pdf
  16. 2023生活區(qū)城鎮(zhèn)老舊小區(qū)改造項(xiàng)目可行性研究報(bào)告(附圖)(121頁(yè)).pdf
  17. 房產(chǎn)中介公司員工入職業(yè)務(wù)銷售技能培訓(xùn)資料合集.zip
  18. 縣城配電網(wǎng)110kV輸變電工程項(xiàng)目可行性研究報(bào)告266頁(yè).doc
  19. 水天苑小區(qū)地源熱泵空調(diào)系統(tǒng)設(shè)計(jì)方案(149頁(yè)).doc
  20. 2023城鎮(zhèn)老舊小區(qū)改造項(xiàng)目可行性研究報(bào)告(122頁(yè)).pdf
  21. 淮南礦業(yè)集團(tuán)棚戶區(qū)改造項(xiàng)目八公山新村、和平村室外變配電工程施工組織設(shè)計(jì)方案(92頁(yè)).doc
  22. 建筑工程公司資料員取證培訓(xùn)課件(307頁(yè)).ppt
主站蜘蛛池模板: 北碚区| 吉木乃县| 张家港市| 澄迈县| 九江县| 抚宁县| 右玉县| 怀化市| 晋宁县| 济源市| 黔东| 大田县| 尼玛县| 柏乡县| 赤壁市| 西宁市| 鄂伦春自治旗| 南靖县| 丹棱县| 浪卡子县| 乌拉特中旗| 临夏县| 来安县| 鹤山市| 府谷县| 裕民县| 枣强县| 黄浦区| 温州市| 新安县| 丘北县| 贵德县| 安新县| 海伦市| 温州市| 皋兰县| 黔西县| 瓦房店市| 虹口区| 年辖:市辖区| 盐津县|