京東數(shù)據(jù)平臺(tái)(京東第三方數(shù)據(jù)分析軟件排名)

對(duì)于京東大數(shù)據(jù)平臺(tái)來說,數(shù)據(jù)產(chǎn)品并不是一個(gè)新鮮事物,2011年自建數(shù)據(jù)倉庫上線的同時(shí),第一款數(shù)據(jù)產(chǎn)品調(diào)度平臺(tái)也一同上線并正式投入使用。 調(diào)度平臺(tái) 訂單交易,倉儲(chǔ)物流等眾多京東系統(tǒng)都會(huì)產(chǎn)生數(shù)據(jù),僅日志內(nèi)容每天的大小約為1TB,大量的數(shù)據(jù)如何統(tǒng)一匯總到數(shù)據(jù)倉庫來呢?這就需要調(diào)度產(chǎn)品來實(shí)現(xiàn)數(shù)據(jù)生產(chǎn)。京東調(diào)度平臺(tái)發(fā)展至今已經(jīng)是3.0版本,每一次的更新迭代都凝聚著京東大數(shù)據(jù)平臺(tái)開發(fā)工程師許許多多個(gè)日夜的心血,也是我們技術(shù)突破與功能升級(jí)的具體體現(xiàn)。
京東數(shù)據(jù)平臺(tái)(京東第三方數(shù)據(jù)分析軟件排名)

調(diào)度平臺(tái)1.0版本架構(gòu) 1.0版本于2011年8月上線,一臺(tái)服務(wù)器作為中心節(jié)點(diǎn)指揮調(diào)度,另外3臺(tái)服務(wù)器負(fù)責(zé)相關(guān)數(shù)據(jù)作業(yè),任務(wù)之間通過后置變量的方式設(shè)定前后依賴關(guān)系,調(diào)度機(jī)制便運(yùn)行起來了。數(shù)據(jù)倉庫建立之初的任務(wù)并不太多,數(shù)據(jù)量沒有太過龐大,數(shù)據(jù)ETL過程所需計(jì)算資源也都完全應(yīng)付得來。 但隨著倉庫收納數(shù)據(jù)的增加,數(shù)據(jù)生產(chǎn)任務(wù)越來越多,任務(wù)之間的依賴關(guān)系也變得越來越復(fù)雜。每個(gè)BI工程師需要根據(jù)自己的生產(chǎn)任務(wù)設(shè)定后置變量的值以建立任務(wù)依賴關(guān)系,任務(wù)多了之后不但設(shè)置起來耗時(shí)費(fèi)力且不易管理,當(dāng)一個(gè)人的任務(wù)需要重跑時(shí)后置變量的修改可能會(huì)影響到別人的任務(wù)。 2.0版本上線了新的調(diào)度引擎,徹底解決了這個(gè)問題。新任務(wù)上線只需要選擇依賴的父任務(wù)即可建立關(guān)系,且流程獨(dú)立,不會(huì)因同一個(gè)任務(wù)被多個(gè)依賴而造成干擾。除此之外,任務(wù)可視化配置與瀏覽功能也在這個(gè)版本上線,任務(wù)運(yùn)行狀態(tài)監(jiān)控預(yù)警功能也投入使用。 這之后的功能升級(jí)也一直在進(jìn)行,較大的功能改進(jìn)莫過于虛擬節(jié)點(diǎn)了。數(shù)據(jù)生產(chǎn)過程中,盡管幾率很低,但仍然還是會(huì)出現(xiàn)一些物理節(jié)點(diǎn)掛掉的情況,而這種情況一旦出現(xiàn),影響將會(huì)很嚴(yán)重。于是,虛擬節(jié)點(diǎn)的功能應(yīng)運(yùn)而生,原理就是在原來的物理機(jī)集群上做一層虛擬化,如果遇到生產(chǎn)節(jié)點(diǎn)故障的情況自動(dòng)切換到另一個(gè)節(jié)點(diǎn)。同時(shí),根據(jù)不同節(jié)點(diǎn)的負(fù)荷,將新的任務(wù)自動(dòng)分配到負(fù)荷較小的節(jié)點(diǎn),做到負(fù)載均衡。這一系列功能的上線使得平臺(tái)的穩(wěn)定性大大提高。 3.0版本從功能上更加豐富,并且實(shí)現(xiàn)了數(shù)據(jù)生產(chǎn)的半自動(dòng)化運(yùn)行機(jī)制。所謂的半自動(dòng)化是指數(shù)據(jù)任務(wù)可在配置目標(biāo)數(shù)據(jù)庫、表之后自動(dòng)生成ETL模板并完成數(shù)據(jù)清洗,之后是人工創(chuàng)建調(diào)度任務(wù)完成數(shù)據(jù)生產(chǎn)。另外,自主研發(fā)的抽數(shù)模塊Plumber也在這個(gè)版本中上線,Plumber技術(shù)實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)庫之間的快速數(shù)據(jù)交換,且具有較高的穩(wěn)定性,數(shù)據(jù)導(dǎo)入導(dǎo)出的維護(hù)成本也大大降低。還有服務(wù)器運(yùn)行狀態(tài)的監(jiān)控系統(tǒng)Phenix也集成到了調(diào)度監(jiān)控中,實(shí)時(shí)采集服務(wù)器運(yùn)行狀態(tài)數(shù)據(jù)并對(duì)服務(wù)器心跳、存儲(chǔ)空間使用、CPU資源消耗等進(jìn)行預(yù)警。 對(duì)于上游系統(tǒng)故障造成的歷史數(shù)據(jù)補(bǔ)充問題,之前的版本中需要人工查找相關(guān)依賴任務(wù),然后一個(gè)一個(gè)配置參數(shù)后點(diǎn)擊重跑,而在新的版本中BI工程師們期待已久的一鍵重跑功能上線了,并且支持批量操作。一千多個(gè)重跑任務(wù),BI工程師加班到半夜一個(gè)一個(gè)點(diǎn)鼠標(biāo)的日子永遠(yuǎn)成為了過去。 作為大數(shù)據(jù)平臺(tái)的核心系統(tǒng),調(diào)度平臺(tái)不僅承擔(dān)著數(shù)據(jù)生產(chǎn)的重要使命,同時(shí)也負(fù)責(zé)集市數(shù)據(jù)推送,模型數(shù)據(jù)加工等任務(wù),部門有超過三分之一的人都在圍著它轉(zhuǎn),重要性可想而知。今后的功能升級(jí)迭代將在增強(qiáng)生產(chǎn)能力的同時(shí)更加注重自動(dòng)化服務(wù)及開放運(yùn)營等平臺(tái)產(chǎn)品的特性,為大數(shù)據(jù)管理及挖掘大數(shù)據(jù)價(jià)值提供可靠保障。 在此我向大家推薦一個(gè)大數(shù)據(jù)開發(fā)交流圈:658558542 里面整理了一大份學(xué)習(xí)資料,全都是些干貨,包括大數(shù)據(jù)技術(shù)入門,大數(shù)據(jù)離線處理、數(shù)據(jù)實(shí)時(shí)處理、Hadoop 、Spark、Flink、推薦系統(tǒng)算法以及源碼解析等,送給每一位大數(shù)據(jù)小伙伴,讓自學(xué)更輕松。這里不止是小白聚集地,還有大牛在線解答!歡迎初學(xué)和進(jìn)階中的小伙伴一起進(jìn)群學(xué)習(xí)交流,共同進(jìn)步! 數(shù)據(jù)集成開發(fā)平臺(tái) 數(shù)據(jù)集成開發(fā)平臺(tái)是京東大數(shù)據(jù)發(fā)展的一個(gè)里程碑產(chǎn)品,它的出現(xiàn)結(jié)束了數(shù)據(jù)分析師和業(yè)務(wù)部門數(shù)據(jù)需求人員通過客戶端工具手工提取數(shù)據(jù)的痛苦經(jīng)歷,并對(duì)后來的數(shù)據(jù)知識(shí)管理平臺(tái)等產(chǎn)品的出現(xiàn)產(chǎn)生直接影響。當(dāng)前平臺(tái)用戶接近1000人,數(shù)據(jù)訂閱任務(wù)總量逾4萬個(gè)。
京東數(shù)據(jù)平臺(tái)(京東第三方數(shù)據(jù)分析軟件排名)

早期版本的數(shù)據(jù)集成開發(fā)平臺(tái)就是命名為提數(shù)工具,提數(shù)也是當(dāng)時(shí)寄予這款產(chǎn)品的最重要的期望。相信每一家公司對(duì)于數(shù)據(jù)的需求都是“剛需”,快速發(fā)展的京東,流動(dòng)并且快速流動(dòng)的數(shù)據(jù)更是像一個(gè)人身體里的血液一樣不可或缺。所以數(shù)據(jù)分析師總是最繁忙的,每到月初需要支持財(cái)務(wù)經(jīng)營分析的人員提取數(shù)據(jù)時(shí),還要拉上不少工程師共同參與這場(chǎng)提數(shù)大戰(zhàn)。在前后臺(tái)數(shù)據(jù)部合并后最瘋狂的日子里,數(shù)據(jù)部還曾出現(xiàn)過“全員提數(shù)”的場(chǎng)景。 在這樣的背景下,數(shù)據(jù)集成開發(fā)平臺(tái)的1.0版本誕生了。這是一款查詢數(shù)據(jù)并且支持周期性數(shù)據(jù)訂閱的產(chǎn)品,同時(shí)打通了京東私有云服務(wù)Jbox,可以供已授權(quán)人員安全、便捷的查詢和提取數(shù)據(jù),尤其對(duì)于需要定期提取大量數(shù)據(jù)做分析的人員(如財(cái)務(wù)經(jīng)營分析同事)有很大幫助。 功能上來講,通過Web端在線數(shù)據(jù)查詢和數(shù)據(jù)訂閱是兩大主要功能,同時(shí),SQL編寫界面還支持元數(shù)據(jù)信息的查看,并且可以在線保存編輯中的代碼,這給提數(shù)人員帶來很大便利。底層接入的數(shù)據(jù)庫包括當(dāng)時(shí)存在的SQLServer、MySQL和Hive,SQL語法上根據(jù)不同的數(shù)據(jù)庫類型選擇不同的語法即可,其它執(zhí)行邏輯都是一樣的。 在采用Extjs的前端頁面偶爾存在一些滾動(dòng)條失靈的小Bug,這給用戶體驗(yàn)上帶來一定影響。另外,雖然Extjs強(qiáng)大的表單功能成就了集成開發(fā)平臺(tái)這樣的富客戶端應(yīng)用,但是其UI風(fēng)格的局限性也是非常明顯的。隨著后期產(chǎn)品線的豐富,新推出的產(chǎn)品已經(jīng)棄用Extjs,轉(zhuǎn)而采用Bootstrap前端,從2014年7月份,采用新的前端技術(shù),數(shù)據(jù)集成開發(fā)平臺(tái)與后期推出的數(shù)據(jù)知識(shí)管理及數(shù)據(jù)質(zhì)量監(jiān)控產(chǎn)品融合后統(tǒng)一在一個(gè)系統(tǒng)上線。 數(shù)據(jù)知識(shí)管理平臺(tái) 數(shù)據(jù)知識(shí)管理平臺(tái)產(chǎn)品的出現(xiàn)是個(gè)水到渠成的結(jié)果,在數(shù)據(jù)倉庫模型規(guī)范確定之后,元數(shù)據(jù)信息也有了標(biāo)準(zhǔn)的分類體系。按照標(biāo)準(zhǔn)的分類體系將元數(shù)據(jù)信息分門別類管理起來,同時(shí)提供內(nèi)容搜索、類Wiki的編輯維護(hù)以及咨詢?cè)u(píng)論功能,數(shù)據(jù)知識(shí)管理平臺(tái)就呈現(xiàn)在大家面前了。后期版本升級(jí)過程中又提供了維度表的維護(hù)功能,給模型開發(fā)維護(hù)的同事帶來很大便利。 京東分析師 Apricot(杏子)、Blueberry(藍(lán)莓)、Cloudberry(云莓),水果連連看?不,這是報(bào)表展現(xiàn)平臺(tái)三個(gè)版本命名的代號(hào),也是產(chǎn)品域名的首段字符串,首字母分別是ABC也代表了產(chǎn)品演進(jìn)的過程。當(dāng)前版本代號(hào)為Cloudberry,產(chǎn)品正式名稱為京東分析師,毫無疑問,我們賦予這款產(chǎn)品的除了基本的數(shù)據(jù)可視化能力,還有數(shù)據(jù)分析的能力。 體驗(yàn)過Tableau的用戶都會(huì)被其靈活的控制臺(tái)和美妙絕倫的圖表展現(xiàn)所征服。我們所做的就是在Web系統(tǒng)中盡可能的實(shí)現(xiàn)Tableau桌面系統(tǒng)所能達(dá)到的效果,并且在產(chǎn)品服務(wù)能力上更加強(qiáng)調(diào)自助服務(wù)的智能軟件分析平臺(tái)。 技術(shù)架構(gòu)上,京東分析師前端自主開發(fā)可自定義的展現(xiàn)布局,封裝了豐富的圖表展現(xiàn)組件,后端報(bào)表配置系統(tǒng)支持MySQL、SQLServer、Oracle、API及Hive等作為數(shù)據(jù)源,并支持在線接入。交互方面,報(bào)表收藏、基于圖表的條件過濾、數(shù)據(jù)排序、深度鉆取是其基本功能,自定義報(bào)表頁面還提供郵件推送報(bào)表的功能,當(dāng)某個(gè)報(bào)表數(shù)據(jù)比較重要,系統(tǒng)可通過郵件的形式定期發(fā)送報(bào)表供查閱。對(duì)于自己權(quán)限范圍內(nèi)可瀏覽的表,系統(tǒng)還可根據(jù)瀏覽記錄將經(jīng)常查看的表排在靠前的位置以提升體驗(yàn)。 數(shù)據(jù)挖掘平臺(tái) 大數(shù)據(jù)的數(shù)據(jù)挖掘與傳統(tǒng)意義上的處理方法存在很大區(qū)別,京東數(shù)據(jù)挖掘平臺(tái)產(chǎn)品定位于構(gòu)建一站式的數(shù)據(jù)挖掘算法平臺(tái),在基礎(chǔ)的機(jī)器學(xué)習(xí)算法之上,可根據(jù)具體實(shí)際業(yè)務(wù)開發(fā)訂制算法,滿足算法應(yīng)用場(chǎng)景。這一產(chǎn)品主要利用分布式計(jì)算,采取適用于機(jī)器學(xué)習(xí)算法的計(jì)算模型進(jìn)行迭代,以解決大數(shù)據(jù)量的算法處理問題。平臺(tái)封裝的Cross Validation(交叉檢驗(yàn))、Grid Search(網(wǎng)格搜索)等基本數(shù)據(jù)挖掘流程給數(shù)據(jù)挖掘人員提供簡(jiǎn)單、易用的挖掘工具。
京東數(shù)據(jù)平臺(tái)(京東第三方數(shù)據(jù)分析軟件排名)

為減少數(shù)據(jù)實(shí)體化的開銷,挖掘平臺(tái)采用基于內(nèi)存的存儲(chǔ)引擎,集群資源調(diào)度與管理基于HadoopYarn框架,保證了集群計(jì)算性能的高可利用性和高可擴(kuò)展性。平臺(tái)自2014年年中正式推出后,已經(jīng)開始為廣告系統(tǒng)、推薦系統(tǒng)等提供個(gè)性化的數(shù)據(jù)挖掘算法服務(wù)。 數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái) 數(shù)據(jù)的及時(shí)性、準(zhǔn)確性和完整性關(guān)系到一系列數(shù)據(jù)應(yīng)用的效果,大數(shù)據(jù)平臺(tái)建設(shè)之初便已著手實(shí)施數(shù)據(jù)治理的相關(guān)工作,統(tǒng)一數(shù)據(jù)計(jì)算口徑,設(shè)置數(shù)據(jù)校驗(yàn)規(guī)則,以保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉庫升級(jí)之后,對(duì)于數(shù)據(jù)質(zhì)量的關(guān)注程度更高,于是便從產(chǎn)品層面進(jìn)行管理。從數(shù)據(jù)生產(chǎn)過程來看,數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)的基本功能包括數(shù)據(jù)生產(chǎn)過程中的質(zhì)量檢驗(yàn)、數(shù)據(jù)入庫后的質(zhì)量評(píng)估以及全部生產(chǎn)日志的掃描存檔并生成數(shù)據(jù)質(zhì)量分析報(bào)告。 數(shù)據(jù)生產(chǎn)過程中的質(zhì)量監(jiān)控主要對(duì)數(shù)據(jù)生產(chǎn)中源表結(jié)構(gòu)的變化、字段信息的一致性進(jìn)行規(guī)則校驗(yàn),并依據(jù)校驗(yàn)結(jié)果進(jìn)行質(zhì)量評(píng)估,對(duì)存在質(zhì)量問題的數(shù)據(jù)將進(jìn)行自動(dòng)重跑并通知后續(xù)依賴任務(wù)。入庫之后的數(shù)據(jù)將進(jìn)行具體到字段粒度的數(shù)據(jù)檢查,可以對(duì)枚舉值、字段類型,甚至數(shù)值型字段的最大最小值及均值等進(jìn)行規(guī)則校驗(yàn),以確定數(shù)據(jù)是否在合理的范圍內(nèi)變化。 感謝您的觀看,如有不足之處,歡迎批評(píng)指正。

聲明:本文由網(wǎng)站用戶香香發(fā)表,超夢(mèng)電商平臺(tái)僅提供信息存儲(chǔ)服務(wù),版權(quán)歸原作者所有。若發(fā)現(xiàn)本站文章存在版權(quán)問題,如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,請(qǐng)聯(lián)系我們刪除。

(0)
上一篇 2023年2月14日 15:20:19
下一篇 2023年2月14日 15:35:22

相關(guān)推薦

發(fā)表回復(fù)

您的電子郵箱地址不會(huì)被公開。 必填項(xiàng)已用*標(biāo)注

主站蜘蛛池模板: 国产精品毛多多水多| 岛国a香蕉片不卡在线观看| 亚洲成色在线综合网站| 精品一区二区久久久久久久网精 | 久久精品一区二区三区中文字幕| 欧美性高清在线视频| 亚洲精品成人网站在线观看| 皇上往下边塞玉器见客| 啊v在线免费观看| 色综合色天天久久婷婷基地| 国产壮汉男同志69可播放| 思99热精品久久只有精品| 国模一区二区三区| a级毛片免费播放| 性之道在线观看| 中文字幕伊人久久网| 日本中文在线视频| 久久天天躁夜夜躁狠狠躁2022| 最好看的免费观看视频| 亚洲一区二区三区国产精华液| 欧美另类老少配hd| 亚洲国产精品综合久久20| 欧美精品免费观看二区| 亚洲网站在线免费观看| 男人的天堂久久| 免费国产真实迷j在线观看| 精品亚洲A∨无码一区二区三区| 嘟嘟嘟www在线观看免费高清 | 欧洲精品免费一区二区三区| 亚洲国产天堂久久综合| 欧美性猛交xxxx乱大交蜜桃| 亚洲日韩AV一区二区三区四区| 毛片在线免费观看网站| 亚洲综合一区无码精品| 波多野结衣女教师6bd| 亚洲精品国产精品国自产网站| 浮力影院亚洲国产第一页| 亚洲精品视频区| 永久免费观看的毛片的网站| 亚洲精品乱码久久久久久蜜桃不卡 | 中文字幕在线观看一区二区三区|