大數(shù)據(jù)教學項目案例
涵蓋運營商、農(nóng)業(yè)、電商、輿情、體育、交通、航空、銀行、互聯(lián)網(wǎng)等行業(yè)
大數(shù)據(jù)行業(yè)應用—運營商服務平臺
項目描述:隨著通信行業(yè)的普及以及人們對網(wǎng)絡的需求越來越大,因此運營商的在線服務需求劇增。對于客戶體驗來說,電子渠道提供了一個足不出戶辦理業(yè)務的便捷方式,對于運營商來說,電子渠道低成本分流了實體渠道的業(yè)務壓力中釋放出來。
項目解決方案:本系統(tǒng)架構采用模塊化設計,分為數(shù)據(jù)預處理、數(shù)據(jù)存儲模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)ETL模塊、結果展現(xiàn)模塊。可多維度統(tǒng)計數(shù)據(jù)、投訴風險預測、區(qū)域服務效能監(jiān)控、實時展現(xiàn)故障區(qū)域位置及故障信息等。
大數(shù)據(jù)行業(yè)應用—農(nóng)業(yè)大數(shù)據(jù)分析
項目描述:為了不斷推進農(nóng)業(yè)經(jīng)濟的優(yōu)化,實現(xiàn)可持續(xù)的產(chǎn)業(yè)發(fā)展和區(qū)域產(chǎn)業(yè)結構優(yōu)化,進一步推動智慧農(nóng)業(yè)的建設進程,需要全面及時掌握農(nóng)業(yè)的發(fā)展動態(tài),這需要依托農(nóng)業(yè)大數(shù)據(jù)及相關大數(shù)據(jù)分析處理技術,建設一個農(nóng)業(yè)大數(shù)據(jù)分析應用平臺來支撐。
項目解決方案:本系統(tǒng)架構采用模塊化設計,分為數(shù)據(jù)爬取模塊、數(shù)據(jù)存儲模塊、數(shù)據(jù)預處理模塊、數(shù)據(jù)計算模塊、數(shù)據(jù)可視化展現(xiàn)模塊??蓪崿F(xiàn)區(qū)域行情、品種對比、價格預測、價格走勢等功能。
項目案例及指導手冊
項目源代碼及代碼注釋
項目案例數(shù)據(jù)
系統(tǒng)安裝部署文檔
大數(shù)據(jù)行業(yè)應用—情感分析
項目描述:互聯(lián)網(wǎng)時代輿論觀點都散布在各種社交網(wǎng)絡平臺或新聞提要中。對于這種網(wǎng)上海量分布的數(shù)據(jù),可以挖掘各種重要信息,可以了解當前的輿論導向以及支持自身做出一些重要性的決定等等,所以針對網(wǎng)絡社交平臺中海量數(shù)據(jù)的挖掘分析顯得尤為重要。
項目解決方案:本系統(tǒng)架構分為數(shù)據(jù)準備模塊、文本轉換向量模塊、數(shù)據(jù)分詞模塊、可視化模塊、模型訓練模塊、模型預測模塊、程序運行模塊。通過從twitter數(shù)據(jù)中抽取有用信息,結合文本分析算法處理文本內(nèi)容,使用機器學習相關算法從訓練數(shù)據(jù)集中訓練出隨機森林模型,再使用模型針對測試數(shù)據(jù)集進行預測分析,結合可視化組件直觀展示民意分布,即時了解輿情導向。
大數(shù)據(jù)行業(yè)應用—生態(tài)環(huán)境數(shù)據(jù)分析
項目名稱:生態(tài)環(huán)境數(shù)據(jù)分析
通過對環(huán)境數(shù)據(jù)的分析,監(jiān)測出環(huán)境相關數(shù)據(jù)的變化、趨勢,最終直觀的將各分析結果也直觀的方式展現(xiàn)出來。
配備《實驗手冊》《系統(tǒng)安裝部署文檔》項目源代碼及代碼注釋
大數(shù)據(jù)行業(yè)應用—交通軌跡
項目描述:隨著各種打車軟件的發(fā)展,人們足不出戶就可以約車,本案例主要是來探究生活中存在的打車難的問題,這個問題限制了我們有些時間的出行,浪費了我們的時間。在哪些地方容易打車,什么時候的車更容易搭乘,這是我們要著手解決的問題。
項目解決方案:本系統(tǒng)采用模塊化設計,分為數(shù)據(jù)準備, 解析csv數(shù)據(jù), 構建特征向量,聚類模型訓練,聚類模型測試, 分析預測結果,數(shù)據(jù)可視化。通過spark和機器學習算法等相關技能,對打車的現(xiàn)狀進行分析,并最終用可視化的手段直觀的展示分析結果。為用戶提供決策支持。
大數(shù)據(jù)行業(yè)應用—銀行貸款風險評估
項目名稱:銀行貸款風險評估案例
使用MLlib分析用戶數(shù)據(jù)對用戶做風險等級評估,給業(yè)務人員提供決策支持。
約15G數(shù)據(jù)、配備《實驗手冊》《系統(tǒng)安裝部署文檔》及項目源代碼及代碼注釋
大數(shù)據(jù)行業(yè)應用—搜索引擎構建
項目描述:互聯(lián)網(wǎng)時代輿論觀點都散布在各種社交網(wǎng)絡平臺或新聞提要中。對于這種網(wǎng)上海量分布的數(shù)據(jù),可以挖掘各種重要信息,可以了解當前的輿論導向以及支持自身做出一些重要性的決定等等,所以針對網(wǎng)絡社交平臺中海量數(shù)據(jù)的挖掘分析顯得尤為重要。
項目解決方案:本系統(tǒng)架構分為數(shù)據(jù)準備模塊、文本轉換向量模塊、數(shù)據(jù)分詞模塊、可視化模塊、模型訓練模塊、模型預測模塊、程序運行模塊。通過從twitter數(shù)據(jù)中抽取有用信息,結合文本分析算法處理文本內(nèi)容,使用機器學習相關算法從訓練數(shù)據(jù)集中訓練出隨機森林模型,再使用模型針對測試數(shù)據(jù)集進行預測分析,結合可視化組件直觀展示民意分布,即時了解輿情導向。
大數(shù)據(jù)行業(yè)應用—線上競拍
項目描述:Ebay在國外很受歡迎,網(wǎng)民可以拍賣的形式出售和競價商品,但是并不是所有拍賣都可以成功,因此我們利用ebay的歷史數(shù)據(jù)使用機器學習方法訓練模型并預測一項拍賣是否會成功,并預測成功交易的最終價格
項目解決方案:本系統(tǒng)架構采用模塊化設計,分為數(shù)據(jù)準備、數(shù)據(jù)存儲模塊、數(shù)據(jù)分析模塊、模型訓練模塊、模型預測模塊。通過歷史數(shù)據(jù)利用機器學習算法訓練模型,找出商品所有特征項與拍賣成功與否的正負相關性,預測拍賣能否成功,并預測價格的準確度。
大數(shù)據(jù)行業(yè)應用—NBA賽事預測
項目描述:目前可以通過球隊的排名對比賽的結果進行賽前估計,但是這種猜測一般覺有不確定性。所以利用機器學習算法對球隊的以往表現(xiàn),以及對手的表現(xiàn)綜合各方面的因素做一個統(tǒng)計,從中學習出某種規(guī)律,這樣我們就可以得到可靠性比較高的預測結果。
項目解決方案:本系統(tǒng)架構采用模塊化設計,分為數(shù)據(jù)獲取模塊、特征選擇模塊、數(shù)據(jù)分析模塊、模型訓練模塊、模型預測模塊,程序運行模塊等。通過從已有數(shù)據(jù)中抽取有用的信息并通過相應算法,將球隊重新劃分等級,利用機器學習算法,從中學習出特有的規(guī)律預測比賽結果。
大數(shù)據(jù)行業(yè)應用—航班線路
項目描述:飛機航班常因為天氣或機場原因,導致航班的延誤甚至取消,該項目基于一批航班的歷史數(shù)據(jù)對航班的各種重要指標做統(tǒng)計分析,如最繁忙航線、某機場起降最頻繁時段等;最后利用機器學習,對航班延誤做預測,旅客可參考這些統(tǒng)計及預測結果調(diào)整行程安排。
項目解決方案:本案例使用Hadoop作為底層支持,其中HDFS提供底層存儲支持,Yarn提供集群中應用的資源調(diào)度支持;Hive提供spark sql中的元數(shù)據(jù)訪問支持;spark core作為spark sql的核心支持。使用spark sql分析航空數(shù)據(jù)的一些指標。