來源:本站閱覽: 發布時間:2021-08-20作者:boxsin
隨著社會的發展,人類活動產生的數據量呈現爆炸式的增長,大數據時代已經來臨。2016 年中國大數據市場規模為168 億元,增速達到45% ;預計2017 -2020年增速保持在30%以上。
國務院2015年印發了《促進大數據發展行動綱要》,指出要創新人才培養模式,建立健全多層次、多類型的大數據人才培養體系;加強大數據職業技能人才實踐培養,積極培育大數據技術和應用創新型人才。
黨的十八屆五中全會提出要全面實施“國家大數據”戰略,大數據已經上升為國家戰略,大數據時代已經來臨,大數據相關的人才需求持續增加。《大數據人才報告》顯示,目前全國大數據人才只有46萬,未來3到5年人才缺口達150萬之多。目前市場對大數據人才需求的特點是:需求量大、薪資水平高,并且呈上升趨勢。
(三)培訓目標
1.能夠利用大數據開發編程技術實現對大數據的獲取、存儲、管理、清洗、轉換等工作;
2.能夠利用大數據分析方法和大數據分析工具,從業務理解、數據理解、數據準備、建立模型、模型評估、模型優化等多個環節,實現利用數據分析提升業務能力;
3.能夠熟練掌握大數據相關技術,根據項目需求制定研發方案,帶領團隊進行大數據項目研發并進行有效管理。
1.大數據技術開發:包括大數據獲取、ETL數據清洗、大數據存儲、大數據轉換處理等相關崗位;
2.大數據技術分析:包括數據分析、模型建立、模型評估等相關崗位;
3.大數據經理:包括對接商業項目需求、研究制定切實可行的項目實施方案、對接外部數據源及內外數據分析團隊、撰寫研究報告、有效管理研發團隊等。
經過培訓并經考核合格者將分別具有以下能力:
1.大數據技術開發具備數據理解、數據處理和數據管理等能力;
2.大數據技術分析具備數據理解、數據處理、數據管理、數據分析和數據預測等能力;
3.大數據經理具備數據理解、數據處理、數據管理、數據分析、數據預測、數據應用及團隊管理等能力
(1)數據理解能力:能夠結合業務對數據進行正確的理解與解讀;
(2)數據處理能力:能夠對數據進行基本的數據清洗,進行數據預處理;
(3)數據管理能力:從數據的獲取到數據的分布式存儲技術;
(4)數據分析能力:能夠借助數據分析工具結合業務進行數據可視化分析;
(5)數據預測能力:能夠通過相關算法進行數據模型建立,評估及結果預測;
(6)數據應用能力:能夠為企業決策提供精準數據支撐,推動實現智能決策,提高企業運營效率和風險管理水平。
課程簡介:
本部分內容共50課時(50分鐘/課時)。本部分為大數據開發工程師認證的初級階段,主要包括兩個方面,第一方面側重于大數據開發必備之基礎技能,主要包括大數據開發必備之:Linux 和 NoSQL數據庫,第二部分為本階段的核心,主要涉及大數據概念、原理、框架、應用場景及Hadoop開發的初級部分,本階段學習完成后,學員可以基本勝任:Hadoop初級開發工程師的工作崗位。
課程內容:
課程模塊 | 主要內容 (時長) | 技能要求 | 相關知識 |
模塊一: 操作系統:Linux | Linux 系統管理 (12課時) | 1.能夠熟練使用Linux常見基本操作命令 2.能夠熟練進行基礎Linux網絡環境配置及用戶帳戶權限設置 3.能夠熟練使用虛擬機及常見Linux連結工具 4.能夠利用Shell命令完成常見的批處理、自動化定時任務等操作 | 1.如何使用VMWare安裝Linux鏡像 2.認識Linux的桌面環境、shell環境 3.基本網絡配置及命令:ip、hostname 4.基本操作命令:touch、mkdir、ls、mv、rm、cp、more 5.用戶權限命令:useradd、chmod、chown 6.shell基本編程及定時任務crontab |
模塊二: NoSQL技術 | Redis (8課時) | 1.了解NoSQL發展及四類框架 2.掌握Redis安裝部署和基本使用 3.熟悉Redis五大數據結構和常見命令 4.熟練使用Jedis訪問Redis數據庫 5.理解Redis中的事務 | 1.NoSQL數據庫介紹 2.Redis 環境搭建及基本使用 3.Redis數據結構(String、List、Hash、Set和Sorted Set) 4.Java客戶端Jedis及連接池 5.Redis事務 |
MongoDB (8課時) | 1.了解傳統數據與大數據時代數據不同 2.掌握MongoDB安裝配置 3.快速上手使用MongoDB存儲文檔型數據和不同條件快速檢索 | 1.傳統數據與大數據、NoSQL概述 2.MongoDB概述、安裝配置及初步使用 3.MongoDB基本用法(文檔Document的增刪改查) 4.MongoDB高級用法(數據高級查詢) 5.MongoDB數據可視化管理 | |
模塊三: 大數據框架-Hadoop開發 | 大數據應用與Hadoop開發初級 (22課時) | 1.能了解大數據目前在企業中的應用場景,Hadoop是什么,能夠解決什么問題 2.能夠自主完成Hadoop偽分布式環境搭建部署 3、能夠利用分布式文件系統HDFS完成相應大數據文件處理 | 1.Hadoop 發展歷史及其生態系統 2.偽分布式環境搭建及測試 3.HDFS 體系架構及JAVA API操作 |
課程簡介:
本部分內容共:50課時(50分鐘/課時)。本階段為大數據開發的中級部分,本部分內容側重于大數據開發技術,主要包括大數據開發Hadoop高級技術,包括但不限于,分布式協調 Zookeeper, Hadoop 分布式存儲,MapReduce分布式運算,Hive數據分析等。本階段學習完成后,學員可以勝任:大數據開發工程師,Hive大數據分析師,大數據倉庫開發工程師等崗位
課程內容
崗位能力 | 工作內容 (時長) | 技能要求 | 相關知識 |
模塊一、分布式協調技術 | Zookeeper分布式協調框架 (8課時) | 1.掌握Zookeeper框架的實現原理 2.掌握Zookeeper的安裝配置與使用 3.掌握Zookeeper企業應用 | 1. 什么是Zookeeper 2.Zookeeper的安裝、配置與使用 3.Zookeeper命令行操作 4.Zookeeper Java API調用 5.Zookeeper綜合案例 |
模塊二: Hadoop開發高級 | Yarn及MapReduce高級編程 (8課時) | 1.能夠利用Yarn配置管理偽分布式集群 2.掌握MapReduce相關算法及編程處理 3.能夠利用MapReduce結合Yarn完成大數據相關業務處理 | 1.YARN 集群資源管理詳解 2.MapReduce 編程模型及詞頻統計案例 3.深入MapReduce運行原理及案例 |
實戰:基于Hadoop實現的手機上下行流量大數據統計分析案例(6課時) | 1、熟練掌握如何Hadoop框架中實現MapReduce分布式應用 2、熟練掌握如何MapReduce中傳輸自定義數據類型Bean 3、熟練掌握如何對MapReduce進行排序的思路、方法與實現 | 1.Hadoop多臺機器真實分布式集群環璄的搭建 2、Hadoop高級,如果在MapReduce中傳輸自義的數據類型 3、基于MapReduce 的排序
| |
模塊三: Hive初步 & 集群管理 | 大數據倉庫Hive & 大數據集群 (20課時) | 1.能夠認識數據倉庫Hive的優勢及掌握Hive具體使用 2.能獨立完成分布式集群部署、實際環境中集群基準測試 | 1.Hive簡介、環境部署 2.基于HiveQL數據分析 3.SQOOP數據轉換 4.某論壇日志數據處理 5.企業分布式集群架構 6.HDFS和YARN高可用性 7.分布式協作框架Zookeeper 8.集群搭建和基準測試 |
實戰:Hive 復雜用戶行為案例分析(8課時) | 1、了解企業網站運營常用指標概念、作用及具體計算方式 2、熟練掌握Hive分區表的設計與實現 3、能夠利用HQL結合業務進行復雜數據分析 | 1、網站關鍵指標分析 2、Hive數據庫、表設計 3、數據導入與清洗 4、利用MapReduce作數據處理 5、利用Hive做數據分析 |
課程簡介:
本部分內容共50課時(50分鐘/課時)。 側重于對分布式存儲、分布式計算、數據倉庫工作流程,通過對數據采集、ETL、數據分析、數據展示及云布署的深入介紹及性能優化,結合數據倉庫和具體的經典案例,讓學員對大數據上升到開發應用的級別,能夠進行大數據的清洗、處理、存儲與開發工作。本階段完成后,學員可以達到:大數據高級開發工程師的角色
課程內容
崗位能力 | 工作內容 (時長) | 技能要求 | 相關知識 |
模塊一:Hadoop生態圈技術 | 分布式列存儲數據庫Hbase (12課時) | 1.了解Hbase的基本架構及存儲 2.深入理解Hbase的讀寫過程和存儲原理 3.熟練使用Hbase管理命令 4.熟練使用Hbase API對HBASE進行數據讀寫 5.掌握Hbase設計原理 | 1.HBase 介紹、環境搭建 2.HBase Shel 基本操作 3.HBase 表的設計、物理存儲結構 4.HBase Java API使用(結合電商訂單實時查詢案例) 5.Hbase與MapReduce集成讀寫數據 6.基于微博數據的存儲與查詢案例 |
大數據采集系統企業架構與實現 (12課時) | 1.了解日志收集框架flume 使用方法與技巧 2.了解kafaka框架的搭建、使用及技巧 3.掌握sqoop數據遷移框架的使用及技巧 | 1.電商用戶日志采集系統項目 2.爬蟲工具實現互聯網相關網站、論壇、微博等數據爬取 3.完成互聯網采集數據到大數據平臺功能 4.構建用戶日志采集系統
| |
模塊二: 項目實戰 |
基于Hadoop電商離線數據分析 (12課時) | 1.了解企業大數據分析平臺實際業務及需求 2.了解大數據分析常見數據分析指標及其實現方案 3.掌握企業MapReduce開發技巧及過程 4.熟練使用Hive對數據進行統計分析 | 1.大數據分析流程、分析平臺技術架構 2.實時數據采集Flume 3.項目需求分析 4.用戶行為日志數據ETL 5.基于MapReduce的用戶分析、會員分析、區域分析等 6.基于Hive集成HBase的會話分析 7.Hourly分析、訂單分析等 8.基于SSM+Echarts數據展示 9.調度系統Azkaban使用 10.MapReduce及Hive性能優化 |
模塊三: 大數據云計算技術 | Docker 容器 (14課時) | 1.了解Docker容器的概念與企業應用場景 2.掌握Docker技術的企業應用 | 1.什么是Docker 2.Docker的企業應用 3.Docker安裝配置與使用技巧 4.綜合項目演練 |
課程簡介:
本部分內容共50課時(50分鐘/課時)。本課程為大數據分析的初級應用階段,主要通過 Excel、Power BI、Tableau等可視化工具及SQL進行對數據的預處理,讓學員能夠在拿到數據后對數據進行清洗,轉換等處理,為接下來的數據建模、大數據分析打下堅實基礎。
課程內容
崗位能力 | 工作內容 (時長) | 技能要求 | 相關知識 | |
模塊一: 利用離線小數據進行離線分析 | Excel數據處理與分析實戰 (15課時) | 1.熟練掌握用Excel、power query實現數據的清洗和轉換 2.學會使用power pivot進行數據建模 3.學會利用power view、power map實現數據展現 4.了解宏與VBA | 1.用Excel實現數據清洗和轉化 2.用Excel之Power Query實現數據轉換和清洗 3.數據分析和建模(power query和power pivot的使用) 4.數據展現之基本統計圖介紹及簡單制作 5.數據展現之利用Excel實現基本數據透視表 6.、數據展現之利用Power View實現高級透視表 7.數據展現之利用Power Map實現bing地圖 8.宏與VBA 9.Excel解決某公司財務報表動態生成 | |
模塊二: 利用BI工具進行商業數據分析
|
Power BI快速上手商業數據分析 (15課時) | 1.掌握Power BI 桌面版的使用 2.使用power BI desktop進行數據的導入、處理、建模、及分析 3.學會及配合使用power bi和Excel 4.學會使用power bi進行三維地圖的繪制 | 1.微軟Power BI簡介 2.通過power pivot報告快速上手power bi 3.Power BI Desktop 界面介紹和數據導入整理 4.Power BI Desktop建立數據分析模型 5.Power BI Online Service(在線版)特有功能 6.Power BI Online Service 報告的分享與寫作 7.power bi和Excel的配合 8.數據的刷新 9.儀表板的制作原則 10.常用可視化圖表介紹 11.Power BI 之巧用地圖 | |
模塊三: 利用相關工具進行可視化大數據分析與展示 | Tableau大數據可視化 | 1.能夠利用Tableau完成基礎的數據分析與查詢 2.能夠利用Tableau進行業務數據的可視化展示 | 1.Tableau 下載、安裝和基本使用 2.Tableau連接不同數據源 3.Tableau初級數據可視化 4.地圖分析 | |
模塊四: 綜合項目實戰 |
基于豆瓣電影 BI 可視化全流程分析實戰(10課時) | 1.Office 2016版Excel分析 2、Power Query查詢分析器的使用 3、Power BI Desktop的使用 | 豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。你可以記錄想看、在看和看過的電影電視劇,順便打分、寫影評。根據你的口味,豆瓣電影會推薦好的電影。其中的豆瓣電影Top250榜單!它是根據每部影片看過的人數以及該影片所得的評論等綜合數據排名的,同時還考慮了人群的廣泛適應性和持續關注度 |
課程簡介:
本部分內容共50課時(50分鐘/課時)。本課程為大數據分析的中級階段,此階段側重于數據的分析和建模。通過對基本的數理統計知識的學習和SQL的學習,達到利用高級數據分析、數據挖掘工具及方法對業務分析預測的目的。學完此階段后學員可以勝任中級數據分析師、數據挖掘工程師等崗位。
課程內容
工作內容 (時長) | 技能要求 | 相關知識 | |
模塊一、SQL高級數據分析 | MySQL 商業數據分析(12課時) | 1、了解數據庫數據類型 2、學會創建并使用數據庫 3、熟練掌握數據庫的增刪改查 4、掌握數據庫的多表查詢及存儲過程 | 1、初識My Sql(安裝My Sql、使用CMD登錄My Sql、數據庫數據類型、約束、Navicat介紹、Navicat創建數據庫、Navicat填充數據) 2、SQL進階 3、多表查詢及存儲過程 4、商品進銷存項目實戰 |
模塊二: 數據統計分析與數據清洗
| 數據統計分析基礎(8課時) | 1、掌握統計學的基本理論 2、了解數據分析中的高級分析 | 1、概率 2、樣本與抽樣 3、描述數據(統計量) 4、正太分布 5、統計推斷 6、實驗設計 7、變量之間的關系 8、回歸分析 9、聚類分析 |
數據清洗入門與實踐 | 1、理解數據清洗在整個數據科學過程中的作用 2、掌握數據清洗的基礎知識,包括文件清洗、數據類型、字符編碼等 3、發掘電子表格和文本編輯器中與數據組織和操作相關的重要功能 4、學會常見數據格式的相互轉換,如JSON、CSV和一些特殊用途的格式 5、采用三種策略來解析和清洗HTML文件中的數據 6、揭開PDF文檔的秘密,提取需要的數據 7、借助一系列解決方案來清洗存放在關系型數據庫里的壞數據 | 1、電子表格中的數據清洗 2、文本編輯器里的數據清洗 3、基于工具的快速轉換 4、收集并清洗來自網絡的數據 5、從電子郵件和論壇中抽取數據 6、清洗PDF文件中的數據 7、RDBMS清洗技術 | |
模塊三: 可視化數據挖掘工具 | SPSS/SPSS Modeler分析(10課時) |
1、了解SPSS的建模分析方法 2、能夠利用所學的spss知識解決實際工作中遇到的復雜問題 | 1、spss入門介紹 2、好的開始是成功的一半—數據錄入與數據處理 3、化簡為繁—描述性統計分析 4、看圖說話—統計圖表分析 5、真假博弈1——假設檢驗概述與t檢驗 6、真假博弈2——非參數檢驗與卡方檢驗 7、萬物皆有聯系——相關分析與回歸案例 8、影響因素判斷——方差分析 9、與時俱進——時間序列分析 10、涇渭分明——分類算法 11、物以類聚——聚類算法 12、大道至簡——降維方法研究 項目案例:spss 人口普查數據分析實例 |
SAS分析(10課時) | 1、了解SAS的基本介紹,安裝及界面 2、了解SAS的編程基本語言 3、使用SAS制作統計分析報表 | 1、SAS基本介紹 2、SAS的安裝 3、SAS運行環境的界面介紹 4、Insight模塊 5、SAS編程基本語法 6、數據的導入與導出 7、Analyst模塊 8、SAS運算符及函數 9、DATA步信息語句 10、Assist模塊 11、Assist模塊 12、使用SAS制作統計分析報表 13、使用STAT模塊進行統計分析介紹 14、SAS中的宏語言 15、Enterprise Miner 數據挖掘模塊 16、使用ETS模塊對面板數據進行計量分析 項目案例: 商品管理系統分析案例解析 |
課程簡介:
本部分內容共50課時(50分鐘/課時)。此階段為我們整個課程的第四階段,Python數據分析。將主要側重Python語言及數據分析包的學習。通過對Python語言、Python數據處理、分析包及可視化包的學習,訓練學員掌握必備的基本編碼能力,為后續更高級的內容打下堅實且必要基礎。本階段課程學完后,學員可以勝任Python 高級數據分析的工作崗位。
課程內容
崗位能力 | 工作內容 (時長) | 技能要求 | 相關知識 |
模塊一: Python語言及爬蟲技術 | Python核心編程(10課時) | 1、從零開始學會搭建Python開發環境 2、掌握Python基礎語法 3、理解基本編程思想與方法 4、對Python的集合,泛型、元組深入理解與掌握 5、掌握Python面向對象編程 6、Python操作MySQL數據庫 | 1.Python語言開發要點詳解 2.Python開發環境搭建 3.Python數據類型和常見算法 4.Python 函數式編程 5.Python文件處理 6.Python類、異常處理 7.Python 中的集合泛型元組字典 8.Python中如何操作MySQL數據庫 |
數據收集– Python爬蟲技術(12課時) | 1.了解Python爬蟲的基本工作原理 2.掌握Python爬蟲的基本類庫:urllib2、beautifulsoup的使用 3.熟練使用Scrapy框架進行數據的抓取 | 1.Python爬蟲原理與入門 2.利用requests及BeautifulSoup爬取數據 3.Beautiful Soup庫的使用 4.利用及BeautifulSoup爬取數據 5.利用Scrapy框架爬取數據、爬蟲綜合項目實戰 | |
模塊二: 利用Python進行數據分析與展示 | Python數據分析庫 –Pandas | 1.了解Pandas包的安裝與基本使用方法 2.閱讀Pandas API并熟練使用其核心方法 3.掌握Pandas的科學計算方法與技巧 | 1.Pandas 簡介\PANDAS程序包安裝 2.簡單的PANDAS程序\Series類說明 3.Series的bool運算選擇\SERIES的復雜操作 4.DataFrame的常用構造方式與操作 5.分組求和(聚合操作)\列與列之間的四則運算 6.刪除某一列\按位置選定指定的行和列 7.深復制&淺復制 8.DataFrame與DataFrame之間的join操作 |
Python數據分析可視化庫 – matplotlib (8課時) |
1.了解matplotlib包的安裝與基本使用方法 2.閱讀matplotlib API并熟練使用其核心方法 3.掌握matplotlib的繪圖技巧,實現可視化展示 | 1.Matplotlib簡介 2.Matplotlib程序包安裝 3.簡單的Matplotlib程序 4.Matplotlib主要繪圖類型(上) 5.Matplotlib主要繪圖類型(下) 6.Matplotlib主要繪圖參數 7.Matplotlib主要繪圖裝飾函數 8.Matplotlib文字標注與注釋 | |
模塊三: 項目實戰 | Python豆瓣電影分析系統 (8課時) | 1.了解了一個真實的數據分析項目全流程 2.能夠對之前學習過的Python爬蟲技術結合項目有更深入的理解 3.掌握numpy,pandas 結合matplotlib、PyEcharts進行可視化數據分析與展示 | 通過一個真實項目演示一個數據分析項目全流程,主要包括: 1.業務需求分析 2.數據收集 3.數據清洗 4.數據處理 5.數據分析 6.數據可視化分析展示 7.數據分析報告 |
課程簡介:
本部分內容共50課時(50分鐘/課時)。 側重于大數據技術的綜合運用與實時數據分析技術的加深。本部分內容將引入企業級項目實戰,結合大數據開發、大數據分析及可視化技術進行綜合項目演練,從而讓學員對于企業大數據開發流程全程實踐并從中獲取寶貴的企業級開發工作經驗。
課程內容
崗位能力 | 工作內容 (時長) | 技能要求 | 相關知識 |
模塊二: 能夠利用Spark對大數據進行實時處理與分析 | Spark實時數據分析 | 1.了解SparkStreaming進行實時計算思想 2.理解Dstrean數據結構 3.掌握實時累加統計和窗口統計實時計算 4.熟練使用從Kafka宗讀取數據進行分析 5.理解SparkStreaming應用運行的高可用性 | 1.流式計算引入及各個框架的比較與選型 2.SparkStreaming內核原理及從Socket讀取數據實時分析 3.DStream創建及常用Transformatio和Output使用 4.從Kafka讀取數據及將結果存儲到Redis中 5.實時累加統計updateStateByKey和基于時間的窗口window操作 6.從Kafka讀取數據進行Structured Streaming結構化流式統計分析 |
模塊二: Spark實時數據分析實戰 | 基于SparkSQL口碑商家客流量預測實戰 (15課) | 1.了解SparkSQL前世今生 2.掌握SparkSQL的核心思想Dataset、DataFrame設計 3.熟練使用SQL和DSL進行數據分析 4.SparkSQL分析中性能優化 | 1.與Hive集成分析數據 2.Dataset/DataFrame是什么 3.外部數據源接口read和write 4.基于天池大賽的口碑商家流量預測分析 |
模塊三: 能夠結合大數據技術與業務進行大數據分析 | 數據建模與大數據分析 (15課時) | 能夠利用HBase、Hadoop、Spark等大數據技術結合實際業務需求完成企業所需的用戶畫像系統 | 1.用戶畫像概念(標簽) 2.用戶畫像數據采集 3.客戶消費訂單相關標簽數據處理 4.用戶畫像任務執行及優化 5.客戶活動標簽 |
部分師資如下:
1.童金浩:具有十年技術開發經驗,十年教學管理經驗,是中國最早的一批在線教育踐行者,著有BF-TECH NET,BF-TECH Java,BF-TECH Android 等近上萬課時的網絡作品,深受學員認可與歡迎,被譽為:在線教育第一人,擅長領域:NET、Java、手機移動開發、大前端技術、軟件架構及項目管理。近些年專注于大數據、人工智能及區塊鏈等方面的研究與教學實踐工作。
2.趙瑾:計算機軟件碩士,數據分析、人工智能金牌講師,微軟認證講師(MCE),微軟數據分析專家,高校教師資格,高校講師職稱,10年IT軟件教學經驗,5年軟件項目外包經驗,5年大數據與數據分析的教學經驗,多年機器學習算法研究及實現經驗。
3.吳茂貴:具有十年大型企業大數據分析Hadoop、Spark經驗和五年深度學習TensorFlow企業高級人才內訓經驗。教學耐心細致、表達能力強,講解深入淺出,深受學員歡迎,著有:《自己動手做大數據系統》、《深度實踐Spark機器學習》。
4.程大偉:機器學習、數據挖掘和統計推理專家,參與上海市類腦計算和機器智能重點實驗室研究。擅長大數據場景下的機器學習算法庫和分布式Python、R 語言產品研發工作,并將其應用于金融行業的建模分析工作中。上海應用技術大學暑期骨干教師大數據和人工智能培訓的企業導師,上海交通大學計算機碩士課程”金融服務計算“客座講師。
培訓以線上培訓為主,包括理論技術知識和軟件實操兩大部分。理論技術知識為線上授課模式;老師在講授具體案例中指導學員實際應用和操作Python、spark等軟件,模擬實際工作情景,并對遇到的問題進行解答。
線下集中考試,基礎專業知識采用客觀題考核方式方式、操作技能采用主觀題的考核方式,總分100分,采用閉卷機考方式,成績達到60分及以上者為合格。
五、證書模板
咨詢電話:0771-5671533/13211310631
掃碼關注更多精彩