Primary links

105學年大學部專題生的題目與簡式摘要:研究分散式大數據分析平台Spark與其應用

最近幾年全世界資訊科學界最為熱門研究議題就是大數據(Big Data)的塑模、分析與解讀。我們在第一學期將協助被指導專題生瞭解與使用現有Apache開放式大數據資料分析系統平台, i.e., Big Data Analytics Stack (BDAS), Spark。希望專題生可以掌握Spark分散式與平行化大量資料處理與快速運算技術來進行有效大數據分析。專題生可以自由選擇Python, Scala, Java, 或R等電腦語言在Spark大數據引擎上配合相關開放式模組來完成分析的工作。指導老師將協助專題生瞭解如何使用上述的電腦語言來呼叫Spark分析引擎提供的應用程式介面(API),並且深入瞭解Spark分析引擎的運作原理與技術。

在第二學期我們將更進一步指導專題生如何運用Spark所提供的Spark SQL+DataFrames來進行有效率的資料查詢,並且更進一步將查詢的資料透過Spark機器學習庫模組(MLlib)或圖行庫模組(GraphX)來完成大數據分析。大數據分析系統開發專題生首先將以Spark引擎所提供的交談式環境在自己電腦上來進行。更進一步我們將協助運用Eclipse IDE來開發完整的應用程式模組,並且運用新趨勢網路科技實驗室叢聚式(Cluster)電腦來測試,最後將實踐應用程式模組與大數據資料在Amazon/EC2的雲端計算環境操作的目的。專題生將可以自由選擇自己有興趣大數據分析的應用領域,如線上社群網路使用者行為分析、資訊系統與網路安全入侵偵測或智慧型電子商務應用等。更詳細內容請直接洽詢胡毓忠教授 (Phone: +886-2-29387620, Email:jong at cs.nccu.edu.tw)。

Powered by Drupal 5.5 and copyright © 新趨勢網路科技實驗室 ( Emerging Network Technology Laboratory ), Some Rights Reserved
This work is licensed under a Creative Commons License.