那些你知道的,但還沒看過的 Big Data 風景 – 致 Hadooper
Fred 雲中象
- 社群
- 速度
- 資料科學
- Hadoop
國內 hadoop 圈子裡的人
Jazz Wang
hadooper
Wisely Chen
推廣 Spark
大資料處理上面處理的速度級別
- Batch
- Near Real-time
- Real-time
資料科學需要哪些方面的能力
How a typical software vendor approaches Data Science
PRISM 稜鏡計畫
Hadoop 分成那些版本
Hadoop 1
Hadoop 2
Lambda Architecture Platform on SQL
講者為Line 的員工
介紹一下講者和 Line office 目前在哪些地方
Data analytics workload
batch processing
Stream Processing
- Apache Storm
- Norikra
Why Stream Processing
- Less laterncy
- Less computing power
- No query schedule management
Disadvantage of Stream Processing
Lambada Architecture Overview
Twitter Summingbird
Lambada Structure use sql
UseCases in LINE
Prompt report for Ads service
Summary of application server error log
TMTOWTDI
A graph service for global web entities traversal and reputation evaluation based on HBase
趨勢在那些問題上使用 hadoop
Malware的數量不斷成長
介紹趨勢防護分成那幾層
ThreatWeb Threat Enities as a Graph
將 Malware的行為轉換成 Graph 然後使用 PageRank 處理圖形問題
如何 store Graph data
Property Graph Model
使用 HBASE 存放 圖形資料
分成 vertex edge 兩種 table
如何存取資料
包裹 原本 HBASE的API
blueprints API
效能
HGraph
PageRank Result
DGA Discovered
Cleints
Real time Client
Batch Client
Graph Exploring Tools
SQL on Hadoop: a Perspective of a Cloud-based, Managed Service Provider
SQL Players on Hadoop
Hive Spark sql
Presto Impala Drill
Norikra StreamSql
Apache Tez
Why still use MapReduce
Presto `s history
Who use Presto
Why select Presto
容易處理
使用 SQL 語法
Batch summary
MapReduce – based
Hive with Tez
Spark and Spark SQL is a good alternative
Norikra: Stream processing by SQL
LINE 的 Analytics phalform team
Norikra 使用 SQL 語法處理資料
Esper EPL
Wiht/Without Schema
介紹一下 Norikra
如何安裝 Norikra
use case 1
External API call report s for partners
http://developers.linecorp.com/blog/?p=3386
api error response summaries
use case 2
Prompt reports for Ad service console
use case 3
Realtime access dashboard on Google Platform
Access log visualzation
More queries more simplicity and less latency
Real-Time Streaming Data Computing for long-term undersea surveillance on top of Storm
核三廠 排水口 監視資料
介紹 Storm 的架構
魚群辨識
確認鏡頭情形
scalability programing
DRPC
海洋影像資料處理過程
Speed up Interactive Analytic Queries over Existing Big Data on Hadoop with Presto
使用 Presto 分析在 hadoop 上面的資料。
SQL on/over Hadoop
Presto 的架構
可以支援多種 Database
Base on DAG model
Query 怎麼在 Presto上運行
Node 參數設定
Presto`s Roadmap
Data visualization with Presto - Demo
Grafana
Mahout 資料分析基礎入門
資料分析基礎入門
分析工具
- scikit-learn
- R
- Weka, Matlab
- Mathout
Introduction to apache mahout in youtube BTI360
User Mode 直接使用內建指令
Developer Mode 撰寫新的ML 演算法
Hortonworks
動動手玩推薦系統
參考資料
Frequent pattern analysis
Mahout fpgrowth