analisa data di python dengan pandas

12
Analisa Data di Python dengan Pandas Sigit Nurseto [email protected] 2014

Upload: zakiakhmad

Post on 14-May-2015

392 views

Category:

Technology


4 download

DESCRIPTION

Materi kopi darat Python Indonesia Februari 2014 http://www.python.or.id/2014/02/kopi-darat-python-indonesia-februari.html

TRANSCRIPT

Analisa  Data  di  Python  dengan  Pandas  

Sigit  Nurseto  

[email protected]    

2014  

Fokus  kita    

•  Pengenalan  Pandas  

•  Pandas  Basic  

•  Live  Review,  analisa  data  film  IMDB  

Data  Analysis  

Data  Analysis  memberi  kita  informasi  yang  

berguna  tentang  pattern,  relationship  atau  tren  

dari  suatu  kumpulan  data.  

Pandas  

•  Python  Library  open  source  untuk  Data  Analysis  

•  Panel  Data  System  

•  Open  Sourced  sejak  2009,  30  ribu  Python/Cython  code  

•  Mulai  digunakan  di  production  di  banyak  perusahaan  

•  Cepat  dan  intuitive  

 

Gunanya  ?  

•  Munging  Data  

•  Cleaning  Data  

•  Analyzing  

•  Modeling  Data  

•  Menghasilkan  bentuk  lain  dari  analisa  data  

misalnya  Chart  

Instalasi  

•  Minimum  Python  2.6.8  

•  pip  install  numpy  

•  pip  install  pandas  

Data  Model    

•  Series  :  Object  Satu  Dimensi  

•  DataFrame  :  Object  Dua  Dimensi  dengan  row  

dan  column  

Series  

•  Object  1  dimensi  seperti  array,  list,  atau  

column  di  table  

•  Memiliki  label  index  untuk  setiap  item  

•  Bisa  memiliki  tipe  data  yang  berbeda-­‐beda  

•  Bisa  di  convert  ke  dict,  json  dll  

 

Data  Frame  

•  Struktur  data  yang  terdiri  dari  rows  dan  columns,  

seperti  excel  spreadsheet  atau  database  table.  

•  Group  dari  object  series  yang  memiliki  column  

yang  sama.  

•  Tiap  column  bisa  memiliki  tipe  data  yg  berbeda  

•  Bisa  di  convert  ke  dict,  json,  dll  

Indexes  

•  Setiap  axis  memiliki  index  

•  Digunakan  untuk  :  

– Fast  lookups  

– Data  alignment  atau  join  

Methods  

•  Group  by:  split-­‐apply-­‐combine  

•  Merge,  join  dan  aggregate  

•  Reshaping    

•  Plotting  with  matplotlib  

•  IO  Tools  (Text,  CSV,  HDF5,  Json,..)  

Live  Preview  

•  Tools  yang  digunakan  :  

– Pandas  

–  Ipython  notebook  

–  Imdbpy  (  untuk  export  raw  data  imdb  ke  database  )  

•  Source  Data  :  

–   http://www.imdb.com/interfaces