# Visual Introduction to Pandas

```{contents}
:local:
```

In [1]:
import pandas as pd

## Loading Data

Dengan menggunakan Pandas, kamu bisa memuat data spreadsheet (tabel) lalu memanipulasinya menggunakan Python. Konsep utama dari Pandas adalah objek **DataFrame**, yaitu tipe data yang merepresentastikan tabel beserta isinya dan memiliki label pada setiap baris dan kolom.

![excel_to_pandas](../images/pandas/excel_to_pandas.png)

In [2]:
df = pd.read_csv("../../data/music.csv")
df

Unnamed: 0,Artist,Genre,Listeners,Plays
0,Billie Holiday,Jazz,1300000,27000000
1,Jimi Hendrix,Rock,2700000,70000000
2,Miles Davis,Jazz,1500000,48000000
3,SIA,Pop,2000000,74000000


Variabel `df` adalah Pandas DataFrame:

![view_pandas_dataframe](../images/pandas/view_pandas_dataframe.png)

## Selection

Kita bisa memilih data suatu kolom menggunakan labelnya:

In [3]:
df["Artist"]

0    Billie Holiday
1      Jimi Hendrix
2       Miles Davis
3               SIA
Name: Artist, dtype: object

![select_column](../images/pandas/select_column.png)

Kita juga bisa memilih baris menggunakan nomor barisnya:

In [4]:
df[1:3]

Unnamed: 0,Artist,Genre,Listeners,Plays
1,Jimi Hendrix,Rock,2700000,70000000
2,Miles Davis,Jazz,1500000,48000000


![select_rows](../images/pandas/select_rows.png)

Kita juga bisa men-slice table menggunakan nomor baris dan kolom menggunakan method `loc()`

In [5]:
df.loc[1:3, ["Artist"]]

Unnamed: 0,Artist
1,Jimi Hendrix
2,Miles Davis
3,SIA


![select_column_and_rows](../images/pandas/select_column_and_rows.png)

## Filtering

> Ini semakin seru atau perasaan saya saja? - Desta

Dengan Pandas, kita bisa dengan mudah mem-filter baris. Misalnya:

In [6]:
df[df["Genre"] == "Jazz"]

Unnamed: 0,Artist,Genre,Listeners,Plays
0,Billie Holiday,Jazz,1300000,27000000
2,Miles Davis,Jazz,1500000,48000000


![filter_1](../images/pandas/filter_1.png)

In [7]:
df[df["Listeners"] > 1800000]

Unnamed: 0,Artist,Genre,Listeners,Plays
1,Jimi Hendrix,Rock,2700000,70000000
3,SIA,Pop,2000000,74000000


![filter_2](../images/pandas/filter_2.png)

## Dealing with Missing Values

Sering kali dataset yang kamu proses pada proyek data science atau machine learning akan memiliki data yang tidak lengkap. Misalnya seperti ini:

In [8]:
df = pd.read_csv("../../data/music_with_na.csv")
df

Unnamed: 0,Artist,Genre,Listeners,Plays
0,Billie Holiday,Jazz,1300000,27000000.0
1,Jimi Hendrix,Rock,2700000,
2,Miles Davis,Jazz,1500000,48000000.0
3,SIA,Pop,2000000,74000000.0


![set_missing_value](../images/pandas/set_missing_value.png)

Pandas memiliki beberapa cara untuk mengatasi hal ini, salah satunya dengan menggunakan `dropna()` dimana kita akan menghapus baris yang datanya tidak lengkap:

In [9]:
df.dropna()

Unnamed: 0,Artist,Genre,Listeners,Plays
0,Billie Holiday,Jazz,1300000,27000000.0
2,Miles Davis,Jazz,1500000,48000000.0
3,SIA,Pop,2000000,74000000.0


![filter_missing_values](../images/pandas/filter_missing_values.png)

Atau, kita juga bisa menggunakan `fillna()` dimana nilai yang tidak ada akan digantikan dengan `0`.

In [10]:
df.fillna(0)

Unnamed: 0,Artist,Genre,Listeners,Plays
0,Billie Holiday,Jazz,1300000,27000000.0
1,Jimi Hendrix,Rock,2700000,0.0
2,Miles Davis,Jazz,1500000,48000000.0
3,SIA,Pop,2000000,74000000.0


## Grouping

Kita juga bisa melakukan pengelompokan dan agregasi pada data kita menggunakan Pandas.

In [11]:
df = pd.read_csv("../../data/music.csv")
df.groupby("Genre").sum()

Unnamed: 0_level_0,Artist,Listeners,Plays
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jazz,Billie HolidayMiles Davis,2800000,75000000
Pop,SIA,2000000,74000000
Rock,Jimi Hendrix,2700000,70000000


![group_by](../images/pandas/group_by.png)

Pandas mengelompokkan dua artis "Jazz" menjadi satu baris, dan karena kita menggunakan `sum()` untuk agregasi, Pandas menjumlahkan total listeneres dan plays untuk dua artis Jass tersebut.

Fitur-fitur ini akan sangat berguna untuk data analisis. Grouping memungkinkan kita untuk mengelompokkan data dan menemukan insight, dan agregasi adalah pilar pertama dan fundamental untuk statistika.

Selain `sum()`, Pandas juga memiliki method agregasi lain seperti `mean()`, `min()`, `max()`, dan lainnya.

Untuk mempelejari lebih dalam tentang `groupby()`, kamu bisa membacanya di [Group By User Guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html).

## Creating New Columns from Existing Columns

Sering kali dalam proses analisa data, kita diharuskan untuk membuat kolum baru.

In [12]:
df["Avg Plays"] = df["Plays"] / df["Listeners"]
df

Unnamed: 0,Artist,Genre,Listeners,Plays,Avg Plays
0,Billie Holiday,Jazz,1300000,27000000,20.769231
1,Jimi Hendrix,Rock,2700000,70000000,25.925926
2,Miles Davis,Jazz,1500000,48000000,32.0
3,SIA,Pop,2000000,74000000,37.0


![create_new_column](../images/pandas/create_new_column.png)