Kamis, 18 April 2019

Tutorial Membuat Regresi Linear Menggunakan Jupyter

Pengertian

Regresi linear merupakan alat statistik yang digunakan untuk mengetahui pengaruh antara satu atau beberapa variabel terhadap satu buah variabel. Dalam regresi linear, variabel yang mempengaruhi sering disebut variabel bebas, variabel independen atau variabel penjelas. Variabel yang dipengaruhi sering disebut dengan variabel terikat atau variabel dependen. Reegresi linear terdiri dari dua, yaitu regresi linear sederhana dengan satu buah variabel bebas dan satu buah variabel terikat, dan regresi linear berganda dengan beberapa variabel bebas dan satu buah variabel terikat. Analisis regresi linear merupakan metode statistik yang paling banyak digunakan dalam penelitian-penelitian sosial, terutama penelitian ekonomi. Program komputer yang paling banyak digunakan adalah SPSS (Statistical Package For Service Solutions). 

Pada regresi linear sederhana digunakan persamaan umum:
Y = a + b X.

Dimana Y adalah variabel terikat dan X adalah variabel bebas. Koefisien a adalah konstanta (intercept) yang merupakan titik potong antara garis regresi dengan sumbu Y pada koordinat kartesius.


Sejarah

Istilah regresi pertama kali diperkenalkan oleh ilmuan ternama pada abad ke-19 bernama Sir Francis Galton. Dalam artikelnya berjudul Family Likeness in Stature (1886), Galton menyebutkan bahwa tinggi rata-rata badan anak yang lahir ternyata akan cenderung bergerak mundur (regress) mendekati tinggi rata-rata badan dari populasi secara keseluruhan meskipun kecenderungan orangtua yang berbadan tinggi akan punya anak berbadan tinggi ataupun orangtua berbadan pendek akan punya anak berbadan pendek.

Hukum regresi umum yang dibuat oleh Galton ini kemudian dikonfirmasi oleh temannya, Karl Pearson, melalui pengumpulan sampel lebih dari satu juta rekord data tinggi badan dari anggota sejumlah keluarga. Lalu ditemukan bahwa kebanyakan sebuah keluarga dengan ayah berpostur tinggi memiliki anak yang lebih pendek dan keluarga dengan ayah berpostur pendek memiliki anak yang lebih tinggi. Oleh karena itu, “regresi” tinggi dan pendek badan seorang anak akan cenderung sama dengan tinggi rata-rata populasi. Dalam bahasa Galton, hal ini disebut “regression to mediocrity” .

Akan tetapi di masa sekarang makna regresi telah berbeda jauh berbeda dari apa yang dimaksudkan oleh Galton, dimana diartikan sebagai suatu analisis tentang ketergantungan suatu variabel kepada variabel lain yaitu variabel bebas dalam rangka membuat estimasi atau prediksi dari nilai rata-rata variabel tergantung dengan diketahuinya nilai variabel bebas. Untuk mencobanya dapat kita terapkan melalui Jupyter Notebook melalui tutorial dibawah ini.


Tutorial

1. Jalankan Jupyter Notebook pada komputer. Lalu pilih New kemudian Python 2. Jika belum memiliki Jupyter Notebook pada komputer, dapat melakukan instalasi Anaconda 2 terlebih dahulu melalui tutorial yang saya buat sebelumnya disini.

 


2. Kemudian masukkan kodingan dibawah ini. Dimana digunakan untuk mendeklarasikan variabel bebas berupa TV, radio dan newspaper, serta variabel terikat berupa sales dan merubahnya menjadi dataframe. Data tersebut diambil melalui link pada cell kedua yang berisi data dalam jumlah banyak.




3. Kemudian cetak dataframe tersebut melalui kodingan dibawah sehingga menghasilkan 200 pengamatan.



4. Lalu masukkan perintah dibawah sehingga menghasilkan dataset yang berisi 200 pasar.




5. Berikutnya dilakukan interpretasi koefisien dari TV. Sehingga ditemukan hasil bahwa terdapat kenaikan sebanyak 0,047537 unit TV melalui pengeluaran berupa iklan pada sales.


6. Selanjutnya dilakukan prediksi dari penjualan TV pada pasar tersebut dengan pengeluaran untuk iklan senilai "50". Dan didapatkan sebesar 9,409444 unit.



7. Berikutnya dilakukan prediksi melalui statsmodel.



8. Kemudian lakukan perhitungan r squared.



9. Terakhir lakukan plotting pada garis kuadrat terkecil.


10. Maka akan menghasilkan output dibawah ini.






Demikian tutorial singkat penerapan regresi linear menggunakan Jupyter Notebook. Kiranya bermanfaat bagi para pembaca. Terima kasih


Sumber:

https://skripsimahasiswa.blogspot.com/2010/10/regresi-linear.html

http://zegastat.blogspot.com/2014/04/sejarah-regresi.html

https://github.com/isramrasal/kursusML/blob/master/Regresi%20linear%20sederhana.pdf