Real case
Kaggle adalah situs dan platform untuk membuat model terbaik untuk menganalisis dan memprediksi suatu dataset. Dataset ini diberikan oleh suatu perusahaan, dengan suatu deskripsi masalah tertentu. Sebagai contoh, diberikan data fitur-fitur rumah beserta-jual dan harga jualnya, dan deskripsi-buat-buat model untuk memprediksi harga jual berdasarkan fitur-fitur tersebut. Sederhana kan? Kalau Anda bisa membuat model terbaik, ada hadiah total USD $ 1,2 juta dolar.
Kaggle sangat bermanfaat untuk semua yang berkecimpung di dunia data science.
Banyak perusahaan yang mempunyai permasalahan analisa/pemodelan data, namun mereka tidak punya sumber daya data scientist yang mumpuni untuk memecahkannya. Dengan Kaggle, mereka bisa meminta bantuan data scientist seluruh dunia untuk memecahkan masalah tersebut dengan membuat model terbaik. Istilah kerennya crowd sourcing. Biasanya dengan dengan imbalan hadiah.
Kaggle juga dapat dimanfaatkan oleh perusahaan untuk merekrut data scientist atau ML engineer, dengan cara menyelenggarakan kompetisi untuk tujuan rekrutmen.
Bagi kita praktisi atau pelajar data science, Kaggle sangat berguna untuk belajar, berlatih, dan mempertajam skill dan insting data science kita. Dengan mempelajari write up atau ulasan orang lain dalam memecahkan suatu masalah, kita bisa mendapat banyak ide dan ilmu tentang bagaimana proses dan jalan berpikir dia memecahkan masalah data science. Lalu dengan ikut dalam kompetisi, kita akan diberi feedback tentang akurasi model kita, dan dari situ kita berlatih bagaimana membuat model yang lebih baik. Selama kompetisi, sering orang berbagi tips atau ide yang dia pakai, sehingga dari situ tidak hanya kita bisa memperbaiki model kita, tapi kita juga bisa belajar, menjadi lebih kreatif, sekaligus melatih insting pemecahan masalah kita.
Setelah kompetisi selesai, biasanya para pemenang atau orang yang mendapat skor tinggi akan menulis write up tentang solusi dia juga, sehingga kita bisa belajar solusi yang wow itu seperti apa.
Bahkan walaupun Anda masih pemula sekali, yang belum bisa koding membuat model sendiri (seperti saya saat menulis artikel ini), membaca ulasan Kaggle sangat berguna untuk mengetahui bagaimana contoh permasalahan data science di dunia nyata (misalnya, dataset di dunia nyata sering terdapat banyak cacat, tidak seperti dataset di kelas MOOC), bagaimana cara berpikir seorang data scientist dalam memecahkan suatu masalah, dan pengetahuan-pengetahuan apa yang harus dipelajari untuk membuat solusinya.
Belajar dengan Membaca Ulasan Kompetisi
Cara terbaik untuk mendapatkan ilmu di Kaggle adalah dengan membaca ulasan orang lain di suatu kompetisi. Semakin banyak ulasan bagus yang dibaca, semakin banyak ide-ide dan ilmu-ilmu yang bisa kita dapatkan.
Menurut saya, tutorial pertama yang bagus untuk dibaca adalah Getting Started with Excel: Kaggle’s Titanic Competition, yang sangat mudah diikuti untuk mengerti workflow “standard” di Kaggle, mulai dari mengunduh dataset kompetisi, menganalisa data, membuat model, sampai men-submit solusi Anda. Anda tidak harus mengerti dengan detil bagaimana cara menggunakan Excel (misalnya bagaimana membuat pivot table). Yang penting Anda mengerti tentang workflow-nya.
Sumber : https://indoml.com/2017/08/22/panduan-menggunakan-kaggle-untuk-pemula/
Kaggle sangat bermanfaat untuk semua yang berkecimpung di dunia data science.
Banyak perusahaan yang mempunyai permasalahan analisa/pemodelan data, namun mereka tidak punya sumber daya data scientist yang mumpuni untuk memecahkannya. Dengan Kaggle, mereka bisa meminta bantuan data scientist seluruh dunia untuk memecahkan masalah tersebut dengan membuat model terbaik. Istilah kerennya crowd sourcing. Biasanya dengan dengan imbalan hadiah.
Kaggle juga dapat dimanfaatkan oleh perusahaan untuk merekrut data scientist atau ML engineer, dengan cara menyelenggarakan kompetisi untuk tujuan rekrutmen.
Bagi kita praktisi atau pelajar data science, Kaggle sangat berguna untuk belajar, berlatih, dan mempertajam skill dan insting data science kita. Dengan mempelajari write up atau ulasan orang lain dalam memecahkan suatu masalah, kita bisa mendapat banyak ide dan ilmu tentang bagaimana proses dan jalan berpikir dia memecahkan masalah data science. Lalu dengan ikut dalam kompetisi, kita akan diberi feedback tentang akurasi model kita, dan dari situ kita berlatih bagaimana membuat model yang lebih baik. Selama kompetisi, sering orang berbagi tips atau ide yang dia pakai, sehingga dari situ tidak hanya kita bisa memperbaiki model kita, tapi kita juga bisa belajar, menjadi lebih kreatif, sekaligus melatih insting pemecahan masalah kita.
Setelah kompetisi selesai, biasanya para pemenang atau orang yang mendapat skor tinggi akan menulis write up tentang solusi dia juga, sehingga kita bisa belajar solusi yang wow itu seperti apa.
Bahkan walaupun Anda masih pemula sekali, yang belum bisa koding membuat model sendiri (seperti saya saat menulis artikel ini), membaca ulasan Kaggle sangat berguna untuk mengetahui bagaimana contoh permasalahan data science di dunia nyata (misalnya, dataset di dunia nyata sering terdapat banyak cacat, tidak seperti dataset di kelas MOOC), bagaimana cara berpikir seorang data scientist dalam memecahkan suatu masalah, dan pengetahuan-pengetahuan apa yang harus dipelajari untuk membuat solusinya.
Belajar dengan Membaca Ulasan Kompetisi
Cara terbaik untuk mendapatkan ilmu di Kaggle adalah dengan membaca ulasan orang lain di suatu kompetisi. Semakin banyak ulasan bagus yang dibaca, semakin banyak ide-ide dan ilmu-ilmu yang bisa kita dapatkan.
Menurut saya, tutorial pertama yang bagus untuk dibaca adalah Getting Started with Excel: Kaggle’s Titanic Competition, yang sangat mudah diikuti untuk mengerti workflow “standard” di Kaggle, mulai dari mengunduh dataset kompetisi, menganalisa data, membuat model, sampai men-submit solusi Anda. Anda tidak harus mengerti dengan detil bagaimana cara menggunakan Excel (misalnya bagaimana membuat pivot table). Yang penting Anda mengerti tentang workflow-nya.
Sumber : https://indoml.com/2017/08/22/panduan-menggunakan-kaggle-untuk-pemula/
Komentar
Posting Komentar