Selasa, 03 Mei 2016

PEMBELAJARAN BIG DATA








I. PENDAHULUAN
Pendidikan adalah salah satu sektor yang menjadi perhatian khusus pemerintah dari masa ke masa. Di setiap pergantian kekuasaan sektor ini tak luput dari perubahan kebijakan. Sudah beberapa kali pendidikan di Indonesia mengalami perubahan kurikulum, bahkan yang teranyar kurikulum 2013 dibatalkan untuk sebagian sekolah karena dinilai kurang tepat. Sudah saatnya pemerintah dan sekolah-sekolah mencoba menggandeng teknologi dalam permasalahannya ini. Salah satu teknologi yang sekiranya dapat membantu adalah analisis big data. Di beberapa sektor seperti pemasaran, big data memungkinkan iklan dapat menyasar pengguna tepat sasaran berkat analisis data-data personal pengguna.
Di sektor pendidikan hal semacam ini harusnya bisa menjadi solusi untuk mengatasi kesenjangan pendidikan yang selama ini terjadi. Tak dapat dipungkiri pendidikan di Indonesia bermasalah dengan kesenjangan kualitas cukup tinggi di beberapa daerah-daerah. Mungkin ini salah satu alasan Indonesia menerapkan ujian nasional dengan sebagai standar kelulusan, meski pada pemerintahan yang berkuasa sekarang kebijakan ini sedikit diubah berkat masukan dari beberapa pihak. Satu kata kunci yang bisa diambil dari sini adalah personalisasi. Setiap daerah, setiap sekolah, bahkan setiap anak mempunyai permasalahan yang berbeda-beda. Agak sedikit memaksakan memang jika pada akhirnya kebijakan atau metode pembelajaran yang diterapkan digeneralisir untuk semua pihak. Kasus iklan yang tepat sasaran bisa dijadikan contoh bagaimana seharusnya metode pembelajaran bisa dengan tepat menyasar siswa-siswa sesuai dengan permasalahan dan kebutuhannya masing-masing. Teknologi tak hanya mengubah kertas menjadi berkas digital. Big data secara khusus mampu memberikan analisis dan insight dari data-data yang pada akhirnya digunakan untuk menunjang perumusan suatu kebijakan atau solusi.
II. PEMBAHASAN
Bagaimana penerapan big data di bidang pendidikan
Tentu masih segar di ingatan kita tentang rencana pemerintah Indonesia mengganti buku pelajaran dengan tablet. Rencana ini bisa menjadi sebuah langkah awal untuk masuknya teknologi big data di sektor pendidikan. Dengan asumsi satu siswa menggunakan satu buah tablet kemungkinan untuk memantau siswa bisa lebih secara personal. Selain berfungsi sebagai buku, tablet tersebut juga bisa menjadi media untuk mengerjakan tugas atau soal-soal ujian. Di sinilah nantinya big data mengambil peran.
Data-data hasil pengerjaan tugas dapat diambil dan dianalisis secara lebih personal.
Dengan data tersebut selain hasil atau nilai akhir, pendidik atau orang tua bisa mengetahui apa saja yang telah dipelajari serta kendala-kendala dalam proses belajar siswa secara lebih rinci. Di New York dan Washington, inisiatif seperti ini sudah diberitakan sejak tahun lalu, meski banyak menuai pro dan kontra tentang adanya isu pelanggaran privasi. Selain menghasilkan data yang lebih mendetil, penerapan teknologi big data juga dapat dibarengi dengan analisis prediktif untuk menentukan pembelajaran seperti apa yang cocok untuk setiap masing-masing siswa. Rekam jejak seperti soal apa yang dikerjakan, soal mana yang menjadi permasalahan serta pola jawaban dari siswa dapat dikumpulkan dan dirumuskan menjadi sebuah standar untuk memberikan sebuah metode pembelajaran yang lebih baik. Tentu ini semua tidak mudah, tapi tidak pula mustahil. Tak ada salahnya menggantungkan masa depan pendidikan kita pada teknologi. Toh pada dasarnya teknologi diciptakan untuk mempermudah segala urusan manusia. Khusus untuk sektor pendidikan yang mempunyai masalah tentang perbedaan kebutuhan pendidikan, saya rasa big data menjadi salah satu jalan keluar yang pas.
Konsep Big Data
Di berbagai organisasi, terminologi “data science”, “big data”, dan “hadoop” seakan sudah menjadi setali tiga uang. Kita akan jarang mendengar suatu diskusi atau pembicaraan tentang salah satunya tanpa disertai yang lainnya. Kalau melihat dari trend, data science adalah sebuah terminologi yang mulai ngetrend di tahun 2013; ketika Hadoop dan big data sudah menjadi buzzword di berbagai organisasi. Kita bisa melihat hal tersebut dari google search trend.
http://datascience.or.id/content/images/2015/08/Capture.PNG
Dari grafik search trend yang sama, bisa kita lihat bahwa popularitas Hadoop sangat berhubungan erat dengan popularitas big data dan data science. Karena ini adalah blog yang berhubungan dengan statistik, saya tidak bisa mengatakan bahwa popularitas Hadoop menyebabkan popularitas kedua term lainnya. Namun, saya bisa mengatakan bahwa popularitas Hadoop memiliki korelasi yang positif terhadap kedua term tersebut.
Artikel ini akan fokus dalam membahas big data. Hadoop akan di bahas di artikel lainnya di blog ini. Jadi, jangan lupa bookmark blog ini dan cek update artikelnya 1-2 minggu sekali. Sebelum membaca artikel ini, saya menyarankan kamu baca artikel ini dulu:
Untuk kamu yang sudah mulai membaca artikel ini, tapi belum punya gambaran data science itu makhluk seperti apa, berikut saya copy-paste definisinya dari Wikipedia,
“Data Science is the extraction of knowledge from large volumes of data that are structured or unstructured, which is a continuation of the field data mining and predictive analytics, also known as knowledge discovery and data mining (KDD).”



Apa itu Big Data?
http://datascience.or.id/content/images/2015/08/ibm-big-data.PNG
Banyak yang telah mencoba memberikan definisi terhadap big data. Dari Wikipedia:
“Big data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, and information privacy.”
Sedangkan definisi big data dari Gartner,
“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.”
Mana yang benar? Mana yang salah? Saya pikir, masih terlalu dini untuk “mengkafirkan” atau “mengkultuskan” definisi-definisi big data yang muncul sekarang ini. Tidak ada yang salah. Saya pribadi lebih menyukai definisi big data dari perusahaan yang memperkerjakan saya, Teradata, dan partnernya, Hortonworks. Menurut saya, definisi tersebut menggambarkan big data dengan lebih simple, namun akurat.
Definisi big data dari Teradata dan Hortonworks kira-kira seperti ini kalau dalam bahasa Indonesia,
“Big Data adalah gerakan atau inisiatif organisasi-organisasi untuk mengambil, menyimpan, memroses, dan menganalisa data-data yang sebelumnya tidak memungkinkan atau tidak ekonomis untuk diambil, disimpan, diproses, dan dianalisa.”
Big Data dengan Google Cloud Platform (Part-1)
Seperti biasa kali ini posting dalam bahasa Indonesia untuk menghoprmati mayoritas pengunjung yang berasal dari Indonesia. Post kali ini membahas tentang salah satu cloud computing service. Kalau sebelumnya beberapa kali saya membahas Amazon Web Service dari Amazon. Maka sekarang saya akan membahas tentang Google Cloud Platform dari Google.
gcp-header-logo
Google sebenernya boleh dibilang agak terlambat dibanding Amazon dalam menyediakan jasa cloud computing mereka. Tetapi dengan dukungan popularitas dan teknologinya, akhirnya Google mulai menyusul Amazon di industri cloud computing. Kesan pertama ketika mencoba Google Cloud Platform maka yang terasa adalah sedikitnya  layanan atau service dibandingkan dengan AWS. Kita akan bahas beberapa di post ini dan sisanya di post berikutnya: Google Compute Engine (GCE) kurang lebih sama dengan Amazon EC2. Ini adalah layanan Virtual Private Server di Google Cloud Platform. Atau orang disebut Infrastructure As A Service. Banyak persamaan diantaranya ya seerti kita instansiasi server saja di AWS. Kita harus setting sendiri alikasi-aplikasi yang kita perlukan di server seperti misalnya web server, database dan sebagainya. Nah sekarang perbedaannya, GCE dihitung per menit dan bukan per jam seperti EC2. Kecuali pada 10 menit pertama dimana dihitung er 10 menitan, selanjutnya billing GCE adalah per menit. Hal ini menjadikan GCE bisa lebih ekonomis. Sebenernya harga per jam-nya GCE memang lebih ekonomis dibanding EC2 (dengan membandingkan server yang spesifikasinya kurang lebih sama), tetapi kalau perjam tidak terlalu terasa perbedaannya meskipun GCE lebih murah. Kelebihan lainnya adalah storage space yang bisa dipilih antara HDD atau SSD dengan pilihan space yang beragam. Di EC2 ada memang EBS dan sebagainya tetapi GCE lebih mudah dicerna dibandingkan penjelasan di AWS.
Google App Engine (GAE) adalah service yang tidak ada padanannya dengan  AWS. Ini adalah Platform As A Service. Disini kita tidak perlu menginisiasi server dan instalasi perangkat pendungkung aplikasi seperti web server atau database karena sudah disediakan oleh GAE. Karena sudah disediakan inilah GAE menjadi hanya terbatas pada beberapa teknologi. Sampai saat post ini ditulis hanya Java, Python. GO dan PHP yang didukung di GAE. Dengan GAE ini ada free-tier dimana kita bisa gunakan dulu gratisan dan jika nanti traffiknya melebihi batas free-tier maka bisa kita tingkatkan ke yang berbayar dan GAE akan otomatis menyesuaikan sumber daya yang ada untuk melayani trafik yang meningkat.
Selanjutnya adalah Google CLoud SQL (GCSQL). Layanan ini padanan dari AWS adalah RDS. Bedanya adalah GCSQL adalah menggunakan MySQL dimana RDS di AWS bisa menggunakan beberapa pilihan seperti MySQL, Postgresql, dll.  Selain itu kurang lebih sama seperti auto-scale dan sebagainya.
Masih dalam hal storage, berikutnya adalah Google CLoud Storage (GCS), padanan di AWS ini adalah AWS S3. Kedua layanan ini kurang lebih sangat sama kecuali paling di cara mengaksesnya karena memang API-nya sedikit berbeda tapi sama-sama mudahnya. Salah satu yang cukup dibanggakan Google adalah koneksi antar data center mereka diseluruh dunia adalah menggunakan jaringan milik Google sendiri dan bukan melalui jalur internet seperti AWS sehingga lebih terjaga dan lebih cepat. Saya pribadi tidak melihat perbedaan siginifikan dalam hal ini.
Satu lagi di bidang storage atau basis data adalah Google Cloud Datastore (GCD). Padanan layanan ini di AWS adalah AWS DynamoDB. GCD adalah untuk NoSQL database dimana digunakan untuk menyimpan Non-Relational data. GCD mempunypa ipnterface query SQL sehingga memudahkan dalam pengoperasiannya.

Big Data dengan Google Cloud Platform (Part-2 end)

Post kali ini masih tentang big data dengan menggunakan Google Cloud Platform. Kalau pada posting sebelumnya tidak terkait langsung dengan big data, tetapi tetap sangat penting untuk sistem big data, maka posting kali ini adalah komonen GCE yang berhubungan langsung dengan Big Data.
gcp-header-logo
Bagi yang mengikuti sejarah Big Data, pasti mengetahui bahwa Hadoop, yang merupakan sistem de facto dari bigdata, merupakan hasil reverse engineering dari paper big data Google. Hal ini menunjukkan bahwa Google adalah perusahaan yang cukup mau di bidang big data. Karena itu komponen big data yang mereka gunakan di google cloud platform pasti benar-benar bagus.
Komponen pertama yang kita bahas adalah Google Big Query (GBQ). GBQ ini ekuivalen dengan Elastic Map Reduce-nya (EMR) AWS. Fungsinya adalah melakukan pemrosesan dan analisis data. Data-data ini biasanya disimpan di Amazon Cloud Storage sama seperti halnya EMR Amazon yang menganalisis data dari Amazon S3. Konsepnya juga sama dimana ada program ‘map reduce’ yang kita jalankan di GBQ, dimana GBQ akan mengalokasikan CPU yang dibutuhkan untuk mengeksekusi program map-reduce tersebut.
Yang kedua adalah Google Cloud Dataflow (GCD). Produk yang paling mendekati GCD menurut saya adalah apache Oozie dimana kita bisa menjadwalkan suatu proses yang mirip dengan pipeline. GCD bisa mengatur proses apa saja yang harus berjalan dan kapan proses tersebut harus dilakukan. Service Big Data terakhir yang dibahas di posting kali ini adalah Google Cloud Pub/Sub (GCP/S). Ini adalah layanan messaging untuk big data. Layanan ini miri dengan apache kafka atau Elastic Messaging Service (EMS) dari Amazon. Fungsinya adalah menerima message dari Publishers, memasukkannya ke Queue dan memberikan message tersebut kepada Subscriber.

Tidak ada komentar:

Posting Komentar