I. PENDAHULUAN
Pendidikan adalah salah satu sektor yang menjadi perhatian
khusus pemerintah dari masa ke masa. Di setiap pergantian kekuasaan sektor ini
tak luput dari perubahan kebijakan. Sudah beberapa kali pendidikan di Indonesia
mengalami perubahan kurikulum, bahkan yang teranyar kurikulum 2013 dibatalkan
untuk sebagian sekolah karena dinilai kurang tepat. Sudah saatnya pemerintah
dan sekolah-sekolah mencoba menggandeng teknologi dalam permasalahannya ini.
Salah satu teknologi yang sekiranya dapat membantu adalah analisis big data.
Di beberapa sektor seperti pemasaran, big data memungkinkan iklan dapat
menyasar pengguna tepat sasaran berkat analisis data-data personal pengguna.
Di sektor pendidikan hal semacam ini harusnya bisa menjadi
solusi untuk mengatasi kesenjangan pendidikan yang selama ini terjadi. Tak
dapat dipungkiri pendidikan di Indonesia bermasalah dengan kesenjangan kualitas
cukup tinggi di beberapa daerah-daerah. Mungkin ini salah satu alasan Indonesia
menerapkan ujian nasional dengan sebagai standar kelulusan, meski pada
pemerintahan yang berkuasa sekarang kebijakan ini sedikit diubah berkat masukan
dari beberapa pihak. Satu kata kunci yang bisa diambil dari sini adalah
personalisasi. Setiap daerah, setiap
sekolah, bahkan setiap anak mempunyai permasalahan yang berbeda-beda.
Agak sedikit memaksakan memang jika pada akhirnya kebijakan atau metode
pembelajaran yang diterapkan digeneralisir untuk semua pihak. Kasus iklan yang
tepat sasaran bisa dijadikan contoh bagaimana seharusnya metode pembelajaran
bisa dengan tepat menyasar siswa-siswa sesuai dengan permasalahan dan
kebutuhannya masing-masing. Teknologi tak hanya mengubah kertas menjadi berkas
digital. Big data secara khusus mampu memberikan analisis dan insight
dari data-data yang pada akhirnya digunakan untuk menunjang perumusan suatu
kebijakan atau solusi.
II.
PEMBAHASAN
Bagaimana penerapan big data di bidang pendidikan
Tentu masih segar di ingatan kita tentang rencana pemerintah
Indonesia mengganti buku pelajaran dengan
tablet. Rencana
ini bisa menjadi sebuah langkah awal untuk masuknya teknologi big data di
sektor pendidikan. Dengan asumsi satu siswa menggunakan satu buah tablet
kemungkinan untuk memantau siswa bisa lebih secara personal. Selain berfungsi
sebagai buku, tablet tersebut juga bisa menjadi media untuk mengerjakan tugas
atau soal-soal ujian. Di sinilah nantinya big data mengambil peran.
Data-data hasil pengerjaan tugas dapat diambil dan
dianalisis secara lebih personal.
Dengan data tersebut selain hasil atau nilai akhir, pendidik
atau orang tua bisa mengetahui apa saja yang telah dipelajari serta
kendala-kendala dalam proses belajar siswa secara lebih rinci. Di New York dan Washington, inisiatif seperti ini sudah diberitakan sejak tahun lalu, meski banyak
menuai pro dan kontra tentang adanya isu pelanggaran privasi. Selain
menghasilkan data yang lebih mendetil, penerapan
teknologi big data juga dapat dibarengi dengan analisis prediktif untuk
menentukan pembelajaran seperti apa yang cocok untuk setiap masing-masing siswa.
Rekam jejak seperti soal apa yang dikerjakan, soal mana yang menjadi
permasalahan serta pola jawaban dari siswa dapat dikumpulkan dan dirumuskan
menjadi sebuah standar untuk memberikan sebuah metode pembelajaran yang lebih
baik. Tentu ini semua tidak mudah, tapi tidak pula mustahil. Tak ada salahnya
menggantungkan masa depan pendidikan kita pada teknologi. Toh pada dasarnya
teknologi diciptakan untuk mempermudah segala urusan manusia. Khusus untuk
sektor pendidikan yang mempunyai masalah tentang perbedaan kebutuhan
pendidikan, saya rasa big data menjadi salah satu jalan keluar yang pas.
Konsep
Big Data
Di
berbagai organisasi, terminologi “data science”, “big data”, dan “hadoop”
seakan sudah menjadi setali tiga uang. Kita akan jarang mendengar suatu diskusi
atau pembicaraan tentang salah satunya tanpa disertai yang lainnya. Kalau
melihat dari trend, data science adalah sebuah terminologi yang mulai ngetrend
di tahun 2013; ketika Hadoop dan big data sudah menjadi buzzword di berbagai
organisasi. Kita bisa melihat hal tersebut dari google search trend.

Dari
grafik search trend yang sama, bisa kita lihat bahwa popularitas Hadoop sangat
berhubungan erat dengan popularitas big data dan data science. Karena ini
adalah blog yang berhubungan dengan statistik, saya tidak bisa mengatakan bahwa
popularitas Hadoop menyebabkan popularitas kedua term lainnya. Namun, saya bisa
mengatakan bahwa popularitas Hadoop memiliki korelasi yang positif terhadap
kedua term tersebut.
Artikel ini akan fokus dalam membahas big data. Hadoop akan di bahas di
artikel lainnya di blog ini. Jadi, jangan lupa bookmark blog ini dan cek update
artikelnya 1-2 minggu sekali. Sebelum membaca artikel ini, saya menyarankan
kamu baca artikel ini dulu:
Untuk
kamu yang sudah mulai membaca artikel ini, tapi belum punya gambaran data
science itu makhluk seperti apa, berikut saya copy-paste definisinya dari
Wikipedia,
“Data Science is
the extraction of knowledge from large volumes of data that are structured or
unstructured, which is a continuation of the field data mining and predictive
analytics, also known as knowledge discovery and data mining (KDD).”
Apa itu Big Data?

Banyak yang telah
mencoba memberikan definisi terhadap big data. Dari Wikipedia:
“Big data is a
broad term for data sets so large or complex that traditional data processing
applications are inadequate. Challenges include analysis, capture, data
curation, search, sharing, storage, transfer, visualization, and information
privacy.”
Sedangkan definisi
big data dari Gartner,
“Big data is
high-volume, high-velocity and high-variety information assets that demand
cost-effective, innovative forms of information processing for enhanced insight
and decision making.”
Mana yang benar?
Mana yang salah? Saya pikir, masih terlalu dini untuk “mengkafirkan” atau
“mengkultuskan” definisi-definisi big data yang muncul sekarang ini. Tidak ada
yang salah. Saya pribadi lebih menyukai definisi big data dari perusahaan yang
memperkerjakan saya, Teradata, dan partnernya, Hortonworks. Menurut saya,
definisi tersebut menggambarkan big data dengan lebih simple, namun akurat.
Definisi big data
dari Teradata dan Hortonworks kira-kira seperti ini kalau dalam bahasa
Indonesia,
“Big Data adalah
gerakan atau inisiatif organisasi-organisasi untuk mengambil, menyimpan,
memroses, dan menganalisa data-data yang sebelumnya tidak memungkinkan atau
tidak ekonomis untuk diambil, disimpan, diproses, dan dianalisa.”
Big Data dengan
Google Cloud Platform (Part-1)
Seperti
biasa kali ini posting dalam bahasa Indonesia untuk menghoprmati mayoritas
pengunjung yang berasal dari Indonesia. Post kali ini membahas tentang salah
satu cloud computing service. Kalau sebelumnya beberapa kali saya membahas
Amazon Web Service dari Amazon. Maka sekarang saya akan membahas tentang Google
Cloud Platform dari Google.

Google
sebenernya boleh dibilang agak terlambat dibanding Amazon dalam menyediakan
jasa cloud computing mereka. Tetapi dengan dukungan popularitas dan teknologinya,
akhirnya Google mulai menyusul Amazon di industri cloud computing. Kesan
pertama ketika mencoba Google Cloud Platform maka yang terasa adalah sedikitnya
layanan atau service dibandingkan dengan AWS. Kita akan bahas beberapa di
post ini dan sisanya di post berikutnya: Google Compute Engine (GCE)
kurang lebih sama dengan Amazon EC2. Ini adalah layanan Virtual Private Server
di Google Cloud Platform. Atau orang disebut Infrastructure As A Service.
Banyak persamaan diantaranya ya seerti kita instansiasi server saja di AWS.
Kita harus setting sendiri alikasi-aplikasi yang kita perlukan di server
seperti misalnya web server, database dan sebagainya. Nah sekarang
perbedaannya, GCE dihitung per menit dan bukan per jam seperti EC2. Kecuali
pada 10 menit pertama dimana dihitung er 10 menitan, selanjutnya billing GCE
adalah per menit. Hal ini menjadikan GCE bisa lebih ekonomis. Sebenernya harga
per jam-nya GCE memang lebih ekonomis dibanding EC2 (dengan membandingkan
server yang spesifikasinya kurang lebih sama), tetapi kalau perjam tidak
terlalu terasa perbedaannya meskipun GCE lebih murah. Kelebihan lainnya adalah
storage space yang bisa dipilih antara HDD atau SSD dengan pilihan space yang
beragam. Di EC2 ada memang EBS dan sebagainya tetapi GCE lebih mudah dicerna
dibandingkan penjelasan di AWS.
Google App Engine (GAE) adalah service
yang tidak ada padanannya dengan AWS. Ini adalah Platform As A Service.
Disini kita tidak perlu menginisiasi server dan instalasi perangkat pendungkung
aplikasi seperti web server atau database karena sudah disediakan oleh GAE.
Karena sudah disediakan inilah GAE menjadi hanya terbatas pada beberapa
teknologi. Sampai saat post ini ditulis hanya Java, Python. GO dan PHP yang
didukung di GAE. Dengan GAE ini ada free-tier dimana kita bisa gunakan dulu
gratisan dan jika nanti traffiknya melebihi batas free-tier maka bisa kita
tingkatkan ke yang berbayar dan GAE akan otomatis menyesuaikan sumber daya yang
ada untuk melayani trafik yang meningkat.
Selanjutnya
adalah Google CLoud SQL (GCSQL). Layanan ini padanan dari AWS
adalah RDS. Bedanya adalah GCSQL adalah menggunakan MySQL dimana RDS di AWS
bisa menggunakan beberapa pilihan seperti MySQL, Postgresql, dll. Selain
itu kurang lebih sama seperti auto-scale dan sebagainya.
Masih dalam hal
storage, berikutnya adalah Google CLoud Storage (GCS), padanan
di AWS ini adalah AWS S3. Kedua layanan ini kurang lebih sangat sama kecuali
paling di cara mengaksesnya karena memang API-nya sedikit berbeda tapi
sama-sama mudahnya. Salah satu yang cukup dibanggakan Google adalah koneksi
antar data center mereka diseluruh dunia adalah menggunakan jaringan milik
Google sendiri dan bukan melalui jalur internet seperti AWS sehingga lebih
terjaga dan lebih cepat. Saya pribadi tidak melihat perbedaan siginifikan dalam
hal ini.
Satu lagi di
bidang storage atau basis data adalah Google Cloud Datastore (GCD).
Padanan layanan ini di AWS adalah AWS DynamoDB. GCD adalah untuk NoSQL database
dimana digunakan untuk menyimpan Non-Relational data. GCD mempunypa ipnterface query
SQL sehingga memudahkan dalam pengoperasiannya.
Big Data dengan Google Cloud Platform (Part-2 end)
Post kali ini
masih tentang big data dengan menggunakan Google Cloud Platform. Kalau pada
posting sebelumnya tidak terkait langsung dengan big data, tetapi tetap sangat
penting untuk sistem big data, maka posting kali ini adalah komonen GCE yang
berhubungan langsung dengan Big Data.

Bagi yang
mengikuti sejarah Big Data, pasti mengetahui bahwa Hadoop, yang merupakan
sistem de facto dari bigdata, merupakan hasil reverse engineering dari paper
big data Google. Hal ini menunjukkan bahwa Google adalah perusahaan yang cukup
mau di bidang big data. Karena itu komponen big data yang mereka gunakan di
google cloud platform pasti benar-benar bagus.
Komponen pertama
yang kita bahas adalah Google Big Query (GBQ). GBQ ini
ekuivalen dengan Elastic Map Reduce-nya (EMR) AWS. Fungsinya adalah melakukan
pemrosesan dan analisis data. Data-data ini biasanya disimpan di Amazon Cloud
Storage sama seperti halnya EMR Amazon yang menganalisis data dari Amazon S3.
Konsepnya juga sama dimana ada program ‘map reduce’ yang kita jalankan di GBQ,
dimana GBQ akan mengalokasikan CPU yang dibutuhkan untuk mengeksekusi program
map-reduce tersebut.
Yang kedua adalah Google
Cloud Dataflow (GCD). Produk yang paling mendekati GCD menurut saya
adalah apache Oozie dimana kita bisa menjadwalkan suatu proses yang mirip
dengan pipeline. GCD bisa mengatur proses apa saja yang harus berjalan
dan kapan proses tersebut harus dilakukan. Service Big Data terakhir yang
dibahas di posting kali ini adalah Google Cloud Pub/Sub (GCP/S). Ini adalah layanan messaging untuk
big data. Layanan ini miri dengan apache kafka atau Elastic Messaging Service
(EMS) dari Amazon. Fungsinya adalah menerima message dari Publishers,
memasukkannya ke Queue dan memberikan message tersebut kepada Subscriber.
Tidak ada komentar:
Posting Komentar