Apa Itu Data dan Kenapa AI Sangat Lapar Data?

Ada ungkapan yang beredar luas di kalangan ilmuwan data dan peneliti kecerdasan buatan:

"Data is the new oil."

Data adalah minyak bumi baru.

Kalimat itu pertama kali dipopulerkan oleh matematikawan Inggris Clive Humby pada 2006 — jauh sebelum kebanyakan orang pernah mendengar nama ChatGPT atau memikirkan kemungkinan ngobrol dengan mesin. Namun semakin hari, analogi itu semakin terasa akurat: seperti minyak bumi yang menggerakkan industri abad ke-20, data adalah bahan bakar yang menggerakkan revolusi kecerdasan buatan abad ke-21.

Pertanyaannya kemudian menjadi sangat mendasar: apa sebenarnya yang dimaksud dengan "data"? Dan mengapa sistem AI, sekompleks apapun arsitekturnya, tidak bisa melakukan apapun yang berarti tanpa data dalam jumlah yang sangat besar?

Artikel ini menjawab kedua pertanyaan itu — mulai dari definisi yang paling mendasar hingga implikasi yang paling dalam.

Bagian Pertama: Apa Itu Data?

Definisi yang Lebih Luas dari yang Kamu Bayangkan

Dalam percakapan sehari-hari, kata "data" sering diasosiasikan dengan angka-angka di spreadsheet, atau kuota internet di HP. Kedua asosiasi itu tidak salah, namun jauh dari lengkap.

Dalam konteks yang lebih luas — dan inilah konteks yang relevan ketika membicarakan AI — data adalah representasi terstruktur dari informasi tentang dunia nyata.

Definisi itu mencakup spektrum yang sangat luas:

Sebuah foto selfie yang kamu ambil hari ini adalah data — representasi visual dari cahaya yang dipantulkan objek ke sensor kamera.
Rekaman suaramu saat meninggalkan pesan suara adalah data — representasi digital dari gelombang tekanan udara yang dihasilkan pita suaramu.
Riwayat perjalananmu di Google Maps adalah data — serangkaian koordinat geografis dengan cap waktu yang merekam pergerakanmu.
Artikel berita yang kamu baca adalah data — rangkaian karakter yang membentuk kata, kalimat, dan paragraf.
Detak jantungmu yang direkam smartwatch adalah data — serangkaian pengukuran biologis yang diambil berkali-kali per detik.

Dari foto hingga detak jantung, dari riwayat belanja hingga rekaman percakapan — semua adalah data. Dan di era digital ini, hampir setiap aktivitas manusia meninggalkan jejak data, baik yang disadari maupun tidak.

Tiga Jenis Data yang Perlu Dikenal

Tidak semua data memiliki struktur yang sama, dan perbedaan struktural ini memengaruhi cara AI memprosesnya.

Data Terstruktur Ini adalah data yang tersimpan dalam format yang rapi dan terdefinisi dengan jelas — baris dan kolom seperti dalam spreadsheet atau tabel database.

Contohnya: catatan transaksi perbankan (tanggal, nominal, merchant, kategori), data demografis penduduk (usia, jenis kelamin, kota, pendidikan), atau riwayat pembelian di platform e-commerce.

Data terstruktur mudah dianalisis secara komputasional karena setiap nilainya memiliki posisi dan makna yang jelas. Namun ia hanya mewakili sebagian kecil dari keseluruhan data yang ada di dunia.

Data Tidak Terstruktur Ini adalah mayoritas data yang ada di dunia — dan ironisnya, jenis yang paling sulit diproses secara tradisional namun paling bernilai bagi AI modern.

Foto, video, rekaman audio, teks bebas (artikel, email, percakapan, postingan media sosial), dan dokumen PDF adalah contoh data tidak terstruktur. Tidak ada "kolom" yang mendefinisikan maknanya. Makna harus diekstraksi melalui proses analisis yang jauh lebih kompleks.

Kemampuan AI modern untuk memproses data tidak terstruktur — mengenali objek dalam foto, memahami isi percakapan, menghasilkan teks yang koheren — adalah salah satu pencapaian paling signifikan dalam sejarah ilmu komputer.

Data Semi-Terstruktur Berada di antara keduanya. Email, misalnya, memiliki struktur parsial (header: pengirim, penerima, subjek, tanggal) namun konten utamanya adalah teks bebas. Demikian pula halaman web, yang memiliki tag HTML yang memberikan struktur, namun kontennya sangat bervariasi.

Dari Data Mentah Menjadi Pengetahuan: Sebuah Hierarki

Ada hierarki konseptual yang sering digunakan dalam ilmu informasi untuk memahami transformasi data:

DATA → INFORMASI → PENGETAHUAN → KEBIJAKSANAAN

Data adalah fakta mentah tanpa konteks. Angka 37 adalah data — tidak berarti apa-apa tanpa konteks.

Informasi adalah data yang diberi konteks. Suhu tubuh 37°C pada seorang manusia dewasa adalah informasi — kita sekarang tahu ini adalah suhu tubuh normal.

Pengetahuan adalah informasi yang diintegrasikan dengan pemahaman yang lebih luas. Mengetahui bahwa 37°C normal, namun 39°C menandakan demam yang perlu ditangani, adalah pengetahuan.

Kebijaksanaan adalah kemampuan menerapkan pengetahuan dengan penilaian yang tepat dalam situasi yang kompleks. Memutuskan kapan demam 38,5°C cukup ditangani dengan istirahat dan hidrasi versus kapan perlu segera ke dokter — itulah kebijaksanaan.

AI modern, bahkan yang paling canggih, beroperasi terutama pada level data dan informasi — dengan kemampuan yang semakin meningkat ke arah pengetahuan. Namun kebijaksanaan, dalam pengertian penuh istilah itu, masih menjadi wilayah yang belum terjangkau oleh mesin.

Bagian Kedua: Mengapa AI Sangat Lapar Data?

Ini adalah inti dari pertanyaan yang paling sering diajukan orang ketika pertama kali memahami cara kerja machine learning. Jawabannya berlapis, dan setiap lapisan mengungkapkan sesuatu yang berbeda tentang sifat kecerdasan buatan.

Alasan Pertama: AI Belajar Dari Data, Bukan Tentang Data

Perbedaan preposisi dalam kalimat itu penting.

Seorang dokter yang belajar mendiagnosis penyakit tidak hanya membaca deskripsi penyakit dalam buku teks. Ia menghabiskan tahun-tahun memeriksa pasien nyata, melihat variasi gejala yang tak terbatas, mengamati kasus-kasus yang tidak sesuai teori, dan mengkalibrasi intuisi klinisnya melalui ribuan interaksi langsung.

AI belajar dengan cara yang analog, namun media "pengalamannya" adalah data.

Ketika sebuah sistem AI dilatih untuk mengenali tumor dalam foto MRI, ia tidak "membaca" deskripsi tentang seperti apa tumor itu seharusnya. Ia melihat puluhan ribu foto MRI aktual — dengan berbagai ukuran, posisi, jenis, dan stadium tumor — hingga pola yang membedakannya dari jaringan normal terinternalisasi ke dalam parameter matematika modelnya.

Implikasinya langsung: semakin sedikit data, semakin sedikit "pengalaman" yang bisa dipelajari AI. Sistem yang dilatih dengan seribu foto MRI akan jauh kurang akurat dibanding yang dilatih dengan satu juta foto — bukan karena algoritmanya berbeda, tetapi karena kedalaman "pengalamannya" berbeda.

Alasan Kedua: Dunia Nyata Memiliki Variasi yang Tak Terbatas

Bayangkan kamu ingin melatih AI untuk mengenali tulisan tangan.

Kelihatannya sederhana. Namun kemudian kamu mulai memikirkan variasi yang ada: setiap orang menulis dengan gaya yang berbeda. Satu orang menulis huruf "a" dengan satu cara, orang lain dengan cara yang berbeda. Ada yang tulisannya tegak, ada yang miring. Ada yang tebal, ada yang tipis. Ada tulisan anak-anak yang masih belajar, ada tulisan lansia yang tangannya sudah gemetar. Ada yang ditulis dengan pena, ada dengan pensil, ada dengan spidol di atas berbagai permukaan.

Semua variasi itu harus terwakili dalam data latihan — agar sistem yang dihasilkan mampu mengenali tulisan tangan dalam kondisi nyata, bukan hanya dalam kondisi ideal yang jarang ditemui.

Prinsip ini berlaku untuk hampir setiap tugas yang ingin diselesaikan AI. Dunia nyata jauh lebih kacau, beragam, dan penuh dengan pengecualian dibanding kondisi yang bisa direpresentasikan oleh sedikit contoh. Data yang banyak adalah satu-satunya cara untuk menangkap sebagian dari kekacauan dan keberagaman itu.

Alasan Ketiga: Lebih Banyak Data Menghasilkan Representasi yang Lebih Kaya

Ada konsep dalam machine learning yang disebut feature space — ruang fitur. Secara sederhana, ini adalah semua dimensi informasi yang relevan untuk menyelesaikan suatu tugas.

Untuk memprediksi apakah seseorang akan membeli sebuah produk, feature space-nya mungkin mencakup: usia, jenis kelamin, lokasi, riwayat pembelian sebelumnya, berapa lama ia menghabiskan waktu di halaman produk, jam berapa ia browsing, perangkat apa yang digunakan, berapa kali ia kembali ke halaman yang sama, dan puluhan variabel lainnya.

Dengan sedikit data, model hanya bisa mempelajari hubungan yang paling kasar dan paling jelas antara variabel-variabel ini. Dengan data yang sangat banyak, model mulai menemukan hubungan yang lebih halus, lebih tersembunyi, dan lebih bernuansa — pola yang tidak akan pernah terpikirkan oleh analis manusia.

Inilah salah satu alasan mengapa perusahaan teknologi besar seperti Google, Meta, dan Amazon memiliki keunggulan kompetitif yang sangat sulit disaingi: mereka memiliki akses ke data dalam skala yang tidak bisa ditandingi oleh pemain yang lebih kecil.

Alasan Keempat: Data Adalah Cermin Dari Realitas yang Ingin Dipahami AI

Ini adalah alasan yang paling filosofis namun juga paling fundamental.

AI tidak memiliki akses langsung ke dunia nyata. Ia tidak bisa "melihat" atau "merasakan" apapun secara langsung. Satu-satunya jendela AI menuju dunia adalah data — representasi digital dari realitas.

Konsekuensinya sangat konkret: jika data tidak merepresentasikan realitas dengan akurat, AI akan membangun pemahaman yang salah tentang realitas tersebut.

Contoh yang telah terdokumentasi dengan baik: sistem AI untuk rekrutmen yang dilatih menggunakan data historis keputusan penerimaan karyawan dari perusahaan-perusahaan yang selama puluhan tahun lebih banyak merekrut laki-laki untuk posisi tertentu. Sistem tersebut belajar bahwa "kandidat yang sukses" cenderung berjenis kelamin laki-laki — bukan karena perempuan kurang kompeten, melainkan karena data historis yang menjadi "jendela realita" sistem itu sudah cacat sejak awal.

Fenomena ini dikenal sebagai data bias — dan ini adalah salah satu tantangan terbesar dalam pengembangan AI yang bertanggung jawab.

Bagian Ketiga: Berapa Banyak Data yang Dimaksud "Sangat Banyak"?

Angka-angka berikut mungkin membantu memberikan gambaran tentang skala yang sedang dibicarakan.

GPT-3 — model bahasa besutan OpenAI yang menjadi fondasi ChatGPT versi awal — dilatih menggunakan sekitar 570 gigabyte teks bersih yang diestimasi setara dengan 300 miliar kata. Jika kamu membaca dengan kecepatan rata-rata 250 kata per menit selama 8 jam sehari tanpa henti, dibutuhkan lebih dari 780 tahun untuk membaca semua teks yang menjadi bahan latihan model itu.

ImageNet — dataset yang menjadi tonggak sejarah dalam pengembangan AI pengenalan gambar — berisi lebih dari 14 juta foto yang sudah diberi label secara manual, mencakup lebih dari 20.000 kategori objek.

AlphaFold dari Google DeepMind, yang memecahkan masalah prediksi struktur protein, dilatih menggunakan data dari lebih dari 170.000 struktur protein yang sudah diketahui, yang dikumpulkan dari laboratorium riset di seluruh dunia selama beberapa dekade.

Namun skala itu terus bergerak. Model-model generasi terbaru dilatih dengan data yang jauh lebih besar lagi — dalam skala yang bahkan sulit dikuantifikasi secara publik.

Bagian Keempat: Dari Mana Semua Data Itu Berasal?

Jejak Digital yang Kita Tinggalkan Setiap Hari

Setiap interaksi digital meninggalkan rekam jejak. Setiap pencarian Google, setiap foto yang diunggah, setiap klik pada tautan, setiap detik yang dihabiskan menonton video — semua adalah data yang potensial.

Menurut berbagai estimasi, manusia menghasilkan sekitar 2,5 kuintiliun byte data setiap harinya — angka yang terlalu besar untuk divisualisasikan secara intuitif. Sebagian besar dari data ini dihasilkan tanpa niat eksplisit "untuk keperluan AI" — ia adalah produk sampingan dari aktivitas digital manusia yang kemudian dikumpulkan, dibersihkan, dan dijadikan bahan latihan.

Pengumpulan Data yang Disengaja

Di luar jejak digital yang organik, ada juga upaya pengumpulan data yang sangat disengaja dan sistematis.

Dataset ImageNet, yang sudah disebut sebelumnya, adalah contohnya — dikurasi secara manual selama bertahun-tahun oleh tim peneliti. Demikian pula dataset medis untuk diagnosis kanker, yang mengharuskan ribuan ahli radiologi dan patologi untuk memberi label pada ribuan gambar secara satu per satu.

Ada juga industri yang disebut data labeling — di mana manusia dibayar untuk melabeli data agar bisa digunakan melatih AI. Sebuah industri yang diperkirakan bernilai miliaran dolar dan mempekerjakan jutaan orang di seluruh dunia, namun jarang mendapat perhatian publik dibandingkan AI yang dilatihnya.

Synthetic Data: Ketika Data Dibuat oleh AI untuk AI

Perkembangan terbaru yang menarik adalah penggunaan synthetic data — data yang dibuat secara komputasional, bukan dikumpulkan dari dunia nyata.

Ini memungkinkan pembuatan dataset dalam skala dan variasi yang mustahil dikumpulkan secara manual. Untuk melatih AI kendaraan otonom, misalnya, jauh lebih praktis untuk mensimulasikan jutaan skenario berkendara secara virtual — termasuk skenario berbahaya yang tidak mungkin diuji di jalan nyata — dibanding merekam data dari kendaraan sungguhan.

Namun synthetic data membawa pertanyaannya sendiri: seberapa akurat data buatan merepresentasikan kerumitan dunia nyata?

Bagian Kelima: Data, Privasi, dan Pertanyaan yang Tidak Bisa Dihindari

Diskusi tentang data dan AI tidak lengkap tanpa menyentuh dimensi etis dan sosialnya.

Data Kita Adalah Bahan Bakar Mereka

Sebagian besar data yang melatih AI besar berasal, secara langsung atau tidak langsung, dari aktivitas pengguna internet biasa — termasuk mungkin kamu. Teks yang kamu tulis di forum, foto yang kamu unggah ke media sosial, ulasan produk yang kamu tinggalkan — semua berpotensi menjadi bagian dari dataset yang digunakan untuk melatih model AI komersial.

Ini menimbulkan pertanyaan tentang persetujuan (apakah kamu benar-benar setuju datamu digunakan untuk tujuan ini saat menyetujui syarat layanan yang panjangnya ribuan kata?), kepemilikan (siapa yang berhak atas data yang kamu hasilkan?), dan kompensasi (haruskah pengguna mendapat bagian dari nilai ekonomis yang dihasilkan dari data mereka?).

Pertanyaan-pertanyaan ini belum memiliki jawaban konsensus global, dan sedang menjadi subjek perdebatan hukum, regulasi, dan filosofis di banyak negara.

Kualitas Data Menentukan Kualitas AI

Ada prinsip lama dalam ilmu komputer yang disebut "Garbage In, Garbage Out" — sampah masuk, sampah keluar.

Prinsip ini berlaku dua kali lipat untuk AI. Model yang dilatih dengan data yang tidak akurat, tidak representatif, atau penuh bias akan menghasilkan sistem yang tidak akurat, tidak representatif, dan penuh bias — sering kali dengan tingkat kepercayaan diri yang tinggi.

Ini adalah salah satu alasan mengapa proses data preprocessing — pembersihan, validasi, dan kurasi data sebelum digunakan untuk melatih model — menghabiskan proporsi waktu yang sangat besar dalam pekerjaan ilmuwan data. Diperkirakan hingga 80 persen waktu seorang data scientist dihabiskan untuk mempersiapkan data, bukan untuk membangun model.

Regulasi Data yang Terus Berkembang

Menyadari implikasi luas dari pengumpulan dan penggunaan data dalam skala besar, berbagai yurisdiksi mulai mengembangkan kerangka regulasi yang lebih ketat.

GDPR (General Data Protection Regulation) di Uni Eropa, yang mulai berlaku pada 2018, menetapkan standar ketat tentang bagaimana data pribadi dikumpulkan, disimpan, dan digunakan. Di Indonesia, Undang-Undang Perlindungan Data Pribadi yang disahkan pada 2022 mengikuti arah yang serupa.

Regulasi-regulasi ini mencerminkan kesadaran yang berkembang bahwa data bukan sekadar komoditas teknis — ia adalah representasi dari kehidupan dan identitas manusia, dan karenanya memerlukan perlindungan yang serius.

Penutup: Data Sebagai Fondasi, Bukan Segalanya

Kembali ke analogi minyak bumi di awal artikel ini.

Minyak bumi adalah bahan bakar yang sangat berharga — namun ia tidak secara otomatis menghasilkan kemakmuran bagi siapapun yang memilikinya. Ia membutuhkan infrastruktur untuk diekstraksi, kilang untuk dimurnikan, jaringan distribusi untuk disalurkan, dan mesin yang tepat untuk mengkonversinya menjadi energi yang berguna.

Data bekerja dengan cara yang sama.

Data mentah dalam jumlah sebesar apapun tidak menghasilkan kecerdasan buatan secara otomatis. Ia membutuhkan infrastruktur komputasi untuk diproses, algoritma yang tepat untuk dianalisis, ilmuwan yang kompeten untuk menginterpretasikan hasilnya, dan pertanyaan yang tepat untuk dijawab.

Yang membuat data benar-benar berharga bukan kuantitasnya semata, melainkan kualitasnya, relevansinya terhadap masalah yang ingin dipecahkan, dan — yang semakin penting seiring perkembangan teknologi ini — cara ia dikumpulkan dan digunakan secara etis dan bertanggung jawab.

AI yang benar-benar bermanfaat bagi masyarakat luas bukan hanya AI yang dilatih dengan data terbanyak. Ia adalah AI yang dilatih dengan data yang tepat, untuk tujuan yang tepat, dengan mempertimbangkan dampaknya terhadap semua pihak yang terlibat — termasuk mereka yang datanya menjadi bahan bakar dari sistem tersebut.

Artikel ini merupakan bagian dari seri edukatif tentang kecerdasan buatan untuk pembaca umum. Untuk membangun pemahaman yang lebih lengkap, disarankan membaca artikel-artikel terkait dalam urutan yang tersedia.

Artikel Terkait:

Apa Itu Kecerdasan Buatan? Kenalan Dulu Sebelum Ketinggalan Zaman!
Bagaimana AI Bisa "Belajar"? Mengenal Machine Learning dengan Analogi Sederhana
Bedanya AI, Machine Learning, dan Deep Learning — Dijelaskan Tanpa Istilah Ribet
AI Itu Pintar atau Sekadar Pintar-Pintaran? Ini Faktanya
10 Contoh AI yang Tanpa Sadar Sudah Kamu Pakai Setiap Hari