KBRT - Kalian sempat mendengar bahwa Indonesia masuk dalam low resource language tapi tidak paham maknanya? Tenang saja, kami akan mengulas untuk kalian apa arti dari low resource language.
Untuk membangun Natural Language Processing (NLP) dan pembelajaran mesin atau AI, hal yang sangat penting dalam proses tersebut adalah banyaknya data dalam suatu bahasa.
Dalam konteks ini, low resource language merupakan sebuah bahasa yang memiliki sumber daya data yang rendah. Bahasa-bahasa yang dinilai masuk kedalam low resource language, dikatakan tidak memiliki sumber daya linguistik yang cukup untuk digunakan dalam proses machine learning.
Di dunia sendiri, terdapat lebih dari 7000 bahasa yang digunakan dan di antara banyaknya bahasa tersebut, tercatat hanya terdapat sekitar 20 bahasa yang dinilai memiliki korpus teks berisi ratusan juta kata salah satunya adalah bahasa Inggris.
Berbeda dengan bahasa Inggris yang menjadi bahasa dengan jumlah data terbesar, bahasa Indonesia tidak memiliki data sebesar bahasa-bahasa lain.
Karena pada dasarnya, bahasa yang digunakan di Asia dan Afrika memiliki data linguistik yang sedikit. Oleh karena itu, bahasa-bahasa yang ada pada benua tersebut tidak efektif untuk digunakan sebagai bahasa dalam proses machine learning.
Sebagian dari kalian mungkin bertanya-tanya kenapa bahasa yang digunakan lebih banyak orang bisa memiliki data yang lebih kecil? Hal tersebut, berkaitan dengan bagaimana dataset sebenarnya dibuat.
Seperti yang kita tahu, sebuah bahasa memiliki jutaan bahkan miliaran kalimat. Untuk membuat data dari setiap kalimat secara manual, tentu saja bukan hal yang efisien.
Solusi dari hal tersebut, adalah mengambil data kalimat dari internet. Namun, yang menjadi suatu masalah adalah dalam bahasa apa orang-orang menulis di internet.
Seperti yang kita ketahui bersama, tentunya bahasa inggris memiliki sebaran lebih luas di internet ketimbang bahasa-bahasa lainnya.
Hal tersebutlah, yang menentukan banyaknya data linguistik dari sebuah bahasa. Meskipun, bahasa lain memiliki kata dan penutur yang lebih banyak, bukan berarti bahwa bahasa tersebut memiliki lebih banyak data linguistik dari bahasa-bahasa lain.
Kabar Trenggalek - Edukasi
Editor: Zamz















