Dalam dunia pemrograman seperti NLP (Natural Language Processing), stopwords merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti. Karakteristik utama dalam pemilihan stopwords biasanya adalah kata yang mempunyai frekuensi kemunculan yang tinggi misalnya kata penghubung seperti “dan”, “atau”, “tapi”, “akan” dan lainnya. Tujuan utama dalam penerapan proses stopwords ini adalah mengurangi jumlah kata dalam sebuah dokumen yang nantinya akan berpengaruh dalam kecepatan dan performa NLP. 

Ananda Kusumawardana, mahasiswa program studi informatika Fakultas Teknologi Informasi Universitas Kristen Duta Wacana (UKDW) angkatan 2017 mulai menekuni hal ini setelah mengikuti kegiatan seminar mengenai NLP yang diberikan oleh Jennifer Dodgson selaku CEO Lexikat pada hari Jumat, 13 Maret 2020. Lexikat adalah sebuah startup yang bergerak di bidang pemrosesan bahasa natural dengan penggunaan text analytics di dalam data yang didapatkan dari berbagai sumber data dan platform seperti data teks dari kolom-kolom komentar, cuitan-cuitan netizen di twitter, dan berbagai sumber unggahan berupa opini atau pandangan terhadap suatu hal. Tujuan pemrosesan ini adalah untuk memperoleh hasil analisis opini dari pengguna platform atau yang biasa disebut sentiment analysis. Sentiment analysis dapat berupa persentase sentimen positif, negatif, atau netral. Tidak hanya itu, beberapa pengguna juga menginginkan keluaran yang dihasilkan berupa representasi visual dari data teks atau nama lainnya seperti word plot. Namun, perangkat ini baru tersedia di Lexikat dalam bahasa Inggris dan Mandarin. 

Setelah berbincang dengan Jennifer, Ananda setuju untuk secara sukarela membuat stopwords bahasa Indonesia dalam waktu 1 bulan. Stopwords buatannya dibangun menggunakan teknologi dalam bahasa pemrograman Python dan berbekal rumus yang digunakan saat pembelajaran di perkuliahan. Pengembangan stopwords bukanlah hal yang mudah untuk dilakukan. Nanda harus melakukan research lebih lanjut mengenai bahan yang digunakan seperti literatur, berita dan jurnal dalam bahasa Indonesia. Nanda juga harus dapat membagi waktunya dalam pengerjaan proyek ini. Mahasiswa yang juga aktif mengikuti forum online Cyber Security ini akhirnya mengirimkan stopwords buatannya kepada Lexikat sebagai salah satu bukti minatnya untuk bekerja dan melakukan kegiatan magang di Lexikat. Berawal dari mencoba agar memperoleh pengetahuan, stopwords Bahasa Indonesia miliknya mendapatkan feedback baik dari Jennifer dan karyanya tersebut telah dibeli oleh Lexikat sebagai bentuk apresiasi dari hasil kerja kerasnya. 

Ananda berkata bahwa pengembangan stopwords bahasa Indonesia miliknya akan terus dikembangkan jika ada kesempatan di lain waktu karena untuk saat ini sebagian besar waktunya ia gunakan untuk mengikuti perkuliahan online dan pelatihan online di Digital Talent Scholarship-Online Academy (OA) pada bidang Cyber Operations Specialist. Ananda juga berpesan kepada para mahasiswa untuk mengambil dan mencoba semua kesempatan yang ada, terutama dalam dunia teknologi informasi. “Teknologi akan terus berkembang sepanjang waktu. Mahasiswa harus dapat mencari informasi sendiri dan belajar secara otodidak. Dari sanalah kita mungkin akan mendapatkan banyak kesempatan untuk belajar dan mencoba hal baru yang mungkin tidak didapatkan saat pembelajaran di perkuliahan,” ujarnya. 

Pin It on Pinterest

Share This