Pangkalan Data Korpus

Pangkalan Data Korpus terdiri daripada Sistem Korpus dan Data Korpus. 

Sistem Korpus

Sistem Korpus merupakan perisian yang dibangunkan oleh kumpulan penyelidik Unit Terjemahan Melalui Komputer di Universiti Sains Malaysia dalam rangka kerjasama USM-DBP berlandaskan Memorandum Persefahaman yang termeterai pada 1993.

Sistem korpus ini dilengkapi kemudahan untuk mencapai bentuk-bentuk kata, kata terbitan dan rangkai kata dan memaparkan hasil carian tersebut dalam bentuk baris-baris konkordans, dengan kata kunci carian tersusun dan terisih di tengah-tengah baris. 
  
Pencarian berdasarkan kata kunci ini boleh dibuat melalui pelbagai teknik carian, sesuai dengan maklumat yang ingin disarikan dan diperagakan. Teknik carian yang lazim adalah seperti yang berikut;

a) Capaian melalui Kata Kunci (Bentuk Kata) 
Sesuatu bentuk kata boleh dicapai dengan menaipkan kata tersebut. Misalnya, capaian yang menggunakan kata kunci "kata" akan memaparkan semua kehadiran bentuk ini dalam sesuatu korpus teks. (Lihat contoh paparan skrin)

b) Capaian melalui Kata Kunci serta simbol bebas " * " dan " ? " 
Pencapaian sesuatu bentuk kata boleh juga dilaksanakan dengan menggunakan kata kunci serta simbol bebas " * " dan " ? " (dengan " * " mewakili satu atau lebih aksara manakala   " ? " mewakili satu aksara).

Sebagai contoh, pencarian dengan kata kunci "*kata*" akan memaparkan bentuk-bentuk seperti  "kata, "perkataan", "berkata" dan sebagainya.(Lihat contoh paparan skrin)

Pencarian dengan kata kunci "b?t?l" akan memaparkan bentuk-bentuk seperti "botol", "batal", "betul"  dan sebagainya. (Lihat contoh paparan skrin) 
 

Analisis Teks 
Sistem korpus ini juga dilengkapi dengan modul untuk menganalisis teks (dikenali sebagai MATA, Malay Text Analysis) yang mampu menghasilkan statistik tentang sesebuah teks seperti yang berikut:

(a)  Bilangan perkataan 
(b)  Kekerapan perkataan 
(c)  Bilangan dan senarai kata akar 
(d)  Bilangan dan senarai kata baru, dan 
(e)  Bilangan dan senarai kata tak sahih.

 

Data Korpus

TAKRIFAN

Secara umum, korpus boleh ditakrifkan sebagai "himpunan makalah (tulisan dsb) mengenai sesuatu perkara tertentu atau kumpulan bahan untuk kajian (seperti kumpulan contoh penggunaan kata dll)" (Kamus Dewan Edisi Ketiga, 1994). Namun demikian, dalam linguistik moden, "korpus" mempunyai pengertian tambahan sebagai bahan yang "terbacakan dan terolahkan komputer".

 Ini bermakna korpus yang dikumpulkan dan diselenggarakan dalam projek ini merupakan  kumpulan teks digital yang boleh diproseskan dengan teknik dan kaedah linguistik komputeran untuk menampilkan pola dan hubung kait sesuatu perkataan dengan perkataan lain. 
 

DATA

Data korpus boleh bersumberkan bentuk tulisan atau lisan. Bagaimanapun, usaha semasa program ini masih tertumpu pada bahan tulisan daripada buku, majalah, surat khabar, monograf, dokumen, kertas kerja, surat, risalah dan sebagainya.

Setiap jenis wacana ini dikumpulkan dalam subkorpus yang berasingan. Saiz mutakhir (sehingga 25 November 2008) Pangkalan Data Korpus adalah lebih kurang 135 juta perkataan yang terkandung dalam sepuluh subkorpus seperti yang berikut:

 

Bil Subkorpus Jumlah Semasa Jenis Bahan
1. Buku 31,580,305 novel, buku ilmiah, buku umum, buku teks
2. Majalah 14,406,888 umum meliputi pelbagai bidang
3. Akhbar 80,029,347 harian, tabloid,mingguan
4. Terjemahan (buku) 2,021,191 buku ilmiah, buku umum
5. Efemeral 290,207 risalah, brosur, iklan
6. Drama 404,176 drama yang dibukukan
7. Puisi 116,428 puisi yang dibukukan
8. Kad Bahan 3,130,641 kad kutipan untuk penyusunan Kamus Dewan
9. Teks Tradisional 2,825,329 Teks lama dalam bentuk hikayat, cerita rakyat
10. Buku Teks 1,095,726 Buku Teks Peringkat Rendah dan Menengah

 

MATLAMAT DAN HASIL- HASIL KAJIAN BERDASARKAN KORPUS

Pangkalan ini dibina dengan tujuan untuk menyediakan data penyelidikan yang dapat 
dimanfaatkan untuk penyusunan kamus, penyelidikan tatabahasa, dan bentuk-bentuk kajian kebahasaan yang lain.  Contoh-contoh kajian yang dilakukan berdasarkan korpus dapat dilihat dalam kertas kerja yang berikut.  

Bil Kertas Kerja Catatan
1 Perempuan, Wanita Dan .....: Satu kajian hubungan leksikal berdasarkan korpus (Dibentangkan dalam Seminar Perkamusan Melayu pada 20 dan 21 Disember 1994 di Balai Seminar,  Dewan Bahasa dan Pustaka)
2 Ianya benar  (Dibentangkan dalam Persidangan Antarabangsa Pengajian Melayu/Indonesia : Ancangan  Pembingkas Berdaya Cipta pada 21-23 Jun 1999 di Prince of Songkla University, Pattani,Thailand) 
3 Melayari Samudera Maya, Mencari Mutiara Kata: Suatu Metodologi Pemerolehan Kata   Baru Berdasarkan Korpus  (Dibentangkan dalam Persidangan  Linguistik Asean 1 pada  14-16 November 2000 di  
 Universiti Kebangsaan Malaysia) 
4 KIM VS KIM: Kajian Leksis Berdasarkan Analisis Teks Selari (Dibentangkan dalam Seminar Sehari Jabatan Bahasa Melayu dan Terjemahan pada 7 Februari 2001 di Universiti Kebangsaan Malaysia)
5 Istilah Sains Dalam Teks Bacaan Umum  (Diterbitkan dalam Jurnal Rampak Serantau Bil. 8 2001)
6 Penggunaan Istilah Teknologi Maklumat dan Komunikasi: Suatu Kajian Berdasarkan Teks Akhbar Harian     (Dibentangkan dalam Seminar Cabaran dan Penulisan Sains dan Teknologi Dalam Alaf Baru pada 25 - 26 April 2001 di Universiti Kebangsaan Malaysia)
7 Soal Hati: Suatu Kajian Korpus (Dibentangkan dalam Konvensyen Bahasa Kebangsaan 2001 pada 2 - 4 Mei 2001 di Hotel Nikko, Kuala Lumpur)
8 Yang Selari dan Yang Setanding:    
Peranan Korpus dalam Penterjemahan   
(Dibentangkan dalam Persidangan Penterjemahan Antarabangsa Ke-8 pada 3?5 September 2001 di Langkawi, Kedah)
9 Baik Buruk Byte dan Bait  Diterbitkan dalam Jurnal Rampak Serantau Bil. 9 2002)

10

'PUN', Kepelbagaian Makna Berdasarkan Teks   
Sejarah Melayu
Dibentangkan dalam Sanggar Leksikologi dan Leksikografi Bahasa Melayu pada 16 - 17 Disember 2002 di Universitas Indonesia, Depok, Jakarta, Indonesia
Yang Dini dan Yang Kini:Kisah Dua Naskhah  Dibentangkan dalam Sanggar Leksikologi dan Leksikografi Bahasa Melayu pada 16 - 17 Disember 2002 di Universitas Indonesia, Depok, Jakarta, Indonesia
11 Pengkomputeran Bahasa Melayu:Kegiatan, Kerjasama dan Kemajuan    Dibentangkan dalam Seminar "Membawa Indonesia ke era Globalisasi Melalui Teknologi Bahasa, Komunikasi dan Informasi" pada 18 September 2003 di Penerapan dan Penelitian Teknologi (BBPT), Jakarta,  Indonesia  
12 Pangkalan Data Korpus DBP:    
Perancangan, Pembinaan dan Pemanfaatan 
  
Dibentangkan dalam Seminar Sehari Linguistik "Nahu Praktis Bahasa Melayu:Analisis Data Korpus" pada 30 Mac 2004 di Universiti Kebangsaan Malaysia
13 Kesejagatan Bahasa Melayu Melalui Teknologi Diterbitkan dalam Majalah Dewan Bahasa Mac 2004
14 Bahasa Sukuan: Suatu Kajian Analisis Terhadap Pengaruhnya  dalam Bahasa Melayu  Dibentangkan dalam Persidangan Antarabangsa ATMA dan IKON Universiti Kebangsaan Malaysia "The Languages and Literatures of Western Borneo: 144 Years of Research pada 31 Januari hingga 2 Februari 2005 di Universiti Kebangsaan Malaysia
15 Analisis -ik, -ikal dan -is dalam bahasa Melayu berdasarkan data korpus Dibentangkan dalam Seminar Kebangsaan Linguistik "Kajian Bahasa dan Korpus:Dimensi Linguistik Semasa" pada 12 -13 April 2005 di Universiti Kebangsaan Malaysia
16 Suara sasterawan, suara awam Dibentangkan dalam Seminar Kebangsaan Linguistik "Kajian Bahasa dan Korpus:Dimensi Linguistik Semasa" pada 12 -13 April 2005 di Universiti Kebangsaan Malaysia
17 Sinonim Tetapi Tidak Seerti Diterbitkan dalam Majalah Pelita Bahasa Mei 2005
18 Lexical Associations of Malayness in Hikayat Abdullah: A Collocational Analysis Diterbitkan di dalam Research Journal of Applied Sciences 5(6): 429-433, 2010. ISSN: 1815-932X. Medwell Journals, 2010

 


Kemaskini pada 2017-08-16 23:23:24 daripada Pentadbir Sistem

  •  
  • Print
  • Email this page

Penggunaan laman web rasmi Dewan Bahasa dan Pustaka tertakluk pada Garis Panduan Portal myGovernment dan Laman Web/Portal Agensi-agensi Sektor Awam Paparan terbaik Internet Explorer 9.0 ke atas atau Google Chrome, resolusi 1024 x 768 pixel.