Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu

Ringkasan tajuk berita (headline) adalah salah satu teknik ringkasan teks automatik yang boleh mengurangkan masalah kebanjiran maklumat dalam sistem capaian. Teknik ini berupaya mengurangkan beban kognitif pengguna semasa meneliti dan memilih dokumen relevan dalam kuantiti yang besar. Keupayaan t...

全面介紹

Saved in:
書目詳細資料
Main Authors: Shahrul Azman Mohd Noah,, Nazlena Mohamad Ali,, Mohd Sabri Hasan,
格式: Article
語言:English
出版: Penerbit Universiti Kebangsaan Malaysia 2018
在線閱讀:http://journalarticle.ukm.my/13777/1/25393-76333-2-PB.pdf
http://journalarticle.ukm.my/13777/
http://ejournal.ukm.my/gema/issue/view/1087
標簽: 添加標簽
沒有標簽, 成為第一個標記此記錄!
id my-ukm.journal.13777
record_format eprints
spelling my-ukm.journal.137772019-12-09T23:17:31Z http://journalarticle.ukm.my/13777/ Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu Shahrul Azman Mohd Noah, Nazlena Mohamad Ali, Mohd Sabri Hasan, Ringkasan tajuk berita (headline) adalah salah satu teknik ringkasan teks automatik yang boleh mengurangkan masalah kebanjiran maklumat dalam sistem capaian. Teknik ini berupaya mengurangkan beban kognitif pengguna semasa meneliti dan memilih dokumen relevan dalam kuantiti yang besar. Keupayaan teknik ini dipengaruhi oleh ciri-ciri sistem bahasa tabii yang mewakili maklumat dalam dokumen. Kajian ini membincangkan proses dalam penentuan ciri-ciri sistem bahasa Melayu pada dokumen genre berita. Metodologi kajian dimulai dengan analisis ke atas korpus dokumen berita bahasa Melayu. Korpus ini mengandungi 140 dokumen berita teras yang dipilih daripada dua pangkalan data berita arus perdana di Malaysia iaitu Berita Harian dan Utusan Malaysia. Kriteria pemilihan adalah kategori berita teras, bersaiz 50 hingga 250 perkataan, dengan tahun penerbitan dari 2007 hingga 2012 dan genre berita adalah ekonomi, jenayah, pendidikan dan sukan. Tiga pakar linguistik bahasa Melayu menghasilkan satu ringkasan tajuk berita bagi setiap dokumen berita secara manual. Ketiga-tiga pakar linguistik ini perlu mematuhi tiga syarat iaitu ringkasan dilakukan secara pengekstrakan, teknik pemilihan perkataan secara select-wordinorder dan perubahan morfologi perkataan. Hasil eksperimen menunjukkan tiga fitur telah dikenal pasti iaitu, pertama: dua ayat pertama adalah calon sesuai ayat terpenting, kedua: ayat mengandungi takrifan akronim berpotensi sebagai ayat terpenting dan ketiga: saiz ringkasan tajuk berita ideal adalah enam perkataan. Pertimbangan fitur ini membolehkan ringkasan tajuk berita dijana secara automatik yang lebih mirip seperti dilakukan oleh manusia. Penerbit Universiti Kebangsaan Malaysia 2018-05 Article PeerReviewed application/pdf en http://journalarticle.ukm.my/13777/1/25393-76333-2-PB.pdf Shahrul Azman Mohd Noah, and Nazlena Mohamad Ali, and Mohd Sabri Hasan, (2018) Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu. GEMA: Online Journal of Language Studies, 18 (2). pp. 154-167. ISSN 1675-8021 http://ejournal.ukm.my/gema/issue/view/1087
institution Universiti Kebangsaan Malaysia
building Tun Sri Lanang Library
collection Institutional Repository
continent Asia
country Malaysia
content_provider Universiti Kebangsaan Malaysia
content_source UKM Journal Article Repository
url_provider http://journalarticle.ukm.my/
language English
description Ringkasan tajuk berita (headline) adalah salah satu teknik ringkasan teks automatik yang boleh mengurangkan masalah kebanjiran maklumat dalam sistem capaian. Teknik ini berupaya mengurangkan beban kognitif pengguna semasa meneliti dan memilih dokumen relevan dalam kuantiti yang besar. Keupayaan teknik ini dipengaruhi oleh ciri-ciri sistem bahasa tabii yang mewakili maklumat dalam dokumen. Kajian ini membincangkan proses dalam penentuan ciri-ciri sistem bahasa Melayu pada dokumen genre berita. Metodologi kajian dimulai dengan analisis ke atas korpus dokumen berita bahasa Melayu. Korpus ini mengandungi 140 dokumen berita teras yang dipilih daripada dua pangkalan data berita arus perdana di Malaysia iaitu Berita Harian dan Utusan Malaysia. Kriteria pemilihan adalah kategori berita teras, bersaiz 50 hingga 250 perkataan, dengan tahun penerbitan dari 2007 hingga 2012 dan genre berita adalah ekonomi, jenayah, pendidikan dan sukan. Tiga pakar linguistik bahasa Melayu menghasilkan satu ringkasan tajuk berita bagi setiap dokumen berita secara manual. Ketiga-tiga pakar linguistik ini perlu mematuhi tiga syarat iaitu ringkasan dilakukan secara pengekstrakan, teknik pemilihan perkataan secara select-wordinorder dan perubahan morfologi perkataan. Hasil eksperimen menunjukkan tiga fitur telah dikenal pasti iaitu, pertama: dua ayat pertama adalah calon sesuai ayat terpenting, kedua: ayat mengandungi takrifan akronim berpotensi sebagai ayat terpenting dan ketiga: saiz ringkasan tajuk berita ideal adalah enam perkataan. Pertimbangan fitur ini membolehkan ringkasan tajuk berita dijana secara automatik yang lebih mirip seperti dilakukan oleh manusia.
format Article
author Shahrul Azman Mohd Noah,
Nazlena Mohamad Ali,
Mohd Sabri Hasan,
spellingShingle Shahrul Azman Mohd Noah,
Nazlena Mohamad Ali,
Mohd Sabri Hasan,
Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
author_facet Shahrul Azman Mohd Noah,
Nazlena Mohamad Ali,
Mohd Sabri Hasan,
author_sort Shahrul Azman Mohd Noah,
title Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
title_short Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
title_full Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
title_fullStr Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
title_full_unstemmed Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
title_sort penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa melayu
publisher Penerbit Universiti Kebangsaan Malaysia
publishDate 2018
url http://journalarticle.ukm.my/13777/1/25393-76333-2-PB.pdf
http://journalarticle.ukm.my/13777/
http://ejournal.ukm.my/gema/issue/view/1087
_version_ 1654961128873132032
score 13.153044