Haloo
sobat, kali ini saya akan membuat tutorial NER menggunakan PYTHON. Sebelumnya
apa itu NER?.
Name Entity
Recognition (NER) atau Name Entity Recognition and Classification (NERC) adalah salah satu komponen utama dari
information extration yang bertujuan untuk mendeteksi dan mengklasifikasikan
named-entity pada suatu teks. NER umumnya digunakan untuk mendeteksi nama
orang, nama tempat dan organisasi dari sebuah dokumen, tetapi dapat juga
diperluas untuk identifikasi gen, protein dan lainnya sesuai kebutuhan.
Berikut
tutorial Named Entity Recognition (NER) menggunakan PYTHON.
Untuk toolnya
sobat bisa menggunakan :
- PYTHON
- NOTEPAD
Nah
sebelumnya, aplikasi PYTHON sobat harus sudah terinstall NLTK. Untuk menginstall
NLTK di python sobat bisa download di http://www.nltk.org/install.html
Langkah – langkah Named Entity Recognition (NER) menggunakan PYTHON
Langkah 1 :
CARI ARTIKEL
Sobat bisa
mencari artikel di internet tentang apa saja. Pada kasus ini, saya mencari
artikel dengan tema Arsene Wenger. Disini saya menggambil 10 artikel dari 10
blog/website yang berbeda.
Langkah 2 :
AMBIL TEXT YANG ADA DI ARTIKEL
Setelah
sobat sudah menentukan tema, dan menemukan artikelnya, sobat bisa ambil text
artikelnya dengan mencopy artikel dan mempastenya di NOTEPAD. Jangan lupa
simpan dalam bentuk txt.
Langkah 3 :
SIMPAN ARTIKEL KEDALAM SATU FOLDER
Sobat simpan
semua artikel yang sobat ambil ke dalam satu folder.
Langkah 4 :
MEMBUAT APLIKASI UNTUK MENGHUBUNGKAN SEMUA ARTIKEL
Buka PYTHON
-> FILE -> NEW FILE
Kemudian import
packages yang akan digunakan, pada kasus ini saya menggunakan re, nltk,
networkx, matplotlib.pyplot dan os.
Selanjutnya
melakukan preprocesing data dengan tokenize yaitu memisahkan kata dengan
menggunakan library nltk dan melabeli kata pada kalimat (sentences) menggunakan
pos_tagg (pos tagging).
Setelah
melakukan preprocessing, sobat melakukan Information Extraction data. document
yang sudah di tokenizing pada tahap preprocess akan di ambil berdasarkan kata
dengan tag PERSON, ORGANIZATION, dan LOCATION. Kata yang sudah di ambil akan
menjadi entitas
Kemudian
buat visualisasi dengan menggunakan library networkx graph untuk membuat node (Simpul)
dan edge (jalur) untuk menghubungkan antar entitas.
Selanjutnya
menghilnagkan karakter non ASCII untuk menghilangkan symbol yang tidak dikenal.
Dan kemudian melakukan ekstrasi data. Pada ekstrasi data, akan di cari nama
foldernya, disini saya menamai folder arsene wenger top issue. Kemudian akan
dilakukan pengeccekan, apabila bentuk filenya txt, maka data akan diproses lalu
dijalankan fungsi removeNonASCII, kemudian data tersebut akan di proses
berdasarkan “NAME”, “ORGANNIZATION”, “LOCATION”. dan kemudian memanggil fungsi
draw_graph untuk menampilkan grafik.
Setelah itu
simpan code dalam format py.
Langkah 5 :
MENAMPILKAN GRAFIK
Untuk menampilkan
grafik, sobat bisa buka cmd -> cd[spasi][tempat folder] kemudian ketik
python[spasi][nama file python]
HASIL
GRAFIKNYA AKAN SEPERTI INI
Tidak ada komentar:
Posting Komentar