gaiaku: Tutorial Name Entity Recognition (NER) menggunakan PYTHON

Haloo sobat, kali ini saya akan membuat tutorial NER menggunakan PYTHON. Sebelumnya apa itu NER?.

Name Entity Recognition (NER) atau Name Entity Recognition and Classification (NERC) adalah salah satu komponen utama dari information extration yang bertujuan untuk mendeteksi dan mengklasifikasikan named-entity pada suatu teks. NER umumnya digunakan untuk mendeteksi nama orang, nama tempat dan organisasi dari sebuah dokumen, tetapi dapat juga diperluas untuk identifikasi gen, protein dan lainnya sesuai kebutuhan.

Berikut tutorial Named Entity Recognition (NER) menggunakan PYTHON.

Untuk toolnya sobat bisa menggunakan :

PYTHON
NOTEPAD

Nah sebelumnya, aplikasi PYTHON sobat harus sudah terinstall NLTK. Untuk menginstall NLTK di python sobat bisa download di http://www.nltk.org/install.html

Langkah – langkah Named Entity Recognition (NER) menggunakan PYTHON

Langkah 1 : CARI ARTIKEL

Sobat bisa mencari artikel di internet tentang apa saja. Pada kasus ini, saya mencari artikel dengan tema Arsene Wenger. Disini saya menggambil 10 artikel dari 10 blog/website yang berbeda.

Langkah 2 : AMBIL TEXT YANG ADA DI ARTIKEL

Setelah sobat sudah menentukan tema, dan menemukan artikelnya, sobat bisa ambil text artikelnya dengan mencopy artikel dan mempastenya di NOTEPAD. Jangan lupa simpan dalam bentuk txt.

Langkah 3 : SIMPAN ARTIKEL KEDALAM SATU FOLDER

Sobat simpan semua artikel yang sobat ambil ke dalam satu folder.

Langkah 4 : MEMBUAT APLIKASI UNTUK MENGHUBUNGKAN SEMUA ARTIKEL

Buka PYTHON -> FILE -> NEW FILE

Kemudian import packages yang akan digunakan, pada kasus ini saya menggunakan re, nltk, networkx, matplotlib.pyplot dan os.

Selanjutnya melakukan preprocesing data dengan tokenize yaitu memisahkan kata dengan menggunakan library nltk dan melabeli kata pada kalimat (sentences) menggunakan pos_tagg (pos tagging).

Setelah melakukan preprocessing, sobat melakukan Information Extraction data. document yang sudah di tokenizing pada tahap preprocess akan di ambil berdasarkan kata dengan tag PERSON, ORGANIZATION, dan LOCATION. Kata yang sudah di ambil akan menjadi entitas

Kemudian buat visualisasi dengan menggunakan library networkx graph untuk membuat node (Simpul) dan edge (jalur) untuk menghubungkan antar entitas.

Selanjutnya menghilnagkan karakter non ASCII untuk menghilangkan symbol yang tidak dikenal. Dan kemudian melakukan ekstrasi data. Pada ekstrasi data, akan di cari nama foldernya, disini saya menamai folder arsene wenger top issue. Kemudian akan dilakukan pengeccekan, apabila bentuk filenya txt, maka data akan diproses lalu dijalankan fungsi removeNonASCII, kemudian data tersebut akan di proses berdasarkan “NAME”, “ORGANNIZATION”, “LOCATION”. dan kemudian memanggil fungsi draw_graph untuk menampilkan grafik.