Sabtu, 02 Maret 2013

information retrieval

UTS dan UAS - Information Retrieval 

Biodata :
Nama      : Edy Nasri
Kelas       : Serang
Angkatan : 42







Soal UTS 
1. Apakah yang dimaksud dgn IR ?
2. Bagaimana cara kerja IR ? Jelaskan dengan detil.
3. Bagaimana masa depan IR? lakukan analisa / research yang mendalam. 
Soal UAS 
1.Metode / Algoritma apa saja yang digunakan untuk melakukan IR
2. Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya. 
3. Jelaskan Algoritma Web-Crawler yang sederhana, berikan contohnya. 
Jawab UTS
1. Information Retrieval (IR) sering disebut juga temu kembali infromasi adalah: ilmu yang mempelajari prosedur-prosedur dan metode-metode untuk menemukan kembali infromasi yang tersimpan dari berbagai sumber (resources) yang relevan atau koleksi sumber informasi yang dicari atau dibutuhkan. Dengan tindakan  index (indexing), panggilan (searching), pemanggilan data kembali (recalling). Dalam pencarian data bisa mencakup texts, table, gambar, video, audio. Adapun tujuan dari Infromation Retrieval ialah untuk memenuhi informasi pengguna dengan cara meretrieve dokumen yang relevan atau menguragi dokumen pencarian yang tidak relevean.
2. Cara Kerja Information Retrieval sebagai berikut :
a). Tokenisasi (tokenizing) atau word token adalah : Pemisahan deret kata dalam kalimat, paragrap menjadi potongan kata tunggal (termed word) serta menghilangkan karakter-karakter dalam tanda baca dan mengubah kumpulan termed menjadi huruf kecil (lower case). Contoh : " saya belajar temu kembali informasi" maka akan dihasilkan : "saya", "belajar", "temu", "kembali", "informasi".
b). Stopword removal atau seleksi / penyaringan (filtration) adalah: tahapan untuk mempersentasikan suatu dokumen dapat mendeskripsikan isi dari suatu dokumen untuk membedakan isi dokumen lain, dalam suatu istilah (term) akan mencari jumlah dokumen yang diangap paling relevan didalam suatu inputan (query), suatu term yang sering ditampilkan atau digunakan diangap sebagai stopword. Contoh: Operator Logika or, not, and dan sebaginya. Maka stopword tersebut akan menghapus, karna frekuwnsi dari kemunculan trem terlalu sering.
c). Pembuatan kata dasar (stemming) adalah: konversi dari trem ke bentuk akar (root) atau bentuk umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa menemukan kata-kata yang terkait dalam sebuah dokumen. Contoh : kita memasukan kata "menemukan" maka query akan merekomendasikan, "merasa", "mengetahui", "memiliki", "mendapatkan" dan setrusnya.
d). Proses pembobotan setiap term dalam dokumen (term weighting) yaitu dalam tahapan pembobotan term skema dalam pembobotan dipilih berdasarkan pembobotan lokal, global atau kedua-duanya (term frequency dan global inverse document frequency).
 
Gambaran umum cara kerja IR


3. Masa depan Information Retrieval
Dari tinjauan sejarah infromation Retrieval mulai ditemukan pada tahun 1880 oleh Horman Hollerith " media mesin yang dapat dibaca kemudian berlanjut dari tahun ketahun : 1890 Hollerith kartu, 1940-an militer AS, 1945: Vannevar Bush As We May Think, 1947: Hans Peter Luhn, 1950: Tumbuh kekhawatiran, 1950:Calvin Mooers, 1951: Philip Bagley, 1955: Allen Kent, 1958: Konferensi Internasional Informasi, 1959: Hans Peter Luhn, Awal 1960-an: Gerard Salton, 1962: Cyril W. Cleverdon, 1963:Dr Alvin Weinberg, 1964:Karen Spärck Jones, 1965: JCR Licklider, 1966: Don Swanson, 1968: Gerard Salton, 1971: Nicholas Jardine dan Cornelis J. van Rijsbergen, 1975: Salton, 978: Pertama ACM SIGIR, 1979: CJ van Rijsbergen, 1980: Pertama internasional ACM SIGIR, 1982: Nicholas J. Belkin, Robert N. Oddy, dan Helen M. Brooks, 1983: Salton (dan Michael J. McGill), 1985: Blair dan Maron,1985-1993: Donald B. Crouch, Robert R. Korfhage, Matius Chalmers, Anselmus Spoerri, 1989: Berners-Lee, 1992: Pertama TREC konferensi, 1997: Publikasi Korfhage’s Information Penyimpanan dan Retrieval.
Dari kutipan sejarah diatas information retrieval sudah berlangsung lama dan setiap periode para peneliti mengembangkan information  retrieval.
Pada tahun 1989 ditemukannya World Wide Web (WWW) oleh Tim Berners-Lee, awal kebangkitan information retrieval , sejak itu internet menawarkan berbagai pasilitas seperti email, ftp, dan berbagi berita (news). saat ini kita menulusuri internet maka layanan web langsung memberikan layanan dengan fasilitas lengkap, dengan kemudahn-kemudahan pengakses layanan informasi meningkatnya penguna dan penyedia layanan internet. dengan pesatnya layanan internet yang mudah maka harus metode pencarian informasi itu sendiri agar pencarian kita mudah, effesien, dan efektif. dari banyaknya informasi di internet maka perlu metode pencarian informasi dengan adanya cabang ilmu penemuan kembali informasi (information Retrieval), semakin memudahkan bagi pengguna internet. dari berbagi komponen seperti :query, filter, spatial navigation, link, dan agent.
Untuk menjawab kompksitas dari pencarian masa depan perlu dikembangkan dengan pertimbangan meningkatkan jaringan komputer dengan meningkatkan komponen-komponen, komputer pemroses, sumber data dll.  dan pada lokasi pendistribusian secara geogafis serta pengembangan arsitektur untuk memudahkan bagi penggunanya dikarnakan dimasa depan akan timbul cabang-cabang ilmu baru, sepeti multimedia, dan re enggenering  sebagi contoh analisa saya bisa dibaca http://bo-fsakti.blogspot.com/2013/02/bussiness-process-reengineering.html  . 
Informasi Masa depan :
a). Information Overload:
     - Bagaimana mengolah informasi  yang sangat banyak
     - Tidak semua informasi benar dan sesuai kebutuhan
     - Fokus terhadap pengembangan filter dan aggregator dan technologi data minining lintas format
     - Search Box tersebar
b). Web masa akan datang
     - Semua model  web akan mengikuti Google dan Facebook
c). Revolusi Media
    - Format publikasi media akan melalu internet
    - Penerbit dan distributor akan menjadi raja informasi
    - Seluler /moble akan menjadi pesaing berat media Pers
    - Media  pers akan melintasi batas negara dan budaya
    - Ponsel dan GPS akan menciptakan technologi baru (revolusi technologi)
    - Jaringan Internet, komunikasi dan mobile  akan menjadi alat utama bisnis.
    - Siapa pun yang mengeguasai technologi akan menguasai dunia.


Jawab UAS
1. Didalam Information Retrieval terdapat bebrapa metode pemodelan 
a). Set-theoretic models banyak digunakan dalam standard Boolean dan extended Boolean : dalam pemodelan pencocokan metode, hal  ini mempersentasikan suatu dokumen dalam suatu himpunan farase atau kata  dan aljabar boolean.
 b). Algebratic banyak digunakan dalam vector space model dan latent semantic indexing , dalam pemodelan persamaan pringkat  merepresentasikan dokumen dan query sebagai vektor atau matriks persamaan (similarity) Similarity Rangking Method / Metode Kesamaan Peringkat antara vektor dokumen dan vektor query. metode ini sering disebut juga algoritma pringkat/renking.
c). Probabilistic pemodelan mengunakan framework probabilistik dalam penerapan teorema bayes dalam probalistik  sebuah proses (process probabilistic inference) pengembalian dokumen sebagai sebuah niali utama.
 2. Perbedaan cara kerja Precision versus Recall adalah :
a). Precision disebut juga kepersisan atau kecocokan antara permintaan informasi dengan jawaban terhadap permintaan informasi itu sendiri, artinya persis atau cocok dokumen tersebut untuk keperluan pencari informasi, bergantung pada seberapa relevan dokumen tersebut bagi si pencari.suatu perbandingan ratio jumlah isi dokumen yang relevan dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. 
Contoh : 
  Tabel Rumus 

RelevanTidak Relevan
Total
Ditemukan
a (hits)
b (noise)
a+b
Tidak ditemukan
c (misses)
D (reject)
c+d
Total
a+b
c+d
a+b+c+d
 
Tabel contoh precision


Relevan
Tidak Relevan
Total
Ditemukan
50
20
70
Tidak ditemukan
10
5
15
Total
70
15
85
 Precision = [a/ (a+b)] x 100
[50/(50+20)]x100 = 71.4 %

 b). Recall (remember, recollect, remind) menemukan kembali informasi yang sudah tersimpan dari proporsi jumlah dokumen yang dapat ditemukan-kembali oleh sebuah proses pencarian dengan perbandingan  jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam  dokumen.
  Tabel Rumus


RelevanTidak Relevan
Total
Ditemukan
a (hits)
b (noise)
a+b
Tidak ditemukan
c (misses)
D (reject)
c+d
Total
a+b
c+d
a+b+c+d

Tabel contoh precision


Relevan
Tidak Relevan
Total
Ditemukan
50
20
70
Tidak ditemukan
10
5
15
Total
70
15
85
Recall = [a/ (a+c)] x 100
[50/(50+10)]x100 = 83.3 %


3. Algoritma Web-Crawler, Web-Crawler sering juga disebut Web Spider atau Web Robot merupakan web aplikasi atau program komputer atau script automatic yang berfungsi mengumpulkan atau mencari informasi dari berbagai halaman web atau blog yang ada di internet secara perodik dan sistimatis. web crawler  fungsi utamanya adalah untuk melakukan penjelajahan serta pengambilan halaman-halaman situs, dari hasil pengumpulan situs.
Cara Kerja Web Crawler :
a). Mengunduh (downloadhalaman web : melakukan pengunduhan halaman web berdasarkan URL yang diberikan kemudian file di simpan dibasisdata, kemudian dimanupulasi untuk di index atau untuk diarip dengan mengunakan pengarsipan otomatis.
b). Memprasing halaman web yang unduh dan mengambil semua link :  memprasing ke seluruh halaman web yang sudah diunduh dan mengambil link-link dihalaman lain kemudian didepinisikan dengan sebuah penanda HTML. contoh : http://bo-fsakti.blogspot.com/2013/03/information-retrieval.html
c). Setiap link yang diambil diulangi proses : melakukan proses bentuk pengulangan (rekursif) dalam hal ini mengunakan dua metode yaitu : (1). Depth First yaitu menikuti jalur samapai selesai sebelum mencoba jalur yang lain,  dengan mengunakan algoritma ini menemkan link pertama pada halaman pertama kemudian halaman yang berasosiasi dengan link tersebut menemukan link pertama dan berulang sampai terakhir samapi semuanya dikunjungi. (2). Breadth First yaitu pengujian setiap link pada sebuah halaman sebelum memproses halaman selanjutnya, dengan mengunakan algoritma ini akan menelusuri setiap link pada halaman pertama kemudian menelusuri kembali sampai pada level link yang pernah dikunjungi.
Dalam Web Crawler harus melakukan tolak ukur antara lain :
a). Pengendalian Query similaritas  : sebuah query  mengendalikan crawler  dan didefinisikan pentingnya sebuah halaman sebagai similaritas texttual diantara halaman web dan query.
b). Menghitung banyaknya link halaman web, maka banyak nya link halaman yang keluar semakin berharga karna merupakan direktori web, contoh kasus di blogspot semakian banyak link dan menyukai Google+ maka semakin blog tersebut terindex, contoh lagi : http://bo-fsakti.blogspot.com/2012/04/tukar-link.html . tolak ukur ini biasa disebut Forward Link Count .
c). Banyaknya link dari halaman web makan secara intutif  sebuah halaman web yang dilinkan dengan banyak halaman yang menjadi referensi. tolak ukuran ini sering disebut juga Backlink Count.
d). Halaman web sebagai lokasi sebagai conoh, URL yang ber ujung ".COM" lebih berguna dari URL lainya. contoh URL yang ujung (domain) ".COM" : http://bo-fsakti.blogspot.com/ . tolak ukur ini biasa disebut Location Matric.

d). Menetapkan semua link yang sama contoh kasus : sebuah link yahoo dihitung dengan link individu, jika link yahoo  lebih penting maka link yahoo lebih tinggi. tolak ukur ini biasa disebut PageRank
dari penjelasan diatas google sudah menerapkan web Crawler https://www.google.co.id/ dan sudah di implentasikan di http://bo-fsakti.blogspot.com/.

Contoh Implentasi Infromation Retrival:
http://bo-fsakti.blogspot.com/2013/03/penerapan-information-retrieval.html

Study IR





 



oleh fsakti FASANA IT | Tutorial Computer Updated at : 00.22
Anda suka artikel di atas ???
Klik salah satu atau ketiga tombol di bawah ini :

Jangan Lupa Baca Juga :

0 komentar:

 
Ke bawah Ke ATAS