View: 4694|Reply: 34
|
Teknik nak retrieve and categorize article!!
[Copy link]
|
|
hai suma...sy nak tanya teknik2 yg boleh kita guna untuk retrieve text dalam word. maybe ada algorithm yg
sesuai n usable. forumist sekalian, hrp dpt kongsi2 idea or technique...heheheh..nak siapkan tesis ni..
[ Last edited by HishamZ at 31-7-2007 12:57 PM ] |
|
|
|
|
|
|
|
Reply #1 HishamZ's post
Sorry... aku tak berapa faham... nak retrieve text from MS Word document? Nak retrieve tu guna apa? Software? Scripts? Nak retrieve ke apa? Text document? Database? :stp:
[ Last edited by 0001 at 21-5-2007 03:13 PM ] |
|
|
|
|
|
|
|
Reply #1 HishamZ's post
cuba ko cite btul2...kurang faham la.. |
|
|
|
|
|
|
|
Reply #1 HishamZ's post
ni ada kaitan ngan programming ke? |
|
|
|
|
|
|
|
thanks guys 4 reply. mcm ni, saya tengah buat sistem untuk manage newsletter utk sebuah organisasi. sistem webbased guna php n sql.
ok..salah satu objektif tesis saya ni ialah, sistem saya ni berupaya untuk me 'retrieve' artikel yang di taip dalam microsoft word, untuk terus di paparkan di sistem saya ni.maksud saya, kita tak perlu download document word tadi untuk mencapai isi kandungan artikel saya itu.
ringkasnya, apabila artikel yang dihantar ke sistem saya dengan menggunakan attachment ,lazimnya di dalam microsoft word, sistem saya dapat terus
copy contain artikel tersebut untuk terus di simpan di kategori yg betul di dalam sistem..
sekarang ni, saya tengah mecari teknik2 sesuai ...algorithm ke, application ke,....tentunya melibatkan programming...n melibatkan artificial intelligent concepts.
salah satu yg saya dapat cari ialah dengan menggunakkan konsep rule mining...but...saya tak paham sangat la macamana nak apply.
guys,,harap2 dapat membantu saya. ok... |
|
|
|
|
|
|
|
ala tekde idea kerrrr |
|
|
|
|
|
|
|
Reply #6 HishamZ's post
klau guna platform linux mudah aje nie...
try download antiword kat sini http://www.winfield.demon.nl/
dr php script just call command antiword tue cthnye:
$result=shell_exec("antiword file.doc");
make sure format .doc
output tue nanti adalah unformated form dlm btk text...
then reformat output tue.... itu jer.... |
|
|
|
|
|
|
|
dino...boleh explain skit x..cara2 nak guna benda alah tu..steps.hehehhe...
|
|
|
|
|
|
|
|
Aku rasa kalau nak buat newsletter, biasanya pengguna hanya baca words document yang hendak dipaparkan. Kalau bpengguna tak perlu edit lagi kandungannya dlm sistem newsletter tu, aku fikir lebih baik convert format .doc tu kepada pdf atau rtf atau lagi bagus html supaya senang diproses oleh application.
Untuk tujuan mengkategorikan documents, aku cadangkan guna Naive Bayes classifier. |
|
|
|
|
|
|
|
Reply #11 alusmetai's post
Thanks for reply.
yang edit artikel tu admin. pengguna sememangnya hanya boleh view.
boleh x ajar cara2 nak guna naive bayes classifier tu? ada gak terbaca, tapi tak paham sangatla...maklumla
english kan. kalo boleh ajar secara praktikal..dah makin pening ni...
to en.dino...saye x dpt buat lagi la..kene install linux lagi la..?but i want it....really important..please secara praktikal...add ym saye, hisamrz ok..... |
|
|
|
|
|
|
|
<?php
$filename = "/folder/something.doc";
$handle = fopen($filename, "r");
$contents = fread($handle, filesize($filename));
fclose($handle);
//paaprkan kandungan
echo $contents;
?>
p/s:code used to retrieve *.doc document and output it to browser...need to be edit to make it work on production area...
[ Last edited by slier81 at 27-7-2007 01:17 AM ] |
|
|
|
|
|
|
|
Originally posted by HishamZ at 26-7-2007 08:11 PM
Thanks for reply.
yang edit artikel tu admin. pengguna sememangnya hanya boleh view.
boleh x ajar cara2 nak guna naive bayes classifier tu? ada gak terbaca, tapi tak paham sangatla...makluml ...
install linux skrg lebih mudah dr windows sebenarnye... |
|
|
|
|
|
|
|
Originally posted by HishamZ at 26-7-2007 08:11 PM
boleh x ajar cara2 nak guna naive bayes classifier tu? ada gak terbaca, tapi tak paham sangatla...maklumla
english kan. kalo boleh ajar secara praktikal..dah makin pening ni...
...
1. Determine kategori-kategori yang ada.
2. decide part mana dalam document-document tu yg boleh dibuat sebagai basis untuk classification/categorisation guna NB tu. Tajuk nye ke? Content nye ke? Kombinasi kedua2nya ke?
3. represent dokumen-dokumen itu dengan perkataan-perkataan yang wujud dalam basis untuk classification itu. Kalau ko decide content dan tajuk satu-satu dokumen itu sebagai dasar untuk mengkategorikan dokumen, maka set perkataan-perkataan yang wujud secara distinct lah sebagai representation nya.
4. ko kumpul dokumen-dokumen yg sudah pun dikategorikan sebagai training documents.
5. Untuk tiap-tiap kategori yang ko dah determine dalam (1), hitung P(c), di mana P(c) = prior probability of documents dlm satu-satu kategori c.
6 Untuk tiap-tiap perkataan dan kategor yang ko dah kumpulkan dalam (4)i, hitung P(word|c), di mana word = satu perkataan unik atau distinct, dan P(word|c) adalah probability perkataan itu jika categori = c .
7. Most probable klasifikasi untuk satu dokumen ialah yang mana nilai P(c) * [ tiap-tiap P(word|c) ] nya yang paling maximum berbanding yang lain.
Soalan pelase.
[ Last edited by alusmetai at 28-7-2007 11:10 PM ] |
|
|
|
|
|
|
|
Reply #15 alusmetai's post
okay...tq..tapi tak clear sgtla..hehhe..x phm sgt...
macam ni, artikel yang dihantar tu, penulis dah declare kategorinya. let say, kategori : sukan
so, sistem ni dapat retrieve artikel dari mc.word, kemudian dapat detect kategori "sukan" tu, untuk di letakkan di kategori yang betul.
to slier, code tu awk yg program sendiri atau copy dari source lain? nanti nak kena acknowledge lagi. kalo awk yg buat, awak kena bg details diri awak ek..hehehehhehe..masuk gak nama awak dalam refrence nanti...hahahaha.
hopefully suma dpt guide sy ek...you all punye support sgt berharga for me.. |
|
|
|
|
|
|
|
Originally posted by HishamZ at 29-7-2007 02:59 PM
okay...tq..tapi tak clear sgtla..hehhe..x phm sgt...
macam ni, artikel yang dihantar tu, penulis dah declare kategorinya. let say, kategori : sukan
so, sistem ni dapat retrieve artikel da ...
oh, so kat mana yang ko nak pakai AI tu sebenarnya? |
|
|
|
|
|
|
|
Reply #17 alusmetai's post
simply, kat situ lah..i meant, just a simple AI. just read title yg dah di declare ok x? but technically, sy tak brp nak pandai nak pakai..i dont have any idea to proceed.. ker, ade idea lain? kalau tak payah melibatkan ai pun ok gak, asalkan dia boleh categorize based on title yang dah declare tu. so?? sy takut tak sempat la nak siapkann....adooo...
kalo ada idea lain, you guys tlg lah bgtau..asal boleh retrieve and categorize. asalkan objektif saya ni tercapai!
saya akan terus beforum n bagitau progress projek ni k.. |
|
|
|
|
|
|
|
Reply #18 HishamZ's post
kalau dah secara explicit bagitau document itu kategori begini begini, tak perlu la lagi pakai NBC tu. Tinggal tarik je dari database lah.
Tapi kalau in the future kau nak guna NBC utk text classification bolehlah guna algo kat atas tu. FYI, algo tu pun pada asalnya digunakan utk classify email samaada spam/not spam. |
|
|
|
|
|
|
|
Reply #19 alusmetai's post
hahaha...tq. baru tadi aku jmpe supervisor aku..nampaknya kene guna AI technique gak la coz tu research elelement.
macamane kalo apply rule based technique? any idea??
anyway kat mane nak dapat coding algorithm utk NBC tu? any site yg boleh tengok coding algorithm tu ke? |
|
|
|
|
|
|
| |
|