CariDotMy

 Forgot password?
 Register

ADVERTISEMENT

12Next
Return to list New
View: 4694|Reply: 34

Teknik nak retrieve and categorize article!!

[Copy link]
Post time 21-5-2007 01:57 PM | Show all posts |Read mode
hai suma...sy nak tanya teknik2 yg boleh kita guna untuk retrieve text dalam word. maybe ada algorithm yg
sesuai n usable. forumist sekalian, hrp dpt kongsi2 idea or technique...heheheh..nak siapkan tesis ni..

[ Last edited by  HishamZ at 31-7-2007 12:57 PM ]
Reply

Use magic Report


ADVERTISEMENT


Post time 21-5-2007 03:08 PM | Show all posts

Reply #1 HishamZ's post

Sorry... aku tak berapa faham... nak retrieve text from MS Word document? Nak retrieve tu guna apa? Software? Scripts? Nak retrieve ke apa? Text document? Database? :stp:


[ Last edited by  0001 at 21-5-2007 03:13 PM ]
Reply

Use magic Report

Post time 21-5-2007 06:17 PM | Show all posts

Reply #1 HishamZ's post

cuba ko cite btul2...kurang faham la..
Reply

Use magic Report

Post time 21-5-2007 07:08 PM | Show all posts
Reply

Use magic Report

Post time 21-5-2007 08:14 PM | Show all posts

Reply #1 HishamZ's post

ni ada kaitan ngan programming ke?
Reply

Use magic Report

 Author| Post time 4-6-2007 02:33 PM | Show all posts
thanks guys 4 reply. mcm ni, saya tengah buat sistem untuk manage newsletter utk sebuah organisasi. sistem webbased guna php n sql.
ok..salah satu objektif tesis saya ni ialah, sistem saya ni berupaya untuk me 'retrieve' artikel yang di taip dalam microsoft word, untuk terus di paparkan di sistem saya ni.maksud saya, kita tak perlu download document word tadi untuk mencapai isi kandungan artikel saya itu.

ringkasnya, apabila artikel yang dihantar ke sistem saya dengan menggunakan attachment ,lazimnya di dalam microsoft word, sistem saya dapat terus
copy contain artikel tersebut untuk terus di simpan di kategori yg betul di dalam sistem..

sekarang ni, saya tengah mecari teknik2 sesuai ...algorithm ke, application ke,....tentunya melibatkan programming...n melibatkan artificial intelligent concepts.
salah satu yg saya dapat cari ialah dengan menggunakkan konsep rule mining...but...saya tak paham sangat la macamana nak apply.

guys,,harap2 dapat membantu saya. ok...
Reply

Use magic Report

Follow Us
 Author| Post time 7-6-2007 09:42 AM | Show all posts
ala tekde idea kerrrr
Reply

Use magic Report

Post time 21-6-2007 11:47 AM | Show all posts

Reply #6 HishamZ's post

klau guna platform linux mudah aje nie...

try download antiword kat sini http://www.winfield.demon.nl/

dr php script just call command antiword tue cthnye:

$result=shell_exec("antiword file.doc");

make sure format .doc
output tue nanti adalah unformated form dlm btk text...
then reformat output tue.... itu jer....
Reply

Use magic Report


ADVERTISEMENT


 Author| Post time 21-6-2007 06:00 PM | Show all posts
dino...boleh explain skit x..cara2 nak guna benda alah tu..steps.hehehhe...
Reply

Use magic Report

Post time 21-6-2007 06:50 PM | Show all posts
Originally posted by HishamZ at 21-6-2007 06:00 PM
dino...boleh explain skit x..cara2 nak guna benda alah tu..steps.hehehhe...

ooo nak foot step ek....

gini caranye...   ini guna linux ok....

1. Download antiword. http://www.volny.cz/zellerin/rpmmenu.html
ambik latest version...

2. lepas download. kena install antiword tue....
just type kat console;

#  urpmi  antiword-0.37-3.src.rpm

3. after install tue bleh aa start guna......
tgk output nih.....




so output tue la guna tue view doc...
Ade beberapa perkara ko kena ambik kira

1. Saiz file mestilah tidak terlalu kecil dan tidak terlalu besar....
2. Image takkan diambil kire  jika guna teknik diatas...  boleh set  output to pdf file...

   yg nie ko try aa sendiri ek.. type man antiword utk options yg lain.......

3. Table akan jd style lain.....
4. Page diseparate ngan empty space aka new line

n then bleh start code dlm php.....

guna;

shell_exec("antiword filename.doc");


wokeh.... itu jer
Reply

Use magic Report

Post time 5-7-2007 07:00 PM | Show all posts
Aku rasa kalau nak buat newsletter, biasanya pengguna hanya baca words document yang hendak dipaparkan. Kalau bpengguna tak perlu edit lagi kandungannya dlm sistem newsletter tu, aku fikir lebih baik convert format .doc tu kepada pdf atau rtf atau lagi bagus html supaya senang diproses oleh application.

Untuk tujuan mengkategorikan documents, aku cadangkan guna Naive Bayes classifier.
Reply

Use magic Report

 Author| Post time 26-7-2007 08:11 PM | Show all posts

Reply #11 alusmetai's post

Thanks for reply.
yang edit artikel tu admin. pengguna sememangnya hanya boleh view.

boleh x ajar cara2 nak guna naive bayes classifier tu? ada gak terbaca, tapi tak paham sangatla...maklumla
english kan. kalo boleh ajar secara praktikal..dah makin pening ni...

to en.dino...saye x dpt buat lagi la..kene install linux lagi la..?but i want it....really important..please secara praktikal...add ym saye, hisamrz ok.....
Reply

Use magic Report

Post time 27-7-2007 01:12 AM | Show all posts
<?php
$filename = "/folder/something.doc";
$handle = fopen($filename, "r");
$contents = fread($handle, filesize($filename));
fclose($handle);
//paaprkan kandungan
echo $contents;
?>

p/s:code used to retrieve *.doc document and output it to browser...need to be edit to make it work on production area...

[ Last edited by  slier81 at 27-7-2007 01:17 AM ]
Reply

Use magic Report

Post time 27-7-2007 11:42 AM | Show all posts
Originally posted by HishamZ at 26-7-2007 08:11 PM
Thanks for reply.
yang edit artikel tu admin. pengguna sememangnya hanya boleh view.

boleh x ajar cara2 nak guna naive bayes classifier tu? ada gak terbaca, tapi tak paham sangatla...makluml ...

install linux skrg lebih mudah dr windows sebenarnye...
Reply

Use magic Report

Post time 28-7-2007 05:29 PM | Show all posts
Originally posted by HishamZ at 26-7-2007 08:11 PM
boleh x ajar cara2 nak guna naive bayes classifier tu? ada gak terbaca, tapi tak paham sangatla...maklumla
english kan. kalo boleh ajar secara praktikal..dah makin pening ni...
...


1. Determine kategori-kategori yang ada.

2. decide part mana dalam document-document tu yg boleh dibuat sebagai basis untuk classification/categorisation guna NB tu. Tajuk nye ke? Content nye ke? Kombinasi kedua2nya ke?

3. represent dokumen-dokumen itu dengan perkataan-perkataan yang wujud dalam basis untuk classification itu. Kalau ko decide content dan tajuk satu-satu dokumen itu sebagai dasar untuk mengkategorikan dokumen, maka set perkataan-perkataan yang wujud secara distinct lah sebagai representation nya.

4. ko kumpul dokumen-dokumen yg sudah pun dikategorikan sebagai training documents.

5. Untuk tiap-tiap kategori yang ko dah determine dalam (1), hitung P(c), di mana P(c) = prior probability of documents dlm satu-satu kategori c.

6 Untuk tiap-tiap perkataan dan kategor yang ko dah kumpulkan dalam (4)i, hitung P(word|c), di mana word = satu perkataan unik atau distinct, dan P(word|c) adalah probability perkataan itu jika categori = c .

7. Most probable klasifikasi untuk satu dokumen ialah yang mana nilai P(c) * [ tiap-tiap P(word|c) ] nya yang paling maximum berbanding yang lain.

Soalan pelase.

[ Last edited by  alusmetai at 28-7-2007 11:10 PM ]
Reply

Use magic Report

 Author| Post time 29-7-2007 02:59 PM | Show all posts

Reply #15 alusmetai's post

okay...tq..tapi tak clear sgtla..hehhe..x phm sgt...
macam ni, artikel yang dihantar tu, penulis dah declare kategorinya. let say, kategori : sukan
so, sistem ni dapat retrieve artikel dari mc.word, kemudian dapat detect kategori "sukan" tu, untuk di letakkan di kategori yang betul.

to slier, code tu awk yg program sendiri atau copy dari source lain? nanti nak kena acknowledge lagi. kalo awk yg buat, awak kena bg details diri awak ek..hehehehhehe..masuk gak nama awak dalam refrence nanti...hahahaha.

hopefully suma dpt guide sy ek...you all punye support sgt berharga for me..
Reply

Use magic Report


ADVERTISEMENT


Post time 29-7-2007 05:47 PM | Show all posts
Originally posted by HishamZ at 29-7-2007 02:59 PM
okay...tq..tapi tak clear sgtla..hehhe..x phm sgt...
macam ni, artikel yang dihantar tu, penulis dah declare kategorinya. let say, kategori : sukan
so, sistem ni dapat retrieve artikel da ...


oh, so kat mana yang ko nak pakai AI tu sebenarnya?
Reply

Use magic Report

 Author| Post time 30-7-2007 01:11 AM | Show all posts

Reply #17 alusmetai's post

simply, kat situ lah..i meant, just a simple AI. just read title yg dah di declare ok x? but technically, sy tak brp nak pandai nak pakai..i dont have any idea to proceed.. ker, ade idea lain? kalau tak payah melibatkan ai pun ok gak, asalkan dia boleh categorize based on title yang dah declare tu. so?? sy takut tak sempat la nak siapkann....adooo...  

kalo ada idea lain, you guys tlg lah bgtau..asal boleh retrieve and categorize. asalkan objektif saya ni tercapai!
saya akan terus beforum n bagitau progress projek ni k..
Reply

Use magic Report

Post time 30-7-2007 01:19 AM | Show all posts

Reply #18 HishamZ's post

kalau dah secara explicit bagitau document itu kategori begini begini, tak perlu la lagi pakai NBC tu. Tinggal tarik je dari database lah.

Tapi kalau in the future kau nak guna NBC utk text classification bolehlah guna algo kat atas tu. FYI, algo tu pun pada asalnya digunakan utk classify email samaada spam/not spam.
Reply

Use magic Report

 Author| Post time 31-7-2007 12:56 PM | Show all posts

Reply #19 alusmetai's post

hahaha...tq. baru tadi aku jmpe supervisor aku..nampaknya kene guna AI technique gak la coz tu research elelement.
macamane kalo apply rule based technique? any idea??
anyway kat mane nak dapat coding algorithm utk NBC tu? any site yg boleh tengok coding algorithm tu ke?
Reply

Use magic Report

12Next
Return to list New
You have to log in before you can reply Login | Register

Points Rules

 

ADVERTISEMENT



 

ADVERTISEMENT


 


ADVERTISEMENT
Follow Us

ADVERTISEMENT


Mobile|Archiver|Mobile*default|About Us|CariDotMy

5-1-2025 10:25 AM GMT+8 , Processed in 0.053880 second(s), 32 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

Quick Reply To Top Return to the list