communications of the arab computer society, vol.5 no.1, august

26
© Communications of the Arab Computer Society, Vol.5 No.1, August, 2012 ISSN 2090-102X ة ف ي ر ش ل ا ة وي ب ن ل ا ث ي حاد وص الأ ص ن ف ي ن ص ت ل ات ر مي ل ا( راج خ ت س ا مة س وا ق لس ا ا ي4 ، ا( مان ل س ل ا( مان ل س; ك ل م ل د ا ب ع، راق ح ي وز ف ود ع س; ك ل م ل ا عة ام ، ح ومات ل ع م ل وا ب س حا ل وم ا ل ع ة ي ل ك، اص ري ل ا11543 ة ودي ع س ل ا ة ي ب ر لع ا كة ل م م ل ، ا: ي ن رو كي ل4 د الأ ري لي ا{ fharrag , salman, eelqawasmeh } @ ksu.edu.sa

Upload: phamdan

Post on 07-Feb-2017

233 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Communications of the Arab Computer Society, Vol.5 No.1, August

© Communications of the Arab Computer Society, Vol.5 No.1, August, 2012 ISSN 2090-102X

األحاديث نصوص لتصنيف الميزات استخراجالشريفة النبوية

القواسمة إياس السلمان، سلمان الملك عبد حراق، فوزيسعود الملك جامعة والمعلومات، الحاسب علوم كلية

السعودية 11543الرياض، العربية المملكة ، : اإللكتروني ksu.edu.sa {@ fharrag , salman, eelqawasmeh }البريد

Page 2: Communications of the Arab Computer Society, Vol.5 No.1, August

تقنيات في. الخالصة من لثالث مقارنة دراسة سنقدم الورقة هذهالقبلية . المعالجة بتقييم سنقوم الشريفة النبوية األحاديث لنصوص

: االشتقاق وهي العربية الكلمات الشتقاق تقنيات ثالث ومقارنةباستخدام واالشتقاق الجذور باستخدام االشتقاق الخفيف،

إدخال فضاء إلى الميزات فضاء وتخفيض لتحويل وذلك القواميسخوارزميات أشهر من اثنين باستعمال وهذا األبعاد من أقل عدد ذو

: وهما و التصنيف االصطناعية العصبية ذات الشبكات المكائناالشتقاق . تجاهياال الدعم استخدام أن تبين التجريبية النتائج

تصنيف في المستخدمة الخوارزميات كفاءة من يزيد الخفيفنموذج أن أيضا النتائج تظهر كما الشريفة، النبوية األحاديث نصوصنموذج من أفضل أداء له كان االصطناعية العصبية الشبكات

الدعم ذات المتوسط تجاهياال المكائن مقياس باستخدام وذلكآلف للقياس 1الكلي .كوحدة

الجوهرية الكلمات، : الكلمات اشتقاق الميزات، العصبية استخراج الشبكاتالدعم االصطناعية، ذات الشريفة ، تجاهياال المكائن النبوية األحاديث نصوص .تصنيف

مقدمةِ].1

عدة أو صنف في الوثائق من لمجموعة اآللي التجميع مشكلة هو النصوص تصنيفبين من النصوص تصنيف ويعتبر النصي، محتواها على باالعتماد مسبقا معرفة أصناف

لتوجيه الوثيقة صنف موضوع تحديد مجال في تطبيقا وأكثرها صعوبة العمليات أكثراللغات بمعالجة خاص نظام من كجزء كلها العملية باعتبار أو ترشيحه أو النص إرسال

و. اإلحصائي التصنيف طرق من متزايد عدد تطبيق تم وقد التعلم الطبيعية اآلليتقنياتالمثال سبيل على منها ونذكر األخيرة الفترة في النصوص تصنيف مجال تقنية: [17]في

وتقنية الدعم روشيو، ذات الساذج تجاهياال المكائن بايس المسماة االحتماالت وتقنية . دور ذو النصوص تمثيل ويعتبر القرار أشجار تقنية إلى باإلضافة القصوى األنتروبي وتقنيةمن ممكن عدد أكبر توظيف على يساعد ألنه النصوص تصنيف ألنظمة بالنسبة أساسي

. للحاسب مفهومة صيغة إيجاد النصوصفي معلوماتعن عبارة وهي الكلمات كيس طريقة وفق عادة النصوص حجم تمثل نفس له متجه

. المعجم هذا كلمات تكرار حساب على مكوناته تحتوي والذي النص مفردات معجمبين ومن النص داخل المفردة أو الكلمة وشكل ماهية تحديد في عادة الطرق وتختلف

) ( ، النص في نراها كما للكلمة السطحي الشكل طريقة نجد استخداما الطرق أكثر ( ) ( الكلمة من جزء الكلمة مشتق طريقة و اإلعرابي الكلمة شكل الكلمة ساق وطريقة

) واإلضافات الضمائر حذف بعد عليها تستخدم . [15[]10]نتحصل أخرى طرق توجد كما . - العدد ويعتبر النص داخل المفردات لتمثيل المتعددة الكلمات وصيغة غرام ن تقنيات . لذلك النصوص تمثيل عملية تواجه التي المشكالت أهم من الميزات فضاء ألبعاد المرتفعللنص معنوية قيمة على تحتوي ال التي المفردات لحذف الميزات استخراج طرق تستخدم

) إطار) في وذلك النصوص بين التمايز خلق على ضعيفة قدرة لها تكون التي الميزات مثل. المصنفات وكفاءة فعالية رفع

في االشتقاق خوارزميات من لمجموعة تقييمية دراسة تقديم هو الورقة هذه من الهدف . الصرف الشكل استخدام تتضمن الدراسة الشريفة النبوية األحاديث نصوص تصنيف

الجذور على المعتمد واالشتقاق الخفيف االشتقاق تقنيات إلى باإلضافة النص لكلمات . عربية نصوص مدونة باستخدام مقارنتها تمت النتائج القواميس على المعتمد واالشتقاق

العصبية الشبكات خوارزمتي مع الشريفة النبوية األحاديث من مجموعة في ممثلة. النصوص هذه لتصنيف االتجاهي الدعم ذات والمكائن االصطناعية

: مجموعة يلخص الورقة من الثاني القسم كالتالي منظم هو الورقة هذه من تبقى ما . الشبكات خوارزميتي الميزات وتخفيض استخراج بموضوع الصلة ذات المنجزة األعمال

Page 3: Communications of the Arab Computer Society, Vol.5 No.1, August

القسم في بالتفصيل وصفهما تم االتجاهي الدعم ذات والمكائن االصطناعية العصبيةتخفيض. في المستخدمة الثالث التقنيات بتقديم الرابع القسم يهتم وفيما الثالث

المتحصل التجريبية النتائج مجموعة يناقش الخامس القسم فإن الميزات واستخراج. الورقة لخاتمة السادس القسم خصص حين في عليها

بت .2 المتصلة الميزات األعمال خفيض

يمكن بال ال تقنيات تقسيم عموم وهما ميزتخفيض رئيسيين قسمين إلى استخالصاتإلى خوارزمياتتهدف . الميزاتاختيار و الميزات الميزات فرعية اختيار اختيار مجموعة

تمثيال األكثر الميزات األصلي لمن أما لفضاء الميزات خوارزميات للميزات استخراجإلى األصلي فتهدف الفضاء أبعاد أصغر فضاءإلى للميزات تحويل عدد بتقليص وذلك

األصلي أن . الفضاء أثبتت خوارزميات وبما قد الميزات تقليص فعالاستخراج في أبعاديتهافإنه النص األخيرة وص، السنوات في تم لتقييم بالقيام قد الدراسات من من العديد الكثير

ال تخفيض وتقنيات قام . اتميزطرق وآخرون فقد مقاييس ب[ 24] يانغ من خمسة تقييمالميز مجموع اشتهارااألكثر اتاختيار ال على رويترز ات و بيانات هذهفي وأوشميد،للميزات الدراسة مربع أدنى وخوارزمية قربا األكثر جار ك خوارزمية استخدام تم

مع االتجاهي خوارزميبالمقارنة الدعم ذات المكائن في . ة موحدة طريقة استعملت كمامقاييس وذلك تقييم الميزات دق تخفيض حيث ]تهامن إستراتيجية [ 6فورمان. استخدمشام من تقييم لمجموعة الميز لة اختيار اشتهارا مقاييس األكثر الدراسة. ات هذه قام في

من العديد استخدم كما للتصنيف كأداة االتجاهي الدعم ذات المكائن باستخدام المؤلفذلك في بما البيانات إلى مجموعات باإلضافة سكيو بيانات من مجموعات مجموعة أخرى

]الالبيانات وآخرون. باكوس أخرى [ 1متجانسة مناهج بدراسة تقدما قاموا الختيارأكثرعلى ميزال تعتمد والتي القرارات درجات أعلى ات بين اتخاذ الترابط أخذ إلى باإلضافةمجموع وذلك االعتبار عين في ات ميزال اختيار الميزات عند ال مثل ات نسبةطريقةوطريقة ، فضلىال الترابط على باالعتماد الميزات اختيار .وطريقة ماركوف غطاء

الباحثين قام وقد من ع قلة ال لى بالعمل تخفيض تأثير تصنيفعلى اتميزدراسةو . ةالعربي وصالنص لصيام التجريبية ]النتائج أن[ 19آخرون الهجين أظهرت النموذج

مشتقات المقترح من و والمكون ال إحصائية يمثل خفيفة أنسبالخوارزمية أخرىللنصوص بالنسبة ]لإلشتقاق مصلح. مربع ا[ 14العربية تشي أسلوب طريقةكستخدم

وآخرون. ]الميزات الختيار ومقارنة [4دويري بتقديم ل قاموا تقنيات اتالميزتخفيض ثالثالنص و على تطبيقها تم تقنيات ة العربي وصالتي واالشتقاق وتشمل العام االشتقاق

تجميع وتقنية و الكلمات. الخفيف ال [7آخرون ]حراق تحليل طريقة المفرد استخدموا ةقيمالصلة ذات السمات أهم ]باللتحديد وآخرون. زهران خوارزمية [ 26تصنيف بانجاز قاموا

القطرية األساسات وظيفة على تعتمد التي الجسيمات خوارزمية مع الشبكات سربكتقني ب ميزالاختيار ل اتاألمثل وذلك وطريقة مقارنات الوثائق داخل التواتر طريقة مع تها

ال والطريقة الوثائق تواتر عكس الكلمات .تواتر مربع تشي إحصائية

النصوص .3 تصنيف

الورقة النموذج هذه في نقترحه يستخدم الذي من المقترح مختلفين اتالمصنفنوعيناالتجاهي الدعم ذات المكائن ومصنف االصطناعية العصبية الشبكات مصنف في. وهما

ب سنقوم الفصل هذ هذا .ينتقديم المصنفين

اإلصطناعية .1.3 العصبية الشبكات

يمكنها والتي التصنيف طرق أشهر من واحدة هي االصطناعية العصبية الشبكات إنالمصنفين من وكل النصوص، تصنيف مجال في خطية وغير خطية إشكاليات معالجة

الخطي [16]الخطي جيدة [12]والغير نتائج إحراز الشبكات. [31]يمكنهما تطبيق تم لقد

Page 4: Communications of the Arab Computer Society, Vol.5 No.1, August

باستعمال النصية الوثائق لتصنيف كبيرة بصفة الباحثين طرف من االصطناعية العصبية . وارماتر قام الميزات متجهات من أنواع ك [31]عدة الوثائق عناوين متجهاتباستخدام

. وآخرون الم النصوص تحليل [12]لتصنيف طريقة كتقنية المكوناتاستعملوا األساسية . العصبية للشبكات كمدخل المستخدمة الميزات لتقليصحجم

نموذج وفق االصطناعية العصبية الشبكات باستخدام النصوص تصنيف مشكلة حل يمكنالتي- العقد من مجموعة عن عبارة هي العصبية الشبكات أن بحيث الخلفي، االنتشار

. الذاتي التعلم على القدرة لها الشبكات هذه البيولوجية لألعصاب رياضيا نموذجا تمثلمن أنها كما األخطاء تحمل هوية يوعلى تحديد في بكثرة مطبقة وهي التشويش، ضد عة

المعالجة وفي الصور معالجة وفي التصنيف وفي األنماط على التعرف وفي األنظمة . ,,, اتحاد على الحجم معتبرة نصية وثيقة أي تصنيف قرار يعتمد إلخ الطبيعية للغات اآللية

من كمصدر البديهياتمجموعة النص في كلمة كل اعتبار ويمكن المصادر مختلفةالنص هذا .[17]لتصنيف

- االنتشار ذات الشبكات غرار على االصطناعية العصبية للشبكات نماذج عدة توجد - االنتشار ذات والشبكات عصبية. المعاكسالخلفي شبكة استخدام تم الورقة هذه في

مماسية –أمامية تنشيطية دالة على تحتوي مخفية طبقة ذات الطبقات ثالثية التشبع . ) تدريب) يتم الخطي الشكل من خارجية بطبقة متبوعة المقطع زائدية الزاوية ظل - العناصر في الشبكة هذه مداخل وتتمثل الخلفي االنتشار خوارزمية طريق عن الشبكة

. لمتجهاتالمكونة الشكل الوثائق هذه أصناف في فتتمثل المخارج أما النصية الوثائق.1رقم - خلفي انتشار نموذج ذات الطبقات ثالثية عصبية شبكة تركيبة يظهر

- نموذج. 1الشكل. خلفي انتشار نموذج ذات الطبقات ثالثية عصبية شبكة .

االتجاهي .2.3 الدعم ذات المكائن

االتجاهي الدعم ذات نموذج المكائن اآلل للهي تم تعلم فالديمير حها ااقتري طرف مناألساسية[. 21]فابنيك االتجاهي الفكرة الدعم ذات على للمكائن العثور فرط هي أفضلفئتين سطح بأكبر لفصل صنفين ع هامش أو من ن ممكن سابقة مجموعة البيانات

في ا مبين هو كما رقم لتصنيف تحديد. 2الشكل المناسب بعد السطح يمكن فرط ، تقسيم استخدامه تقع إلى البيانات في الذي الجانب أساس على البيانات فئتين هذه .فيه

التحو تطبيق خالل المناسبة يمن فضاء الت حساب على قبل السطح البيانات فرطال في ت المستخدم يمكن االتجاهي فصل، الدعم ذات المكائن استخدام الحاالت عميم إلى

بين الحدود فيها تكون من الالتي ال فئتين . النوع خطي غير

Page 5: Communications of the Arab Computer Society, Vol.5 No.1, August

االتجاهي نموذج. 2صورة. الدعم ذات الخطية المكائن .

ال صيغة الدعم ذات للمكائن بالنسبة ا االمخرج : لخطيتجاهي هي ة( 1)

العادي الهو حيث السطح متجه و لفرط اإلدخال ، متجه يتم الفي. هو الخطية، حالةأساس الهامش تحديد بين المسافة على و من ما السطح اإليجابية فرط األمثلة أقرب

إحصائي ك والسلبية. له نموذج مجموعة فعال مع التعامل على من القدرة جدا كبيرةاالتجاهي ، اتميزال الدعم ذات المكائن في تستخدم واسع نطاق التعرف مجاالتعلى

مثل انماألعلى على ط على والوجالتعرف والتعرف اليد أرقام ه، وتصنيف الخط معزولة،استخدمت[. 2الجينات ] االتجاهي وقد الدعم ذات مجال مؤخرا المكائن في تصنيفبنجاحجواشيم . وصالنص ال [ 9 ]قام ال وثائق بتصنيف من مجموعة باستخدام في المكائنفئات

االتجاهي الدعم ال ، ذات عليها نتائج وكانت الحصول بكثير أفضل المتحصل تم التي تلك منباستخدام ال عليها للتعلم أخرى باي يآلطرق تقنيات الساذج مثل قربا وك س األكثر .جار

]استخدم وبالمثل، االتجاهي [ 11كوك الدعم ذات أخبار المكائن االنباء لتصنيف وكالةال رويتر من مجموعة و في المصنفك تفئات، من أفضل نتائج على قربا حصل األكثر .جار

حاول الترادف، كما مشكلة من التخفيف في كوك تتمثل مختلفة والتي واصفات وجودم ب دمج وذلك ماثلة، تمعاني خالل االتجاهي همن الدعم ذات الفهرسة مع للمكائن تقنية

الكامنة للمتغيرات [.11]المعنوية

اللفظي .4 االشتقاق مناهج

على االشتقاق .1.4 الجذور المستندعلى المستندة المشتقات جميع تعتمد الجذور وهي نفس على النمطمطابقة التقنية

الكلمة جذر على حيث للعثور وال ، اللواحق إزالة بعد الجذر استخراج الم يتم ةتعلقسوابق]ب معينة خوارزميات إن [. 19كلمة ل كاالشتقاق تطبيق في اختيار طريقة يساعد الميزات

الميزات تخفيض ل عدد المعجمية الصيغ نفس يتم الكلماتأو لمفردات ألن من توليدهاأن . الجذر تقليص هذكما في تساعد التقنية وت حجم ه الوثائق سرعة متجهات من زيد

ا التعلم أنواع من [.4لمصنفات ]لكثير

2.

2.1.

Page 6: Communications of the Arab Computer Society, Vol.5 No.1, August

2.2.2.3.الخفيف .2.4 االشتقاق

ب يتعلق الخفيف ال حذف عملية االشتقاق من صغيرة أو/ سوابق مجموعة دون الو لواحق،المزيدة ا الحروف مع الكلمة لتعامل وسط محاولة ، الموجودة نمط ودون على هاالتعرف

جذر أو عن الخفيف . هاالبحث االشتقاق فإن الجمع يمكن وبهذا من بين نا صحيح بشكلل المختلفة األوجه من كب في لكلمات مجموعة جذعية ف رىفئات ذلك ومع فيفشل ي قد،

بين ال ال أخرى مجموعات جمع التي من بعض أشكال مع تجمع أن المفترض [.19[]13 ]منالخفيف األخرى لمقارنةبا، االشتقاق الطرق أداء مع تحسين إلى يهدف مع اتنفالمص،

معاني على [.4]الكلمات الحفاظ

3.3.1.3.2.3.3.على .3.4 المستند في االشتقاق قاموسال البحث

في البحث على المستند ه االشتقاق عن والقاموس، معالجة عبارة تهدف مرحلة قبليةحذف الل إلى من محدودة عملية. وامجموعة هذه، حق على االشتقاق تتكئ قواعدأي ال

القواعد نحوية من صغيرة جد مجموعة على هذ تو. صرفيةالوإنما الطريقة ستند علىهوهما أساسيين وجذورها وقاموس واحقاللملف : عنصرين على . المفردات جذرللحصول

معالج كلمة القاموس، ة،أي في أوال البحث في فيتم موجودة غير الكلمة كانت إذاعملية فإنه القاموس، تطبيق و بتر سيتم الكلمة الكلمة على مع إضافته يتم الناتج الجذع

. القاموس إلى

التجارب.5

الوثائق تحويل منها خطوات عدة عبر المصنفة الوثائق تمر النصوص تصنيف نظام فيواشتقاق الفارغة الكلمات هذه .[25[]13[]11[]4[]3[]2]الكلمات جذور وإزالة تطبيق بعد

تتلخص والتي الفهرسة عملية عبر تمر األخيرة هذه فإن الوثيقة على القبلية المعالجاتاألبعاد تقليص أو األلفاظ وانتقاء الكبير المتجه إنشاء وهي أساسية مراحل ثالث []14]في

األلفاظ [28[]19 .[20]وتثقيلأصناف من صنف لكل المميزة الخصائص تعلم طريق عن المصنف إنشاء يتم األخير في

هذا فعالية اختبار عملية تبدأ حتى اإلنشاء عملية تنتهي إن وما التدريب وثائق مجموعةالتطابق درجة من التحقق مع االختبار وثائق مجموعة على تطبيقه طريق عن المصنف

. الوثائق مدونة في المترجمة وتلك المصنف طرف من المتخذة القرارات بين

البيانات. 1.5 مجموعة

خاص نوع من مدونة استخدام آثرنا فإننا للمصنف أفضل تقييم أجل جملة من من تتشكل." " التسعة الكتب لموسوعة المدمج القرص من المنتقاة الشريفة النبوية األحاديث من

على وتحتوي نصوصها بخصوصية المدونة هذه )ةقيوث 453تتميز عشر أربعة على موزعة. صنفا( 14

رقم خطوات 1الجدول وبإتباع المدونة، لهذه بالنسبة صنف لكل التدريب وثائق عدد يبيننصي مصنف نموذج الفارغة إنشاء العربية الكلمات بحذف قمنا القيام فإننا إلى باإلضافة

Page 7: Communications of the Arab Computer Society, Vol.5 No.1, August

للكلمات االشتقاق تدريب 1بعملية في العربية المدونة هذه ثلثي باستخدام قمنا كما. فعاليته اختبار في الباقي الثلث استخدم فيما المصنف

وثائق الصنفاسم عدد23اإليمان24القرآن22العلم

22لجناياتا 24الجهاد

واآلداب 31األخالقالسابقة 12األمم11السيرة

واألحكام 24األقضية23العبادات

25لمعامالت األشربة

واألطعمة31

والزينة 34اللباس األحوال

الشخصية24

الشريفة : 1جدول النبوية األحاديث لمدونة بالنسبة صنف كل وثائق عدد

التقييم .2.5 معايير

تكون التي التقييم معايير باستخدام نقوم فإننا للنصوص اآللي التصنيف لمهمة بالنظرأخرى أعمال مع والنتائج الطرق بمقارنة لنا سيسمح ما وهذا ممكن، حد أكبر إلى قياسية

. المجال نفس في

= : عليها المتحصل الصحيحة األصناف عدد د المتحصل الدقة لألصناف الكلي العدد(2عليها )

= عليها: المتحصل الصحيحة األصناف عدد إ الصحيحة االسترداد لألصناف الكلي العدد(3)

آف : د + )د ×إ × 2 = 1مقياسآف (4إ

اإلدخال. 3.5 وبيانات القبلية المعالجات

االصطناعية العصبية الشبكات فعالية تقييم هو الورقة هذه في تجاربنا من الهدفالشريفة النبوية األحاديث مدونة نصوص تصنيف في االتجاهي الدعم ذات والمكائن

القسم في المستند 1.5الموصوفة واالشتقاق الخفيف االشتقاق تقنيات باستخدام وذلكوتخفيض استخراج مرحلة في القاموس في البحث على المستند واالشتقاق الجذور على

عمليات. إجراء وبعد الفارغة الميزات الكلمات كلمة حذف لكل الكلمات جذور واشتقاقوثق - ) وثيقة كلمة مصفوفة شكل على الكلمات هذه بتمثيل نقوم الوثيقة، .× جفي لف جت

وثق( ك أن =ج علما ج بحيث المدونة في وثيقة كل و... 1يمثل .ن، لف ك ت المرات ج عدد هول اللفظة فيها ظهرت التي المتكررة وثق كالغير الوثيقة = ج في ك . 1حيث حساب... م

و ك الوزن ل ج لفظة سالتون ك لكل طرف من المستخدمة الطريقة نفس باستخدام ]يتم22]: يلي كما والمعرفة

1 : ) ( الموقع على والموجود درويش لكريم سيبويه الجذور مكتشف وبرنامج العام المشتق برنامج الكلمات اشتقاق برامج استخدمناhttp://www.glue.umd.edu/~kareem/research/.

Page 8: Communications of the Arab Computer Society, Vol.5 No.1, August

ك وزن لف.= ج ك ت .×ج . وثق ت (5 )ك ع

. وثق اللفظة ك حيثت تحوي التي المدونة لوثائق اإلجمالي العدد وهو الوثيقة تردد و كلهو. وثق. ت الوثيقة كع عكستردد :هو يلي كما عنه ويعبر

. وثق. ت ) ك ع ن= .لغ وثق (6( )كت

المدونة لوثائق الكلي العدد هو ن .[24]حيث

1.3.5. اإلدخال. بياناتل طبقا متجهات أربعة باستخدام الشريفة النبوية األحاديث مدونة تمثيل تخفيض تّم تقنية

المستعملة : . الميزات الكلمات متجه هي األربعة ( المتجهات و) ، اشتقاق متجهبدونالخفيف الجذر ،االشتقاق على المستند االشتقاق على ومتجه المستند االشتقاق ومتجه

في الجدول. البحث متجهات أربعة لخصائص الصف وي 2رقم القاموس من مختلفة نسخأن. ائالوث إظهار هو الجدول هذا من الغرض ال ق في تساعد االشتقاق منتقليل تقنيات

تقليل وبالتالي البيانات، مجموعة مع حجم حجم للتعامل المطلوبة هذهالذاكرة]ال ه من[. 4مجموعة نرى خالل أن يمكننا الجدول على ذا المستند االشتقاق متجه أن

في ال يالقاموس البحث حيث من النتائج أفضل )حجمعطينا 0.67 ) و حيث ميغابايت منالميزات ) . (739عدد

الحجم المتجهبالميقابيت

الكلمات عددالدالة

اشتقاق 3.644055بدونخفيف 2.282536اشتقاق

الجذور مستندعلى 0.971063اشتقاقالبحث على مستند اشتقاق

القاموس 0.67739في

الوثائق . 2جدول. خصائصمتجهات .

ا لمتجه الكبير الحجم ا ) اتلكلمبسب إدخال كن ميا لفإنه ( شتقاقبدون كمتجه استخدامهالنتائج رداءة بسبب وهذا للمصنفات ]الوبالنسبة االشتقاق [. 18أداء نستخدم فإننا لذلك

الجذور ،الخفيف على المستند على واالشتقاق المستند في واالشتقاق القاموسالبحثمعجم اتميزالاستخراج لتقنيات ك حجم لتخفيض األصلي وذلك قليل إلى المفردات عدد

الكلمات .المشتقةمن

المصنفات. 2.3.5 توصيف ، تجاربنا بم في ذات أداء ةقارنقمنا والمكائن االصطناعية العصبية الشبكات مصنفات

االتجاهي . وذلك الدعم الميزات عدد تغيير خالل بالنسبة من اإلدخال بيانات حجماالتجاهي الدعم ذات والمكائن االصطناعية العصبية م الشبكات لحجم اساوييكون

المستخدمة الوثائق أو . متجهات حجمه فإن الكلمات لمتجه )هدابعأعدد بالنسبة (ميزاته هو ؛} 4055هو األبعاد عدد فإن الخفيف االشتقاق لمتجه متجه ؛} 2536 بالنسبة بالنسبة

هو األبعاد عدد فإن الجذور على المستند االشتقاق لوبالنسبة 1063 االشتقاق متجهعلى في المستند ل} القاموسالبحث مساويا يكون األبعاد عدد .739 فإن

االصطناعية العصبية الشبكات لمصنف المخفية )فإن بالنسبة الطبقات 10هو (مفعددطبقات أما على 14هو ف( مخ)المخرج عدد باالستناد .عدد وذلك الحديث مدونة أصناف

والخطأ التجربة مقاربة اعتماد تم ال على حصول للوقد الطبقات العدد هذا من مناسبتوفر التي في المخفية جودة التصنيف لنا البيانات وذلك دقة أساس لل على ةشبكالمدخلة

الخلفي. العصبية باالنتشار الخطأ ذات العصبية الشبكة معلمات ضبط تم مبين كما هو كماالجدول .3رقم في

Page 9: Communications of the Arab Computer Society, Vol.5 No.1, August

القيمالمعلماتالتعلم (معدل 0.050ت )الزخم (معدل 0.010ز )

) تك ) التكرار مرات 1000عددللخطأ التربيعي م)المتوسط

خ ( ت0.001

. .3جدول االصطناعية العصبية الشبكات مصنف معلمات

لمصنف االتجاهي بالنسبة الدعم ذات وعدد 296هو الدعممتجهات عدد فإن ، المكائنالم من 4رقم الجدول. 14 وه خرجفئات تبقى ما المستخدمة يلخص إعداد المعلمات في

االتجاهي الدعم ذات .المكائن

القيمالمعلماتالنواة خطينوع1.000درجة

النواة وظيفة في 0.000قاماالنواة وظيفة في 0.000المعاملاإلنهاء معايير في 0.001االحتمال

) التعقيد ) كلفة 1.000سيالتقديرات احتماالت 0.000حساب

التقلص في االستدالل 1.000استخداماالتجاهي مصنفمعلمات .4جدول الدعم ذات .المكائن

والتحليالت. 4.5 النتائج

آف لتصنيف ا ةنظمأداء أتقييم تم لمقياس الكلي المتوسط مقياس حيث،} 1باستخدامآف لمقياس الكلي المتوسط قيمة حساب باال 1أن قيم يتم إلى الدقة ستناد تي

تج واالسترداد. ، افي بم ربنا ذات أداء ةقارنقمنا والمكائن االصطناعية العصبية الشبكاتاالتجاهي باستخدام ب الدعم و الميزات كافة تخفيض استخدام الميزات.متجهات

التصنيف 5و 4، 3األشكال نتائج .تبين

الشبكات .3 شكل لمصنف بالنسبة التصنيف االصطناعية نتائج العصبية. المستخدمة الميزات تخفيض تقنية بحسب

Page 10: Communications of the Arab Computer Society, Vol.5 No.1, August

االتجاهي .4 شكل الدعم ذات المكائن لمصنف بالنسبة التصنيف نتائج. المستخدمة الميزات تخفيض تقنية بحسب

ال خالل أن 3رقم شكل من نرى أن يمكننا ال ، ل قيمة الكلي آ ممتوسط بالنسبة 1فقياسالشبكات باستخدام لمصنف االصطناعية )العصبية الميزات استخدامبدون أي جميع

ل}( مساوية تكون عدد 0.42االشتقاق حيث ل} األبعاد ، مساويا خالل . 4055يكون ومنأن 4رقم شكل ال نرى أن يمكننا ال ، ل قيمة الكلي آ ممتوسط لمصنف 1فقياس بالنسبة

االتجاهي الدعم ذات ل} المكائن مساوية .0.44تكون

العصبية . 5شكل. الشبكات لمصنفات بالنسبة التصنيف نتائج مقارنة. اإلتجاهي الدعم ذات والمكائن االصطناعية

مقياس ،5رقم الشكل خالل من قيم أن نرى أن لمصنفاتبالنسبة 1فآيمكننااإلتجاهي الدعم ذات والمكائن االصطناعية العصبية استخدام تت الشبكات عند زايد

في البحث على المستند واالشتقاق الجذور على المستند واالشتقاق الخفيف، االشتقاقك الميزات القاموس لتخفيض ي . تقنيات نرى كما أن مقياس أفضليةمكننا 1فآقيم

باستخدام بالنسبة االصطناعية العصبية الشبكات على لمصنف المستند االشتقاق

Page 11: Communications of the Arab Computer Society, Vol.5 No.1, August

القاموس في عن البحث الناتجة نظيراتها االشتقاق استخدام على أو الخفيف، االشتقاقالجذور على باستخدام المستند .أو الميزات مصنف جميع على تنطبق المالحظة ونفس

حيث اإلتجاهي الدعم ذات مقياس أفضلية نشاهدالمكائن استخدامعند 1فآقيمالخفيف عن االشتقاق الناتجة نظيراتها الجذور استخدام على على المستند أو االشتقاق

القاموس في البحث على المستند باستخدام االشتقاق . أو ت الميزات حجمقليص جميعساعد كبير المتجهات الوقت بشكل تخفيض لكال التدريبلعملية الحسابي على بالنسبة

أن المصنفين. نجد االصطناعية يحسابالالوقت حيث العصبية الشبكات لمصنفالقاموس باستخدام في البحث على المستند )االشتقاق ،(ثانية 86.75يساوي

الجذور وباستخدام على المستند االشتقاق وب،( ثانية 159.53يساوي )االشتقاق استخدامالميزات وباستخدام ،( ثانية 1275.70يساوي )الخفيف (جميع اشتقاق ) يساوي )فهو دونلمصنف (. ثانية 2168.96 اإلتجاهي وبالنسبة الدعم ذات يحسابالالوقت فإن المكائن

القاموس باستخدام في البحث على المستند وباستخدام،( ثانية 2.78يساوي )االشتقاقالجذور على المستند )االشتقاق االشتقاق وب،( ثانية 4.04يساوي الخفيف استخدام

( الميزات وباستخدام ،( ثانية 10.23يساوي (جميع ( اشتقاق )فهو دون 16.54يساوي القيم و(. ثانية من بكثير أسرع هي القيم هذه السابقة حسابالكل الشبكات ية لمصنف

االصطناعية .العصبية

الخالصة.6الورقة، هذه ك في االشتقاق أن بتبيان أوال في اتميزالتخفيض لتقنية قمنا يساعد

وكفاءة ن يتحس وذلك العربي وصنصالتصنيف أداء الشبك ة العصبيةات باستخدامو ال االصطناعية ذات استخدام .االتجاهيدعم المكائن أن أكدنا االشتقاقخوارزميات كما

ل ال كطريقة التقليل اختيار في يساعد الميزات ميزات عدد الصيغ من ألن نظرا وهذال بنيوي لكلمات المعجمية قالب من توليدها العديد واحد أساسييتم تمثيل يتم وبالتالي، ،

الجذع نفس من إنشاؤها تم التي الميزات ت هذ. واحدةميزة ك من التقنية حجم ه من قللالوثائق التعلم تومتجهات سرعة من التصنيف في زيد من مراحل للكثير بالنسبة

وخاصة ا ب التي تلك لمصنفات، ل مجموعة الفحص تقوم أجل تدريب البيانات الكاملة منالشبك مثل اختبار وثيقة و ات كل االصطناعية ال العصبية ذات قدو. االتجاهيدعم المكائن

من أفضل االصطناعية العصبية الشبكات أن التجريبية النتائج ذات أظهرت المكائنحيث دعم ال جيد تقديم على ةقادر تكاناالتجاهي ل أداء باستخدام لتصنيف بالنسبة وذلكآف اس يقم ل} الكلي أفضل الثالث التقنيات بمقارنة .1المتوسط أساس على لالشتقاق

تصنيف، في دقة البحث على المستند االشتقاق أن من القاموسوجدنا أفضل كانالجذور على المستند االشتقاق ومن الخفيف، بالنسبة االشتقاق الشبكات وذلك لمصنف

االصطناعية أن العصبية وجدنا كما من ، أفضل كان الخفيف المستند االشتقاق االشتقاقفي البحث الجذور ومن القاموسعلى على المستند االشتقاق لمصنفبالنسبة ومن

ال ذات . االتجاهيدعم المكائنالمستقبل، القيام في طريق عن العمل هذا نطاق توسيع إلى نتطلع خرىأبتجارب نحن

الكالم مكونات توسيم باستخدام وذلك القبلية المعالجات مجال نتطلع العربي؛ في كمال وتقنيات استخدام أيضا، في أخرى طرق الميزات التصنيف لتخفيض تقنية عملية مثل

. األمثل الجسيمات أن سرب البيانات كما من المزيد التدريب واستخدام يةالوثائقمن قدرة سيمكننا ال تحسين لمصنفات لغل يةتعلمالنماذج العصبيةات الشبكات

و ال االصطناعية ذات .االتجاهيدعم المكائن

العربية .7 باللغة المراجع

[1 . و[ باكوس " M.Sج " نظم. والمعارف النص تصنيف أجل ميزة اختيار العالي ، كامل ، .491-468ص( 4 )9، 2006المعلومات

Page 12: Communications of the Arab Computer Society, Vol.5 No.1, August

[2 ]C.J.C. Burges." نمط. " لالعتراف الموجه الدعم األجهزة على توضيحية أمثلة وهناك ، المعارف واكتشاف البيانات .974-955( : 2 )2، 1998استخراج

الدولي[ 3] ". Cavnarالبنك " في النص تصنيف أساس على غرام ن فاليس وترينكل ، .SDAIR - 94وقائع المعلومات واسترجاع الوثائق تحليل على الثالثة السنوية الندوة ،

المتحدة، الواليات ، فيغاس ص 1994 الس ،161-175. [4 ]R.M .، " M.Nالدويري . لتصنيف. تقنيات من الحد ميزة ، الخصاونة ن ، الرفاعي

" ، والتكنولوجيا المعلومات للعلوم األميركية الجمعية مجلة ، العربي ص( 11 )60النص ، 2347-2352 {{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{،2009 .

[5 " " ]، صخر شركة ، الشريفة النبوية السنة التسعة الكتب من ، 1997موسوعةhttp://www.Harf.com .

[6 " لتصنيف[ ميزة اختيار للمقاييس التجريبي النطاق واسعة دراسة ، فورمان غ "، التعلم آلة البحوث مجلة ، . 3،}}}}}} 2003النص

" Harragواو[ 7] " ، العربي النص لتصنيف العصبية الشبكات ، القواسمي محمد وهاء ، ICADIWT'09وقائع ، ص 2009 ،778-783 .

[8 " فريدة[ قيمة تحلل استخدام حول ، أقرع وجيم ، سايمون سعادة ، األزواج ص " وقائع في ، النص السترجاع 1السترداد عمل ورشة الحاسوبية المعلومات سيام

، . 2000المعلوماتJoachims[ ". 9ت " ]، أطروحة الدعم ناقل آالت باستخدام النص لتصنيف التعلم و ،

، . 2002كلوير". Krovetzر[ 10] " المؤتمر وقائع في االستدالل عملية باعتبارها مشاهدة مورفولوجيا

والتطوير البحث على إم سي إيه العراق اعمار لشؤون عشر السادس السنوي الدولي ، المعلومات استرجاع ص 1993في ،191-203 .

[11 ." المؤتمر[ " وقائع في الدعم متجه آلة باستخدام النص تصنيف اآللي ، كوك تي جيهأكتوبر ، اليابان ، كيتاكيوشو ، العصبية المعلومات لمعالجة ص 1998الدولي ،347-351 .

[12 ]S.L.Y .و ، :D.Lالم " " في. ، تصنيف نص العصبية شبكة لبناء ميزة تخفيض ، لي( المتقدمة للتطبيقات البيانات قواعد لنظم السادس الدولي ،( DASFAA'99المؤتمر

ص 1999 ،195 ." Larkeyالم[ 13] استرجاع لتحسين وانطالقا ، لي وكونيل ، الم باليستيروس ،

" : وقائع ، التحليل حدوث والتعاون الخفيفة انطالقا العربية SIGIR'02المعلومات ، ص 2002 ،275-282 .

[14 " استنادا[ ساحة المعالم استخالص تشي ، ألف نص Svmsمصلح تصنيف العربية " ، اآللي الحاسب علوم مجلة ، اللغة )3،}} 2007نظام ص( 6 ،430-435 .

" Nakovص[ 15] " ، البلغارية عن إعرابي جذوع وتقييم تصميم ،2003 .[16 " معالجة[ " استرجاع التلقائي النص في النهج الترجيح األجل جيم وباكلي ، سالتون غ

، واإلدارة ، )24،}}}}} 1988المعلومات ص( 5 ،513-523 .[17 " واو[ " اآللي النص تصنيف في التعلم ، Sebastianiآلة الحوسبة إم سي إيه مسوح ، ،

2002 {{{{{{{{{{{{{{{{{{{{{،34( ص( 1 ،1-47 .[18 . س[ و ، ألف " Omatuسالمات إلى تستند ويب صفحة لتصنيف العصبية الشبكات

" ، العصبية الشبكات على المشترك الدولي المؤتمر أعمال ، المعزز والتعاون الشراكةص 2003 ،1792-1797 .

[19 ]M.M. Syiam ، Z.T .و ، " M.Bفايد " .، العربي النص لتصنيف ذكي نظام ، حبيبIJICIS ، 2006 ، 6 ص )1( ،1-19 .

[20 " " ]، النص لتصنيف الترتيب فعالة تحقيقات إجراء ، وعاشرا تشنغ وانغ واي ، تان س

Page 13: Communications of the Arab Computer Society, Vol.5 No.1, August

SAC'08 مارس ، سيارا البرازيل ، فورتاليزا الصفحات 2008، ،407-413 .". Vapnikخامسا[ 21] " . ، برلين ، سبرينغر التعلم نظرية اإلحصائية طبيعة إن . 1995ن[22 ]، Vechtomovaسين ، Karamuftuoglu " صلة على ، الدين سراج وروبرتسون م

." ، واإلدارة المعلومات معالجة االستعالم مصطلحات مفردات بين والتماسك وثيقة2006 {{{{{{{{{{{{{{،42( 5 ){{{{{{{{{{{{{{،1230-1247 .

" Wermeterس[ 23] " واسترجاع. ، النص تصنيف الداللي للتعلم العصبية الشبكة وكالء ، )3،}}}}}}}} 2000المعلومات ص( 2 ،87-103 .

[24 " المؤتمر[ " أعمال ، النص تصنيف أساليب في النظر إعادة إن ، عاشرا يانغ وليو ي، 22الدولي المعلومات استرجاع مجال في والتنمية للبحوث إم سي ، SIGIR'99إيه

، األمريكية المتحدة الواليات ، نيويورك ، إم سي إيه ص 1999مطبعة ،42-49 .[25 " النص[ لتقسيم خفية الداللي التحليل ، الم هوا وتشنغ ، عاشرا بن زونغ يو باء

" ، المعرفة على القائمة األنظمة مجلة ، العصبية الشبكات ص 21،} 2008باستخدام ، 900-904 .

[26 ]B.M " الجسيمات. سرب اختيار خاصية باستخدام نص ، زاي وكنعان زهران " العالمي التطبيقية العلوم مجلة ، خوارزمية ) 7التحسين كمبيوتر مجلة من خاص عدد

) ، المعلومات ص 2009وتقنية ،69-74.

اإلنجليزية .8 باللغة المراجع]1[ S. Al-Harbi, A. Almuhareb, A. Al-Thubaity, M. S. Khorsheed, and A. Al-Rajeh, “Automatic

Arabic Text Classification”, 9es Journées internationales d’Analyse statistique des Données Textuelles, JADT’08, France, 2008, pp. 77-83.

]2[ M. Aljlayl, and O. Frieder, “On Arabic Search: Improving the Retrieval Effectiveness Via a Light Stemming Approach”, In International Conference on Information and Knowledge Management, CIKM’02, ACM, McLean, VA, USA, 2002, pp. 340-347.

]3[ R. Al-Shalabi, and M. Evens, “A Computational Morphology System for Arabic”, In Workshop on Computational Approaches to Semitic Languages, COLING-ACL’98, August 1998.

]4[ A. Chen, and F. Gey, “Building an Arabic Stemmer for Information Retrieval”, In Proceedings of the 11th Text Retrieval Conference, TREC’02, National Institute of Standards and Technology, 2002.

]5[ R.M. Duwairi, “A Distance-based Classifier for Arabic Text Categorization”, In Proceedings of the International Conference on Data Mining, Las Vegas USA, 2005.

]6[ A. El-Halees, “Arabic Text Classification Using Maximum Entropy”, The Islamic University Journal )Series of Natural Studies and Engineering(, 2007, 15)1(, pp. 157-167.

]7[ M. El-Kourdi, A. Bensaid, and T. Rachidi, “Automatic Arabic Document Categorization Based on the Naïve Bayes Algorithm”, 20th International Conference on Computational Linguistics, Geneva, August 2004.

]8[ “The Encyclopedia of the Nine Books for the Honorable Prophetic Traditions”, Sakhr Company, 1997, http://www.Harf.com.

]9[ Hastie, T., R. Tibshirani, and J. Friedman, “The Elements of Statistical Learning: Data Mining, Inference and Prediction”. Springer, 2001.

]10[ P. Husbands, H. Simon, and C. Ding, “On the Use of the Singular Value Decomposition for Text Retrieval”, In Proceedings of 1st SIAM Computational Information Retrieval Workshop, 2000.

]11[ Khoja, S., “Stemming Arabic Text”, Lancaster, U.K, Computing Department, Lancaster University, 1999.

]12[ S.L.Y. Lam, and D.L. Lee, “Feature Reduction for Neural Network Based Text Categorization”, in: Sixth International Conference on Database Systems for Advanced Applications )DASFAA’99(, 1999, p. 195.

Page 14: Communications of the Arab Computer Society, Vol.5 No.1, August

]13[ L. Larkey, L. Ballesteros, and M.E. Connell, “Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis”, Proceedings of SIGIR’02, 2002, pp. 275-282.

]14[ T. Liu, S. Liu, Z. Chen, and M.A. Wei-Ying, “An Evaluation on Feature Selection for Text Clustering”, Proceedings of the 12th International Conference ICML’03, Washington, DC, USA, 2003, pp. 488-495.

]15[ A. A. Mesleh, “Chi Square Feature Extraction Based Svms Arabic Language Text Categorization System”, Journal of Computer Science, 2007, 3)6(, pp. 430-435.

]16[]17[ H.T. Ng, W.B. Goh, and K.L. Low, “Feature Selection, Perception Learning, and a Usability

Case Study for Text Categorization”, in: Proceedings of the 20th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1997, pp. 67-73.

]18[ K. Rajan, V. Ramalingam, M. Ganesan, S. Palanivel, and B. Palaniappan, “Automatic Classification of Tamil Documents Using Vector Space Model and Artificial Neural Network”. Expert Systems with Applications, 2009.

]19[ R. Rakotomalala, and F. Mhamdi, “Combining Feature Selection and Feature Reduction for Protein Classification”, Proceedings of the 6th WSEAS International Conference on Simulation, Modelling and Optimization, Lisbon, Portugal, September 2006, pp. 444-451.

]20[ M. Rogati, and Y. Yang, “High-Performing Feature Selection for Text classification”, CIKM'02, ACM, 2002.

]21[ G. Salton, and C. Buckley, “Term-weighting Approaches in Automatic Text Retrieval”, Information Processing and Management, 1988, 24)5(, pp. 513-523.

]22[ Sauban, M., and B. Pfahringer, “Text Categorization Using Document Profiling”. Principles of Data Mining and Knowledge Discovery, 2003.

]23[ H. Sawaf, J. Zaplo, and H. Ney, “Statistical Classification Methods for Arabic News Articles”, Workshop on Arabic Natural Language Processing, ACL'01, Toulouse, France, July 2001.

]24[ F. Sebastiani, “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, 2002, 34)1(, pp. 1-47.

]25[ A. Selamat, and S. Omatu, “Neural Networks for Web Page Classification Based on Augmented PCA”, Proceedings of the International Joint Conference on Neural Networks, 2003, pp. 1792-1797.

]26[ M.M. Syiam, Z.T. Fayed, and M.B. Habib, “An Intelligent System for Arabic Text Categorization”, IJICIS, 2006, 6)1(, pp. 1-19.

]27[ Wall M., A. Rechtsteiner, and L. Rocha, “A Practical Approach to Microarray Data Analysis, chap. Singular Value Decomposition and Principal Component Analysis”. Kluwer, 2003, pp. 91-109.

]28[ S. Wermeter. “Neural Network Agents for Learning Semantic Text Classification”, Information Retrieval, 2000, 3)2(, pp. 87-103.

]29[ Y. Yang, and J. O. Pedersen, “A Comparative Study on Feature Selection in Text Categorization”, Proceedings of ICML’97, 1997, pp. 412-420.

]30[ Y. Yang and X. Liu, “A Re-examination of Text Categorization Methods”, Proceedings of 22nd ACM International Conference on Research and Development in Information Retrieval, SIGIR’99, ACM Press, New York, USA, 1999, pp. 42-49.

]31[ Y. Yang, S. Slattery, and R. Ghani, “A Study of approaches to hypertext Categorization”, Journal of Intelligent Information Systems, 2002.

]32[ B. Yu, X. Zong-ben, and L. Cheng-hua, “Latent Semantic Analysis for Text Categorization Using Neural Network”, Knowledge-Based Systems journal, 2008, 21, pp. 900-904.

9.: المستعملة الكلمات قاموسإنجليزيعربي

االصطناعية ا العصبية شع ) لشبكات إ(

Artificial Neural Networks )ANN(

االصطناعية النموذج العصبية Artificial Neural Networks Modelشبكاتالعربية ال للنصوص اآللي Automatic Arabic Text Categorizationتصنيف

- وزن كلمة Term-Weighting Schemeمخطط) م ) ق ت المفردة القيم (Singular Value Decomposition )SVDتحليل

Page 15: Communications of the Arab Computer Society, Vol.5 No.1, August

الميزات Features selectionاختياراالصطناعية العصبية الشبكات نموذج

القيم تجزئة طريقة يستخدم الذيالمفردة

ANN Model using SVD

العصبية للشبكات األصلي النموذجاالصطناعية

Basic ANN

صنف Categoryفئة،للملفات اآلني Real Time Sorting of Filesالفرز

هرميا متسلسلة Folder Hierarchiesمجلداتالنصوص مواضيع Topic Identificationتحديد

على المهمة المبنية الديناميكية االهتمامات

Dynamic Task-based Interests

البيانية للمعلومات اآللي Automatic Meta-Data Organizationالتنظيمالنصوص Text Filteringترشيح

اآللي التعلم Machine Learning AlgorithmsخوارزمياتSectionقسم

المتصلة Related Worksاألعمالالعالقات Association Rulesقواعد

التباعد على مبني Distance-Based Classifierمصنفالهجينة Hybrid Methodالطريقةجذرية Light Stemmersخفيفة مشتقات

تعميمي Generalization Accuracyضبطسي شجرة خوارزمية نسخة 5Decision Tree C5.0 Versionالقرارالميزات Feature Vectorsمتجهات

األساسية المكونات تحليل ت) طريقة) أ م

Principal Component Analysis )PCA( Method

- الخلفي االنتشار Back-Propagation Modelنموذجالذاتي التعلم على Self Learning Capabilityالقدرة

األخطاء Fault Tolerantتحملالتشويش يمن ضد Noise Immuneعة

األنظمة هوية System Identificationتحديداألنماط على Pattern Recognitionالتعرف

Evidenceبديهية - الخلفي االنتشار ذات Back-Propagation Networksالشبكات - االنتشار ذات Counter-Propagation Networksالمعاكسالشبكات

أمامية عصبية ثالثية –شبكة التشبع الطبقات

Three Layer Feed-Forward Neural Network

مخفية Hidden Layerطبقةمماسية تنشيطية ( دالة زائدية) ظل

المقطعHyperbolic Tangent Activation Function

المشاهدات تمثيل Observations Representation SpaceفضاءProximityتقارب

الكامنة Latent Variablesالمتغيراتمتعامد Orthogonal Basisأساس

الخطي المميز Linear Discriminant Analysisالتحليلالمتناهية السالسل بيانات تحليل

الصغرMicroarray Data Analysis

- وثيقة كلمة الحدوث تشارك ,Word-Document Co-Occurrence Matrixمصفوفةالكلمات Vocabulary Wordsمعجم

التبديلية Transpose Matrixالمصفوفةالكلمات ترابط Correlation Matrixمصفوفة

الذاتية Eigenvaluesالقيم

المتعامدة الذاتية Orthonormalized Eigenvectorsالمتجهات

األبعاد النوني N-Dimensional Spaceالفضاء

Stemmingالكلماتجذور اشتقاق

البيانات تهذيب Data Cleaning Processعملية

Page 16: Communications of the Arab Computer Society, Vol.5 No.1, August

القبلية Preprocessingالمعالجات

الكبير Super Vectorالمتجه

األبعاد Dimensionality Reductionتقليص

والخطأ التجربة The Trial and Error Approachمقاربة

التعلم (معدل )q( Learning Rateت )

الزخم (معدل )a(Momentum Rateز )

م ) للخطأ التربيعي المتوسطخ ( ت

Mean Square Error )MSE(

Number of Epochsاألدوارعدد

أسية Exponentiallyدالة

Convergenceتقارب

ال قدرة TheLanguage Learning Capability of Theاتلغل يةتعلمالنماذجModels.

اإلنجليزية .10 باللغة الخالصة

Feature Extraction for Prophetic Traditions Texts Classification

Fouzi Harrag, Abdul Malik S.Al-Salman, Eyas El-QawasmahCollege of Computer and Information Science,

King Saud University,Riyadh, 11543, Saudi Arabia,

{ hfouzi2001, salman, eelqawasmeh}@ ksu.edu.sa

In this paper, a comparative study is conducted of three text preprocessing techniques in the context of the Arabic text categorization problem using an in-house Arabic dataset. We evaluated and compared three Stemming techniques: Light-Stemming, Root-Based-Stemming and Dictionary-Lookup-Stemming, to reduce the feature space into an input space of much lower dimension for two different state-of-the art classifiers: Artificial Neural Networks and support vectors machine. The results illustrated that using light stemmer enhances the performance of Arabic Text Categorization. The results also showed that the proposed Artificial Neural Networks model was able to achieve high categorization effectiveness as measured by Macro-Average F1 measure.