التعرف على الكيانات المسماة في المجال الجغرافي للوثائق العربية غير المهيكلة

حسين خليل خليل; يوسف عبدالرحمن أبوراوي; هبة محمد القليب; عائشة جمال معيتيق

doi:10.59743/jbs.v34i1.104

المؤلفون

حسين خليل خليل قسم علوم الحاسوب، كلية تقنية المعلومات ، جامعة مصراتة ، ليبيا
يوسف عبدالرحمن أبوراوي قسم نظم الإنترنت، كلية تقنية المعلومات ، جامعة مصراتة ، ليبيا
هبة محمد القليب قسم علوم الحاسوب، كلية تقنية المعلومات ، جامعة مصراتة ، ليبيا
عائشة جمال معيتيق قسم علوم الحاسوب، كلية تقنية المعلومات ، جامعة مصراتة ، ليبيا

DOI:

https://doi.org/10.59743/jbs.v34i1.104

الكلمات المفتاحية:

معالجة اللغة الطبيعية، استخلاص المعلومات، تمييز الكيانات المسماة، النهج القائم على القواعد، المعاجم

الملخص

ينشر يومياً كمَّا هائلا من المعلومات في مختلف المجالات و في أشكال متعددة كالوثائق، والمدونات عبر شبكات التواصل الاجتماعية والمستودعات الرقمية التي أصبحت مكونا رئيسيا لأي نظام ألكتروني في الجامعات ومراكز الأبحاث حول العالم ، وبما أن معظم هذه البيانات متاحة في شكل وثائق غير منظمة، فإن صعوبة البحث والوصول إلى المعرفة المفيدة من هذه البيانات والنصوص غير المهيكلة أصبح مشكلة كبيرة وبالتالي فأن حل هذه المشكلة تتزايد أهميته كل يوم. يركز هذا العمل على استخلاص المعلومات من النصوص العربية غير المهيكل وهي مهمة صعبة خاصة مع النقص الحاد للموارد و الأدوات التى تتعامل مع اللغة العربية ، ومما يزيد من صعوبة المهمة وتعقيد المشكلة عدم وجود أبحاث متقدمة في هذا المجال بالنسبة للغة العربية بالمقارنة مع اللغات الأوروبية مثلا.والهدف الرئيسي من هذا العمل البحثي هو تقديم منهجية شاملة لاستخراج المعلومات وتمييز الكيانات المسماة من النصوص العربية غير المهيكلة باستخدام تقنيات معالجة اللغات الطبيعية التي ثبتت فعاليتها في حل معظم مشاكل التصنيف من أجل تحسين عملية استخراج المعلومات من الوثائق ذات الصلة بالمجال الجغرافي تحديدا.وبقترح هذا العمل نهجا هجينا قائما على المزاوجة بين استخدام القوائم Gazetteers والقواعد Rules التي ستحسن عمل تلك القوائم عند وجود أي تحديات لغوية قد تسبب لبسا ولا يستطيع النهج القائم على القوائم وحدها من تمييزه. أخيرا سيتم تخزين الأسماء المستخلصة في قاعدة معرفة لتكون أساسا لأي تطبيقات ذكية تتعامل مع الكيانات الجغرافية مستقبلا.

المراجع

] Internet world stats, https://www.internetworldstats.com/stats.htm, acessed 04.07.2019.

Moreno, Antonio, and Teófilo Redondo. "Text Analytics: the convergence of Big Data and Artificial Intelligence." IJIMAI 3.6 (2016): 57-64.‏

I. Boujelben, S. Jamoussi and A. B. Hamadou, "A hybrid method for extracting relations between Arabic named entities," Journal of King Saud University-Computer and Information Sciences, vol. 26, (4), pp. 425-440, 2014.

Shaalan, K. (2010). Rule-Based Approach in Arabic Natural Language Processing. The International Journal on Information and Communication Technologies (IJICT), 3(3), 11-19.

M. Asharef، N. Omar، M. Albared، Z. Minhui، W. Weiming، and Z. Jingjing، "Arabic named entity recognition in crime documents،" Journal of Theoretical and Applied Information Technology، vol. 44، no. 1، pp. 1-6، 2012.

] Shaalan، K.، & Raza، H. (2008) Arabic named entity recognition from diverse text types. Advances in Natural Language Processing، (5221)، pp.440–451.

H. Al-Jumaily، P. Martínez، J. L. Martínez-Fernández، and E. Van der Goot، "A real time Named Entity Recognition system for Arabic text mining،" Language resources and evaluation، vol. 46، no. 4، pp. 543-563، 2012.

W. Zaghouani, "RENAR: A rule-based Arabic named entity recognition system," ACM Transactions on Asian Language Information Processing (TALIP), vol. 11, (1), pp. 2, 2012.

K. Shaalan and H. Raza, "NERA: Named entity recognition for Arabic, J. Am. Soc. Inf. Sci. Technol., vol. 60, (8), pp. 1652-1663, 2009.

I. Sarhan, Y. El-Sonbaty and M. A. El-Nasr, "Arabic Relation Extraction: A Survey," International Journal of Computer and Information Technology, vol. 5, (5), 2016.

S. AbdelRahman، M. Elarnaoty، M. Magdy، and A. Fahmy، "Integrated machine learning techniques for Arabic named entity recognition،" IJCSI، vol. 7، pp. 27-36، 2010.

A. Morsi and A. Rafea، "Studying the impact of various features on the performance of Conditional Random Field-based Arabic Named Entity Recognition،" in 2013 ACS International Conference on Computer Systems and Applications (AICCSA)، 2013: IEEE، pp. 1-5.

Arabic Named Entity Recognition Using Artificial Neural Network Naji F. Mohammed and Nazlia Omar School of Computer Science، Faculty of Information Science and Technology، Universiti Kebangsaan Malaysia، 43600 UKM Bangi، Selangor، Malaysia

Zirikly، A. and Diab، M.، 2015. Named entity recognition for arabic social media. In Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing (pp. 176-185).

M. K. Saad and W. Ashour, "OSAC: Open source arabic corpora," in 6th International Symposium on Electrical and Electronics Engineering and Computer Science, Cyprus, 2010, pp. 118-123.

Albogamy, F. and Ramsay, A., 2016, May. Fast and robust POS tagger for Arabic tweets using agreement-based bootstrapping. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) (pp. 1500-1506).

J. Makhoul et al, "Performance measures for information extraction," in Proceedings of DARPA Broadcast News Workshop, 1999, pp. 249-252.