عنوان المقال عربي
تأثير عدد عينات التدريب وعدد نقاط الاختبار على دقة خرائط استخدام الأراضي والغطاء الأرضي والمشتقة من المرئيات الفضائية باستخدام خوارزميات التصنيف القائمة على تعلم الآلة: دراسة حالة على واحة الأحساء في المملكة العربية السعودية
Document Type
Original Study
Subject Area
Humanities and Social Sciences
Keywords English
Land use and land cover (LULC), Support Vector Machines (SVM), Random Forest (RF), Training sample size, Check points, Overall accuracy, Kappa coefficient
كلمات مفتاحية عربي
استخدام الأراضي والغطاء الأرضي (LULC)، خوارزمية آلة دعم المتجهات، خوارزمية الغابة العشوائية، عدد عينات التدريب، نقاط التحقق، الدقة الكلية، معامل كابا
Abstract English
This study investigated the effect of training sample size and check points on the accuracy of land use and land cover (LULC) maps for the Al-Ahsa oasis in Saudi Arabia, derived from Landsat 8 imagery using Support Vector Machines (SVM) and Random Forest (RF) classifiers. Training sample sizes ranged from 5 to 30 samples per class. The classification accuracy was evaluated using overall accuracy (OA) and the kappa coefficient, with check points varying from 5 to 30 per class, compared against reference data from SAS Planet. Additionally, the accuracy of LULC maps was assessed by comparing the water surface areas obtained from different training sample sizes with those calculated using the Normalized Difference Water Index (NDWI).The results indicated that SVM generally outperformed RF in most scenarios, achieving high and stable accuracy even with a small number of training samples. SVM showed kappa values from 0.93 to 1.00 and OA from 0.95 to 1.00 with 5 samples. As the number of check points increased to 30, SVM maintained kappa values from 0.90 to 0.98 and OA from 0.92 to 0.99, reflecting its robustness. RF, while producing good results, exhibited greater variability in performance. With 5 training samples, RF's accuracy was lower, with kappa values from 0.80 to 0.90 and OA from 0.85 to 0.92. With 30 check points, RF's kappa values ranged from 0.78 to 0.95 and OA from 0.80 to 0.93, indicating less stability.Furthermore, the analysis of water surface areas showed that RF performed significantly worse with fewer training samples but improved notably with more samples, with errors decreasing from 15% to 5% as samples increased. Conversely, SVM maintained consistent performance across all training sample ranges, with errors consistently below 5%. In conclusion, SVM was generally more accurate and stable than RF, making it the preferred classifier for LULC mapping in most cases.
الملخص العربي
حققت هذه الدراسة في تأثير عدد عينات التدريب وعدد نقاط التحقق على دقة خرائط استخدام الأراضي والغطاء الأرضي (LULC) لواحة الإحساء في المملكة العربية السعودية، المشتقة من صور الأقمار الصناعية Landsat 8 باستخدام مصنفات آلة دعم المتجهات Support Vector Machines (SVM) والغابة العشوائية Random Forest (RF). تراوح عدد عينات التدريب بين 5 إلى 30 عينة لكل صنف. تم تقييم دقة التصنيف باستخدام الدقة الكلية (OA) ومعامل كابا، مع نقاط التحقق التي تراوحت من 5 إلى 30 لكل صنف، مقارنةً بالبيانات المرجعية من SAS Planet. بالإضافة إلى ذلك، تم تقييم دقة خرائط LULC من خلال مقارنة مساحات السطوح المائية الناتجة من أعداد عينات التدريب المختلفة مع تلك المحسوبة باستخدام مؤشر المياه المعياري (NDWI).أشارت النتائج إلى أن SVM تفوقت على RF في معظم السيناريوهات، محققةً دقة عالية وثابتة حتى مع عدد قليل من عينات التدريب. أظهرت SVM قيم كابا تراوحت بين 0.93 إلى 1.00 وOA بين 0.95 إلى 1.00 مع 5 عينات، ومع زيادة عدد نقاط التحقق إلى 30، حافظت SVM على قيم كابا من 0.90 إلى 0.98 وOA من 0.92 إلى 0.99، مما يعكس استقرارها. بينما أظهرت RF أداءً جيداً ولكن مع تذبذب أكبر. كانت دقة RF أقل مع 5 عينات تدريب حيث تراوحت قيم كابا بين 0.80 إلى 0.90 وOA بين 0.85 إلى 0.92. ومع 30 نقطة تحقق، تراوحت قيم كابا لـ RF بين 0.78 إلى 0.95 وOA بين 0.80 إلى 0.93، مما يشير إلى استقرار أقل.يضاف إلى ذلك، أن تحليل مساحات السطوح المائية أظهر تراجع أداء RF بشكل ملحوظ مع عدد قليل من عينات التدريب ومن ثم تحسن هذا الأداء بشكل كبير مع زيادة عدد العينات، مع انخفاض الأخطاء من 15% إلى 5% مع زيادة عدد العينات. على العكس من ذلك، حافظت SVM على أداء مستقر عبر جميع نطاقات عينات التدريب، مع أخطاء أقل من 5%. في الختام، كانت SVM عموماً أكثر دقة واستقراراً من RF، مما يجعلها المصنف المفضل لرسم خرائط LULC في معظم الحالات.
Recommended Citation
Faqeih, Khadeijah yahya
(2024)
"The impact of the number of training samples and the number of test points on the accuracy of land use and land cover maps derived from satellite imagery using machine learning-based classification algorithms: A case study on Al-Ahsa Oasis in Saudi Arabia,"
Journal of the Faculty of Arts (JFA): Vol. 84:
Iss.
4, Article 16.
Publication Date
10-1-2024