ارزیابی روش‌های انتخاب ویژگی برای نقشه‌برداری پوشش زمین مبتنی بر شی از تصاویر وسایل نقلیه هوایی بدون سرنشین با استفاده از طبقه‌بندی‌کننده‌های ماشین تصادفی جنگل و بردار پشتیبان

خلاصه

افزایش فضای ویژگی موجود در محیط‌های طبقه‌بندی مبتنی بر شی (مثلاً مجموعه‌های ویژگی‌های طیفی گسترده در هر شی، ویژگی‌های شکل یا ویژگی‌های بافتی) پتانسیل بالایی برای بهبود طبقه‌بندی دارد. با این حال، در دسترس بودن تعداد زیادی از ویژگی‌های مشتق‌شده در هر شیء تقسیم‌بندی شده نیز می‌تواند منجر به یک فرآیند زمان‌بر و ذهنی برای بهینه‌سازی زیرمجموعه ویژگی‌ها شود. اهداف این مطالعه ارزیابی تأثیر روش‌های انتخاب ویژگی پیشرفته طبقه‌بندی‌کننده‌های نظارت شده محبوب (ماشین‌های بردار پشتیبانی (SVM) و جنگل تصادفی (RF)) برای مثال نقشه‌برداری مبتنی بر شی از یک منطقه کشاورزی با استفاده از وسیله نقلیه هوایی بدون سرنشین است. تصاویر (UAV)، به منظور بهینه‌سازی استفاده از آن‌ها برای وظایف تشخیص الگوی کشاورزی مبتنی بر شی. در این مطالعه، چندین روش انتخاب ویژگی پیشرفته به هر دو نوع طبقه‌بندی‌کننده (SVM و RF) برای انجام ارزیابی‌های بیشتر با استفاده از پنج روش ارزیابی ویژگی-اهمیت-ارزیابی و سه روش ارزیابی-زیر مجموعه-ویژگی تقسیم شدند. برای اندازه‌گیری الگوی تغییر میانگین دقت طبقه‌بندی با افزایش ویژگی‌های استفاده‌شده، از روش تجسم‌سازی و دو دنباله استفاده شد.تیبرای تعیین تفاوت بین میانگین دو جامعه برای هر دو دقت طبقه بندی ده تکراری از آزمون – استفاده شد. این مطالعه عمدتاً به تجزیه و تحلیل عدم قطعیت انتخاب ویژگی برای طبقه‌بندی مبتنی بر شی به جای روش هر پیکسل کمک می‌کند. نتایج نشان می‌دهد که طبقه‌بندی‌کننده RF نسبتاً به تعداد ویژگی‌های ورودی حساس نیست، حتی برای اندازه مجموعه آموزشی کوچک، که به موجب آن تأثیر منفی اندازه مجموعه ویژگی بر دقت طبقه‌بندی طبقه‌بندی‌کننده SVM مشاهده شد. به طور کلی، حذف ویژگی بازگشتی SVM (SVM-RFE) روش مناسبی برای هر دو گروه طبقه‌بندی کننده به نظر می‌رسد، در حالی که انتخاب ویژگی مبتنی بر همبستگی (CFS) بهترین روش ارزیابی ویژگی زیر مجموعه است. مهمتر از همه،

کلید واژه ها:

طبقه بندی ; تجزیه و تحلیل تصویر مبتنی بر شی (OBIA) ؛ انتخاب ویژگی ؛ SVM-RFE ; CFS ; جنگل تصادفی ; ماشین های بردار پشتیبانی ; تصویر با وضوح بالا

1. معرفی

انتخاب ویژگی یک مرحله مهم در فرآیند طبقه بندی در نظر گرفته می شود زیرا عملکرد طبقه بندی کننده را بهبود می بخشد و پیچیدگی محاسبات را با حذف اطلاعات اضافی کاهش می دهد [ 1 ]. انتخاب ویژگی به طور گسترده در طبقه بندی تصاویر سنجش از دور به طور کلی [ 2 ، 3 ]، و برای داده های فراطیفی به طور خاص [ 4 ، 5 ] استفاده شده است. با فضای ویژگی توسعه یافته مشتق شده از اشیاء قطعه بندی شده (به عنوان مثال، مجموعه ویژگی های طیفی گسترده در هر شی، ویژگی های شکل، یا ویژگی های بافتی) [ 6 ، 7]]، طبقه بندی مبتنی بر شی ممکن است پیچیدگی طبقه بندی و تقاضا برای قدرت محاسباتی را افزایش دهد. یک چالش دیگر، اجتناب از مرحله زمان‌بر محاسبه همه ویژگی‌های موجود و فرآیند ذهنی انتخاب ویژگی مصنوعی هنگام تعیین ویژگی‌های بهینه، علاوه بر برخی دیگر از مسائل خاص تجزیه و تحلیل تصویر مبتنی بر شی (مانند مقیاس شی و اندازه مجموعه آموزشی) است. 8 ، 9 ].

تحقیقات قبلی به طور فزاینده ای چندین روش انتخاب ویژگی پیشرفته را برای تجزیه و تحلیل تصویر مبتنی بر شی به کار برده اند. دورو و همکاران [ 10 ] انتخاب ویژگی را با محاسبه امتیاز اهمیت متغیر با استفاده از روش جنگل تصادفی اجرا کرد. Stumpf and Kerle [ 11 ] و Puissant و همکاران. [ 12 ] یک حذف تکراری به عقب را اجرا کرد که به موجب آن کمترین اهمیت 20 درصد از متغیرها، با توجه به رتبه بندی متغیر حاصل از روش جنگل تصادفی، در هر تکرار حذف شدند تا زیر مجموعه ویژگی بهینه تعیین شود. قاعده تقسیم برای درخت تصمیم قبلاً به عنوان معیار انتخاب ویژگی استفاده می شد [ 13] و در چندین مطالعه برای آموزش مدل درخت تصمیم استفاده شده است، در حالی که طبقه‌بندی‌کننده‌های درخت تصمیم به طور گسترده برای تجزیه و تحلیل تصویر مبتنی بر شی استفاده می‌شوند [ 14 ، 15 ]. به عنوان مثال، ویرا و همکاران. [ 16 ] از بالاترین معیار افزایش اطلاعات نرمال شده برای انتخاب ویژگی استفاده کرد و سپس بهترین مدل را با استفاده از ارزیابی اعتبار متقابل انتخاب کرد، در حالی که Peña-Barragán و همکاران. [ 17 ] از معیار آماری کای اسکوئر ( χ2 ) به عنوان قانون تصمیم گیری ^{استفاده کرد.}علاوه بر این، یو و همکاران. [ 18 ] و ما و همکاران. [ 9 ] از روش انتخاب ویژگی مبتنی بر همبستگی (CFS) برای اجرای کاهش ابعاد ویژگی‌های شی قبل از طبقه‌بندی استفاده کرد. نواک و همکاران [2 ] از چهار الگوریتم انتخاب ویژگی پیشرفته برای شناسایی مرتبط‌ترین ویژگی‌ها برای طبقه‌بندی یک تصویر با وضوح بالا استفاده کرد، اما این روش‌ها و عملکرد مربوطه آنها را نسبت به یکدیگر ارزیابی نکرد.

مطالعات ذکر شده در بالا به طور مداوم در مورد مزیت (به عنوان مثال، کاهش پیچیدگی یا بهبود دقت) انتخاب ویژگی قبلی در طبقه‌بندی مبتنی بر شی اتفاق نظر دارند، اما همه مطالعات ذکر شده در واقع به دلیل برخی مبهم بودن در طبقه‌بندی مبتنی بر شی، بهبود دقت را به دست نیاوردند. به عنوان مثال، استفاده گسترده از طبقه‌بندی‌کننده‌های فازی و به‌ویژه انتخاب و پارامترسازی روش‌های تقسیم‌بندی به این صورت). علاوه بر این، تحقیقات قبلی برای سایر داده‌های با ابعاد بالا (مانند داده‌های فراطیفی) نشان داد که بخش‌هایی از این عدم قطعیت ممکن است به اثرات ترکیب‌های خاصی از روش‌های انتخاب ویژگی با روش‌های طبقه‌بندی نظارت شده مختلف مرتبط باشد [5 ، 19 ]]. برخی از مطالعات ادعا کردند که طبقه‌بندی‌کننده‌های SVM نسبت به ابعاد مجموعه داده حساس نیستند [ 4 ، 20 ، 21 ]، در حالی که وستون و همکاران. [ 22 ] و Guyon و همکاران. [ 23] افزایش دقت طبقه بندی را از طریق کاهش ابعاد مشاهده کرد. از این یافته‌های تا حدی متناقض، ممکن است نتیجه بگیریم که انتخاب ویژگی عمدتاً به عنوان دارای اثرات مثبت بر دقت طبقه‌بندی در نظر گرفته می‌شود، اما ممکن است باعث درجه‌ای از عدم قطعیت، به ویژه در طبقه‌بندی‌های مبتنی بر SVM شود. به طور مشابه، مطالعات بر روی طبقه‌بندی‌کننده‌های RF نیز ابهاماتی را در مورد تأثیرات انتخاب ویژگی برای طبقه‌بندی مبتنی بر شی ایجاد می‌کند. این مهم است زیرا، در کنار SVM، روش‌های RF در طبقه‌بندی مبتنی بر شی محبوبیت پیدا کرده‌اند [ 11 ، 12 ]. برای مثال، دورو و همکاران. [ 24 ] ثابت کرد که RF با انتخاب ویژگی قبلی بهتر از بدون انتخاب ویژگی عمل می کند، اما لی و همکاران. [ 19] پیشنهاد کرد که RF یک روش طبقه‌بندی مبتنی بر شی پایدار با و بدون انتخاب ویژگی قبلی است. در واقع لی و همکاران [ 19 ] هرگز تفاوت آماری معنی‌داری در دقت طبقه‌بندی بین زیرمجموعه‌های ویژگی انتخابی و همه ویژگی‌ها مشاهده نشد. بنابراین، به نظر می‌رسد که انتخاب ویژگی در طبقه‌بندی مبتنی بر شی، یک شکاف تحقیقاتی را نشان می‌دهد: در مورد اثرات کلی ترکیب روش‌های انتخاب ویژگی و طبقه‌بندی مبتنی بر شی، اتفاق نظر مشترکی وجود ندارد.

فرآیندهای تقسیم‌بندی تصویر برای ترسیم کشاورزی از تصاویر وسایل نقلیه هوایی بدون سرنشین (UAV) برای چندین سال مورد استفاده عملیاتی قرار گرفته‌اند، به عنوان مثال، برای کشاورزی دقیق [ 25 ، 26]]. تصاویر پهپاد معمولاً با سایر تصاویر متفاوت است (معمولاً فقط باندهای RGB، وضوح فضایی بسیار بالا، تفاوت های رادیومتریک). علاوه بر این، به دلیل قوانین و مقررات، پهپادها عمدتاً در مناطق بدون حضور انسان (بدون مناطق شهری) و در جاهایی که کنترل بصری امکان پذیر است (مناطق باز) پرواز می کنند – این منجر به کاربرد فراوانی در مناطق کشاورزی در مقایسه با سایرین می شود. متعاقباً، توانایی نقشه‌برداری مناطق کشاورزی با وضوح فضایی بالا، نظارت بر کشاورزی را تشویق می‌کند، تصاویر پهپاد را با روش‌های مبتنی بر شی ترکیب می‌کند، که به درک اساسی روش‌های طبقه‌بندی مبتنی بر شی موجود کمک می‌کند.

هدف این مطالعه، تحلیل عدم قطعیت روش‌های مختلف انتخاب ویژگی برای طبقه‌بندی مبتنی بر شی، به جای ارزیابی مشابه برای روش هر پیکسل است. بر اساس ارزیابی قبلی روش های طبقه بندی برای مناطق کشاورزی با استفاده از تصاویر با وضوح بالا [ 19 ، 24]]، این مطالعه اکنون به طور خاص بر ارزیابی تأثیر ابعاد ویژگی و اندازه مجموعه آموزشی بر طبقه‌بندی‌کننده‌های SVM و RF برای روش‌های مختلف انتخاب ویژگی، از جمله روش فیلتر، پوشش‌ها، و روش‌های تعبیه‌شده متمرکز است. استراتژی ارزیابی با دقت طراحی شده بینش جدیدی را در مورد تأثیر روش‌های مختلف انتخاب ویژگی ارائه می‌کند و روش‌های آماری مورد استفاده در تشخیص تفاوت‌های قابل توجه در دقت طبقه‌بندی متوسط کمک می‌کنند. طبق دانش ما، این مطالعه اولین ارزیابی سیستماتیک روش‌های انتخاب ویژگی پیشرفته در ترکیب با طبقه‌بندی‌کننده‌های SVM و RF در مورد طبقه‌بندی مبتنی بر شی است.

2. روش ها

2.1. محدوده مطالعه و مجموعه داده ها

این مطالعه در حومه شرقی شهر دیانگ، که در حوزه سیچوان چین واقع شده است، انجام شد. این سایت تقریباً 10×5 کیلومتر ^مربع وسعت دارد و انواع پوشش زمین معمولاً کشاورزی هستند. در منطقه مورد مطالعه، یک مجموعه داده پهپاد که تقریباً 10×5 کیلومتر مربع را پوشش می‌دهد با دوربین Canon 5D ² در ارتفاع حدود 750 متر در آگوست 2011 به دست آمد. پس از آن یک نقشه دیجیتال ارتوفتو (DOM)، دو نقشه استاندارد تهیه شد. صفحات 500 × 500 متر (0.2 متر وضوح فضایی و باندهای RGB) با استفاده از نرم افزار فتوگرامتری دیجیتال [ 27 ] تولید شد. برای ارزیابی روش‌های انتخاب ویژگی، هر دو برگه استاندارد نقشه را به عنوان مناطق مطالعه انتخاب کردیم تا نتایج را افزایش دهیم. منطقه مطالعه 1 ( شکل 1الف) عمدتاً شامل زمین های زراعی (38٪) و زمین های جنگلی (43٪) است و همچنین شامل 6٪ ساختمان، 5٪ زمین های بایر و 2٪ جاده است ( شکل 1 ب). منطقه مورد مطالعه 2 ( شکل 1 ج) عمدتاً شامل زمین های زراعی (45٪) و زمین های جنگلی (37٪) است، و همچنین شامل 5٪ آب، 4٪ ساختمان، 4٪ زمین بایر و 1٪ جاده است (شکل 1 د ) . تمام درصدهای کلاس های موضوعی با استفاده از یک لایه مرجع برگرفته از تفسیر دستی محاسبه شد (نگاه کنید به شکل 1 ب، د).

2.2. تقسیم بندی و ویژگی ها

الگوریتم تقسیم بندی چند وضوح [ 28 ] پیاده سازی شده در بسته نرم افزاری eCognition (Trimble Geospatial) برای تولید اشیا استفاده شد. وزن رنگ و شکل به ترتیب 0.9/0.1 تنظیم شد، در حالی که وزن صافی/فشردگی روی 0.5/0.5 (تنظیمات استاندارد) تنظیم شد. تصویر (که هر سه باند به طور مساوی وزن داشتند) در یک پارامتر مقیاس متوسط (آستانه همگنی) 100 قطعه بندی شد که بر اساس ارزیابی طبقه بندی قبلی از نظر پارامترهای مقیاس تقسیم بندی خاص تعیین شد [19 ] . 32 ویژگی در eCognition برای هر شی محاسبه شد، از جمله ویژگی‌های طیفی، بافت و شکل، تا متعاقباً در الگوریتم‌های انتخاب ویژگی پیاده‌سازی شوند.

جزئیات ویژگی های انتخاب شده در جدول 1 آورده شده است . ویژگی های طیفی شامل میانگین و انحراف استاندارد طیف جسم، به همراه حداکثر اختلاف و روشنایی ویژگی است. اندازه‌گیری‌های شکل شامل ویژگی‌های هندسی ارائه‌شده توسط هر جسم تقسیم‌بندی شده، مانند مساحت، عدم تقارن، شاخص مرزی، فشردگی، چگالی، تناسب بیضی، جهت اصلی، تناسب مستطیلی، شاخص شکل و گردی است. ویژگی‌های بافت این مطالعه بر اساس تحلیل هارالیک (ماتریس هم‌وقوع سطح خاکستری (GLCM) و بردار اختلاف سطح خاکستری (GLDV)) است و به همه جهات، یعنی زاویه 2 لحظه، کنتراست، همبستگی وابسته است. ، عدم تشابه، آنتروپی، میانگین و انحراف معیار.

2.3. الگوریتم های انتخاب ویژگی

در این مطالعه، ما هشت روش انتخاب ویژگی شامل پنج روش فیلتر (نسبت به دست آوردن، Chi-square، SVM-RFE، CFS و Relief-F)، دو روش پوشش (پوشش RF و بسته بندی SVM) و یک روش تعبیه شده را اجرا کردیم. (RF). ما روش ها را با تقسیم آنها به دو دسته با توجه به نتایج انتخاب ویژگی (رتبه بندی اهمیت ویژگی و زیر مجموعه ویژگی) ارزیابی کردیم. تمام روش های انتخاب ویژگی با استفاده از نسخه 3.7.9 WEKA [ 29 ] یا نسخه 3.1.1 R در یک پلتفرم C# ادغام شدند تا به طور خودکار اجرا شوند.

(1) نسبت سود

نسبت بهره گسترشی از اندازه گیری به دست آوردن اطلاعات است، که تلاش می کند بر این سوگیری غلبه کند که معیار افزایش اطلاعات مستعد انتخاب ویژگی هایی با تعداد زیادی مقادیر است [ 13 ]. بنابراین، اندازه گیری به دست آوردن اطلاعات به عنوان معیار انتخاب ویژگی درخت تصمیم استفاده می شود و با محاسبه تفاوت بین نیاز اطلاعات مورد انتظار، طبقه بندی یک تاپل در چند تا، و نیاز اطلاعات جدید برای ویژگی A پس از پارتیشن بندی به دست می آید . اندازه گیری نیاز اطلاعات مورد انتظار توسط [ 13 ] ارائه شده است.

من n f o (D) = - \sum i = 1 متر پ من ورود به سیستم 2 (پ من)

(1)

که در آن m تعداد کلاس های متمایز است. $p_{i}$ با محاسبه نسبت تعلق به کلاس، احتمال را نشان می دهد $C_{i}$ در تاپل های D. نیاز اطلاعات جدید برای ویژگی A با اندازه گیری می شود

من n f o آ (D) = \sum j = 1 v | D j | | D | \times من n f o (D j)

(2)

که در آن v نشان می دهد که D به v پارتیشن یا زیر مجموعه تقسیم شده است، ${D_{1}, D_{2}, \dots, D_{v}}$ . بنابراین، اندازه گیری افزایش اطلاعات Gain( A ) برای ویژگی A را می توان با فرمول محاسبه کرد.

سود (A) = I n f o (D) - I n f o آ (D)

(3)

سپس، یک تابع ‘اطلاعات تقسیم شده’ برای عادی سازی اندازه گیری به دست آوردن اطلاعات استفاده شد

Gain (A)

. تابع اطلاعات تقسیم شده توسط

اس p l i t I n f o آ (D) = - \sum j = 1 v | D j | | D | \times ورود به سیستم 2 (| D j | | D |)

(4)

در نهایت، نسبت بهره به عنوان معیار افزایش اطلاعات محاسبه می شود

Gain (A)

تقسیم بر مقیاس اطلاعات تقسیم شده

S p l i t I n f o (A)

، به این معنا که

G a i n R a t i o (A) = G a i n ( A ) اس p l i t I n f o آ ( D )

(5)

هر چه نسبت بهره به دست آمده بزرگتر باشد، ویژگی های نمایش داده شده اهمیت بیشتری دارند.

(2) ارزیابی ویژگی Chi-square

روش مجذور کای می تواند آزمون های مقایسه استقلال [ 30 ] را اجرا کند. برای انتخاب ویژگی، از ارزیابی ویژگی‌های مجذور کای برای ارزیابی ارزش یک ویژگی با محاسبه نمره کای دو کلاس‌ها استفاده شد تا فهرست رتبه‌بندی همه ویژگی‌ها به دست آید. گسسته سازی برای ویژگی های عددی (گسسته ساختن آنها) به منظور استفاده از آماره مجذور کای برای یافتن تناقضات در داده ها استفاده شد [ 31 ]. نمره خی دو یک ویژگی با استفاده از فرمول زیر محاسبه شد.

χ 2 = \sum i = 1 r \sum j = 1 ج ( n من ج - μ من ج ) 2 μ من ج

(6)

که در آن c تعداد کلاس ها است. r تعداد فواصل گسسته برای یک ویژگی خاص است، و $n_{i j}$ فرکانس مشاهده شده نمونه ها در بازه i و کلاس j است. اگر $n_{i}$ = $\sum_{j = 1}^{c} n_{i j}$ تعداد نمونه ها را در بازه i برای یک ویژگی نشان می دهد. $n_{j}$ = $\sum_{i = 1}^{r} n_{i j}$ شماره نمونه های کلاس j را نشان می دهد . n تعداد کل نمونه ها است. سپس $μ_{i j} = n_{i} \cdot n_{j} / n$ فرکانس مورد انتظار را نشان می دهد $n_{i j}$ .

(3) حذف ویژگی بازگشتی SVM (SVM-RFE)

SVM-RFE یک روش تکراری برای حذف ویژگی های عقب مانده است که از تابع هزینه استفاده می کند.

J = (1 / 2) {‖ w ‖}^{2}

به عنوان معیار رتبه بندی و SVM به عنوان طبقه بندی کننده پایه [ 23 ]. ما در اینجا قصد داریم یک لیست رتبه بندی ویژگی را برای مقایسه با سایر مدل های فیلتر استخراج کنیم، بنابراین ویژگی با کمترین امتیاز رتبه بندی به جای حذف ویژگی های بیشتر، یکی یکی حذف شد. طرح کلی الگوریتم به شرح زیر است: ابتدا طبقه بندی کننده SVM با استفاده از اشیاء آموزشی برای بهینه سازی وزن ها آموزش داده شد.

w_{i}

با توجه به

J

، جایی که

w_{i}

مولفه i مربوط به w را نشان می دهد. ثانیاً، همه ویژگی ها با استفاده از معیار رتبه بندی رتبه بندی شدند

{(w_{i})}^{2}

(مربع وزن محاسبه شده توسط SVM). در نهایت، ویژگی با کوچکترین معیار در هر مرحله تکراری حذف شد تا لیست رتبه بندی همه ویژگی ها ایجاد شود.

(4) Relief-F

Relief-F الگوریتم دیگری است که ارزش یک ویژگی را ارزیابی می کند و عملکرد برتر را برای بسیاری از کاربردهای ارزیابی کیفیت ویژگی ارائه کرده است [ 32 ]. روش Relief-F از نمونه‌های آموزشی به‌طور تصادفی از داده‌ها با مقادیر ویژگی و مقدار کلاس برای محاسبه بردار وزن w که کیفیت همه ویژگی‌ها را نشان می‌دهد، استفاده می‌کند [ 33 ]. وزن به عنوان معیار ارزیابی ویژگی روش Relief-F بر اساس احتمال چنین ویژگی برای تمایز بین طبقات محاسبه شد، که به موجب آن وزن مورد انتظار بزرگتر نشان دهنده ارتباط افزایش یافته ویژگی برای کلاس ها است [32 ] . ابتدا، همه وزن‌های w[A] روی صفر تنظیم می‌شوند و سپس یک نمونه به‌طور تصادفی انتخاب می‌شودRi برای جستجوی نزدیکترین ضربه H و نزدیکترین ضربه M استفاده می شود . تخمین کیفیت w[A] زمانی کاهش یافت که جداسازی دو نمونه با یک کلاس با استفاده از ویژگی A مطلوب نباشد . در مقابل، برآورد کیفیت w[A] زمانی افزایش یافت که ویژگی A فعال شد تا دو نمونه را در مقادیر کلاس‌های مختلف متمایز کند. در این مطالعه ما Relief-F را در محیط WEKA اجرا کردیم [ 29 ].

(5) جنگل تصادفی

رویکرد ارزیابی ویژگی مبتنی بر جنگل تصادفی به عنوان یک روش تعبیه شده [ 5 ] شناخته می‌شود و با محاسبه میانگین کاهش دقت طبقه‌بندی برای داده‌های خارج از کیسه (OOB) از نمونه‌گیری راه‌انداز، یک معیار اهمیت متغیر برای هر ویژگی ارائه می‌کند [ 34 ] . با فرض نمونه های بوت استرپ b = 1، …، B، میانگین کاهش دقت طبقه بندی

{\bar{D}}_{j}

برای متغیر

x_{j}

همانطور که معیار اهمیت توسط

D ¯ ¯ ¯ j = 1 ب \sum b = 1 ب (آر o o b ب - آر o o b b j)

(7)

جایی که $R_{b}^{o o b}$ نشان دهنده دقت طبقه بندی برای داده های OOB است $ℓ_{b}^{o o b}$ با استفاده از مدل طبقه بندی $T_{b}$ ; و $R_{b j}^{o o b}$ دقت طبقه بندی برای داده های OOB است $ℓ_{b j}^{o o b}$ مقادیر متغیر را تغییر داد $x_{j}$ که در $ℓ_{b}^{o o b}$ ( j = 1، …، N ). در نهایت، یک امتیاز z از متغیر $x_{j}$ نشان دهنده معیار اهمیت متغیر را می توان با استفاده از فرمول محاسبه کرد $z_{j} = \frac{{\bar{D}}_{j}}{s_{j} / \sqrt{B}}$ ، پس از انحراف معیار $s_{j}$ کاهش دقت طبقه بندی محاسبه می شود. در این کار، روش ارزیابی ویژگی به طور خودکار با استفاده از بسته R “RRF” انجام شد.

(6) انتخاب ویژگی مبتنی بر همبستگی

برخلاف روش‌های ارزیابی ویژگی که در بالا ذکر شد، یک زیرمجموعه ویژگی به سادگی با استفاده از الگوریتم فیلتر انتخاب ویژگی مبتنی بر همبستگی (CFS) ارزیابی شد. CFS ارزش مجموعه‌ای از ویژگی‌ها را با استفاده از یک تابع ارزیابی اکتشافی بر اساس همبستگی ویژگی‌ها ارزیابی کرد و هال و هولمز [35 ] ادعا کردند که زیرمجموعه‌ای برتر از ویژگی‌ها باید با کلاس‌هایی که به شدت با یکدیگر مرتبط نیستند همبستگی داشته باشند. بنابراین، معیار یک زیر مجموعه را می توان با استفاده از فرمول زیر ارزیابی کرد

m e r i t s = ک r ¯ ج ج k + k ( k - 1 ) r ¯ f f - - - - - - - - - - - - \sqrt

(8)

جایی که f نشان دهنده ویژگی است. c کلاس است. ${\bar{r}}_{c f}$ نشان دهنده همبستگی میانگین ویژگی با کلاس ها است. ${\bar{r}}_{f f}$ میانگین همبستگی ویژگی را نشان می دهد. و $k$ تعداد صفات موجود در زیر مجموعه را نشان می دهد. علاوه بر این، بهترین جستجوی اول برای کاوش فضای ویژگی مورد استفاده قرار گرفت و پنج زیرمجموعه متوالی کاملاً توسعه‌یافته بدون بهبود، برای جلوگیری از جستجوی کل فضای زیر مجموعه ویژگی، معیار توقف قرار گرفتند. در این تحقیق از بسته WEKA برای پیاده سازی این الگوریتم انتخاب ویژگی استفاده شد.

(7) لفاف RF/SVM

به طور کلی، روش‌های wrapper برای ارزیابی زیرمجموعه‌های زیرمجموعه متغیرها، برای شناسایی بهترین زیرمجموعه ویژگی [ 36 ] استفاده شد. یک طرح یادگیری برای روش‌های wrapper برای ارزیابی مجموعه‌های ویژگی‌ها اجرا شد و دقت طرح یادگیری با استفاده از اعتبارسنجی متقاطع برای شناسایی بهترین زیرمجموعه برآورد شد [ 37 ]. پس از آن، مجموعه‌ای از ویژگی‌ها که بالاترین دقت را با اعتبارسنجی متقاطع تولید می‌کنند، به عنوان زیرمجموعه ویژگی بهینه شناسایی شدند. بسیاری از مطالعات قبلی ترجیح می‌دهند SVM را به‌عنوان طرح یادگیری به دلیل برتری آن در مقایسه با سایر طبقه‌بندی‌کننده‌ها [ 12 ، 38 ] انتخاب کنند، اما طبقه‌بندی‌کننده RF نیز اخیراً مورد استفاده قرار گرفته است [ 39]]. از آنجایی که طبقه‌بندی‌کننده‌های RF و SVM به‌عنوان تکنیک‌های طبقه‌بندی آزمایش‌شده در این مطالعه مورد استفاده قرار گرفتند (به بخش 2.4 مراجعه کنید)، ما دو روش پوششی را آزمایش کردیم و طرح‌های یادگیری به ترتیب روی طبقه‌بندی‌کننده‌های RF و SVM تنظیم شدند تا به بهترین عملکرد طبقه‌بندی ممکن برای ویژگی دست پیدا کنیم. انتخاب. برای روش بسته بندی SVM، ما الگوریتم حداقل بهینه سازی متوالی جان پلات [ 40 ] را پیاده سازی کردیم و طبقه بندی کننده بردار پشتیبانی را با پارامترهای پیش فرض در بسته طبقه بندی کننده WEKA آموزش دادیم. برای روش RF wrapper، ما الگوریتم جنگل تصادفی را با استفاده از پارامترهای پیش‌فرض در بسته طبقه‌بندی کننده WEKA پیاده‌سازی کردیم. برای هر دو روش، استراتژی wrapper در بسته انتخاب ویژگی WEKA انجام شد.

2.4. روش طبقه بندی

2.4.1. نمونه گیری و اعتبار سنجی

همه اشیاء بخش‌بندی شده ابتدا با یک قانون نسبت همپوشانی مبتنی بر GIS بین لایه تقسیم‌بندی شده و لایه مرجع [ 19 ] برچسب‌گذاری شدند، که بیان می‌کند که یک شی به کلاسی اختصاص داده می‌شود که بیش از 50 درصد از چند ضلعی مرجع را پوشش می‌دهد، و از این رو نمونه‌گیری تصادفی طبقه‌ای انجام شد. قابل انجام است. پس از آن، نسبت مجموعه آموزشی 30 درصد نمونه‌گیری برای هر قشر استفاده شد تا به‌طور تصادفی اشیاء آموزشی برای ساخت مدل طبقه‌بندی به دست آید. سپس، هر دو طبقه‌بندی‌کننده نظارت‌شده (به بخش 2.4.2 بعدی مراجعه کنید ) با استفاده از این اشیاء نمونه‌گیری اعمال شدند. یک روش ارزیابی دقت مبتنی بر چند ضلعی باید در طبقه بندی مبتنی بر شی به دلیل عدم قطعیت اشیاء قطعه بندی شده استفاده شود [ 41]، و بنابراین ما از چند ضلعی های مرجع به عنوان نمونه های اعتبار سنجی برای ایجاد ماتریس سردرگمی با محاسبه صحیح ناحیه بخشی از شی طبقه بندی شده بین اشیاء طبقه بندی شده و چند ضلعی های مرجع استفاده کردیم.

2.4.2. تکنیک های طبقه بندی

با توجه به مقایسه سیستماتیک قبلی ما [ 19 ]، جنگل تصادفی (RF) و ماشین‌های بردار پشتیبان (SVM) برای طبقه‌بندی GEOBIA بسیار مناسب هستند و تمایل کلی مورد انتظار کاهش دقت کلی با افزایش مقیاس تقسیم‌بندی تایید می‌شود. بنابراین، طبقه‌بندی‌کننده‌های RF و SVM برای ارزیابی عملکرد روش‌های مختلف انتخاب ویژگی مورد استفاده قرار گرفتند.

(1) طبقه بندی RF

RF چندین درخت طبقه بندی را به عنوان یک طبقه بندی گروه جدید ترکیب می کند و به دلیل عملکرد برتر خود به طور گسترده در زمینه طبقه بندی سنجش از دور استفاده شده است [ 9 ، 11 ، 12 ، 42 ، 43 ]. روش بسته بندی برای تولید مجموعه داده آموزشی برای رشد هر درخت استفاده می شود. اشیاء بدون برچسب با اختصاص دادن آنها به کلاسی که بیشترین رای داده شده است طبقه بندی می شوند. طبقه‌بندی‌کننده RF برای ساخت مدل پیش‌بینی به دو پارامتر نیاز دارد: تعداد درخت‌های تصمیم و تعداد متغیرهایی که در هر تقسیم برای رشد درخت استفاده می‌شوند. تعداد 479 درخت برای این مطالعه انتخاب شد (که به نظر می رسد یک مقدار منظم برای طبقه بندی کننده RF با توجه به رودریگز-گالیانو و همکاران.44 ])، و از یک متغیر تقسیم تصادفی منفرد برای رشد درختان استفاده شد. بسته “randomForest” در R برای تحقق طبقه بندی کننده RF استفاده شد.

(2) طبقه بندی SVM

ماشین بردار پشتیبان، که یک طبقه‌بندی کننده یادگیری آماری نظارت شده غیرپارامتری است، در طبقه‌بندی سنجش از دور محبوبیت فزاینده‌ای پیدا کرده است [ 4 ، 45 ، 46 ]. در این مطالعه، بسته R ‘e1071’، که کتابخانه LIBSVM را یکپارچه می کند [ 47 ، 48]، برای اجرای الگوریتم SVM با استفاده از هسته تابع پایه شعاعی (RBF) پیاده‌سازی شد، در حالی که ترفند هسته ممکن است عملکرد طبقه‌بندی را در مقایسه با SVM‌های خطی بهبود بخشد. سپس، از روش جستجوی شبکه ای برای یافتن بهترین جفت پارامتر (پارامتر جریمه C و پارامتر هسته γ) استفاده شد که در آن بهترین دقت اعتبارسنجی متقاطع مشاهده می شود. بنابراین، عدم قطعیت ناشی از پارامترهای طبقه‌بندی کننده SVM ممکن است با استفاده از بهترین نتیجه طبقه‌بندی اجتناب شود. یک شبکه درشت متشکل از یک فضای پارامتر دو بعدی (تابع fun = 2 ^d است ، که در آن d = -4، -1.5، -1، …، 4 برای C، و d = -4، -3.5، -3 است. , …, 1 برای γ) برای هر طبقه بندی برای سرعت بخشیدن به فرآیند جستجوی شبکه استفاده شد.

2.5. استنتاج آماری

در این مطالعه، از آزمون t دو دنباله برای تعیین اینکه آیا دو میانگین جامعه مشتق شده با استفاده از همه ویژگی ها و آنهایی که از ویژگی های انتخاب شده به دست آمده اند، برابر هستند یا خیر استفاده می شود. پس از ارزیابی بصری الگوی تغییر دقت طبقه‌بندی با تعداد متفاوتی از ویژگی‌های به دست آمده از پنج روش ارزیابی ویژگی، اهمیت، آزمون t دو دنباله برای دو گروه دقت (به ترتیب ده دقت مستقل برای هر گروه) اعمال شد. با استفاده از همه ویژگی‌ها و فهرست رتبه‌بندی ویژگی‌ها با استفاده از پنج روش ارزیابی ویژگی-اهمیت-ارزیابی، برای یافتن کمترین تعداد ویژگی‌های لازم برای دستیابی به دقت نسبی با آنچه که با استفاده از همه ویژگی‌ها به دست می‌آید، تولید شده است. برای سه روش ارزیابی ویژگی – زیر مجموعه – از t دو دنباله استفاده کردیم-تست برای تعیین اینکه آیا زیرمجموعه ویژگی بهینه می تواند عملکرد طبقه بندی را به طور قابل توجهی بهبود بخشد در مقایسه با آنچه که با استفاده از همه ویژگی ها برای اندازه مجموعه آموزشی متفاوت بدست می آید یا خیر. در نهایت، ده بهترین دقت ویژگی های انتخاب شده با دقت به دست آمده با استفاده از همه ویژگی ها مقایسه شد. به طور کلی، اگر قدر مطلق آماره آزمون بیشتر از مقدار بحرانی 1.96 باشد، فرض صفر را رد می کنیم و نتیجه می گیریم که میانگین دو جامعه در سطح معنی داری 0.05 متفاوت است.

3. نتایج و بحث

این مطالعه تنها روش‌های انتخاب ویژگی را به جای تحلیل اهمیت ویژگی‌های فردی ارزیابی می‌کند، زیرا مطالعات قبلی ما [ 9] برخی ویژگی های مهم خاص برای استخراج اطلاعات کشاورزی را تعیین کرد. مقایسه روش‌های انتخاب ویژگی برای طبقه‌بندی مبتنی بر شی، به دلیل انواع مختلف نتایج به‌دست‌آمده از فرآیند انتخاب ویژگی (به عنوان مثال، فهرست ویژگی‌های رتبه‌بندی‌شده و زیر مجموعه ویژگی‌های بهینه)، از جمله تجزیه و تحلیل، در این مطالعه به دو بخش تقسیم شد. روش‌های ارزیابی اهمیت ویژگی و روش‌های ارزیابی زیر مجموعه ویژگی‌ها. با توجه به روش‌های ارزیابی ویژگی، اهمیت، از پنج الگوریتم (نسبت به دست آوردن، Chi-square، SVM-RFE، Relief-F و Random Forest) برای به دست آوردن فهرست رتبه‌بندی ویژگی‌ها استفاده شد و سپس هر ویژگی به صورت جداگانه برای طبقه‌بندی اضافه شد. با توجه به لیست رتبه بندی در مورد روش‌های ارزیابی ویژگی-زیر مجموعه، زیر مجموعه ویژگی بهینه از سه الگوریتم انتخاب ویژگی (CFS،

3.1. ارزیابی ویژگی-اهمیت-روش های ارزیابی

شکل 2 و شکل 3الگوهای تغییر دقت طبقه‌بندی را برای هر دو طبقه‌بندی کننده در هر دو ناحیه نشان می‌دهد، زیرا تعداد ویژگی‌های متفاوتی استفاده شده و اندازه مجموعه آموزشی متفاوت است. میانگین دقت کلی ده تکرار طبقه‌بندی با تعداد مشخصی از ویژگی‌ها و اندازه مجموعه آموزشی یکسان برای روش‌های مختلف ارزیابی ویژگی-اهمیت- ارزیابی محاسبه شد. میانگین دقت کلی در ابتدا با افزایش تعداد ویژگی‌های مورد استفاده به سرعت افزایش یافت. پس از رسیدن به یک آستانه مشخص، دقت طبقه بندی ثابت باقی می ماند، حتی اگر ویژگی های بیشتری اضافه شود. علاوه بر این، عملکرد طبقه‌بندی کمی متفاوت بین هر دو طبقه‌بندی کننده برای اندازه‌های مختلف مجموعه آموزشی، حتی استفاده از روش‌های مختلف انتخاب ویژگی مشاهده شد. برای منطقه 1، زمانی که اندازه مجموعه آموزشی کمتر از 60 شی بود،شکل 2 )، که مطابق با یافته های قبلی برای مطالعات داده های فراطیفی [ 5 ] است. الگوی مشابهی نیز در منطقه 2 مشاهده شد ( شکل 3 ). با این حال، برای هر دو منطقه، طبقه‌بندی‌کننده RF به طور کلی بهتر از طبقه‌بندی‌کننده SVM عمل می‌کند، و دقت طبقه‌بندی با تغییر ویژگی‌ها در هنگام استفاده از اندازه‌های مجموعه آموزشی کوچک نسبتاً پایدار بود. بنابراین، بیشتر مشهود بود که طبقه‌بندی‌کننده RF نسبت به طبقه‌بندی‌کننده SVM به تأثیر ابعاد داده‌ها حساسیت کمتری دارد، حتی اگر از یک مجموعه آموزشی کوچک استفاده شده باشد، و لی و همکاران. [ 19] ثابت کرد که هر یک از طبقه‌بندی‌کننده‌ها را می‌توان با نمونه‌های آموزشی محدود استفاده کرد. همچنین باید توجه داشت که نتایج ما با یافته‌های اولیه مبنی بر اینکه SVM نسبت به اثر هیوز حساس نیست، مطابقت ندارد، اما مطابق با پال و فودی [5 ] است که مشخص کردند طبقه‌بندی SVM تحت تأثیر تعداد ویژگی‌های مورد استفاده قرار می‌گیرد. ما فرض کردیم که ویژگی‌های اضافی می‌تواند کمبود نمونه‌های آموزشی برای طبقه‌بندی کننده RF را جبران کند و SVM مستعد اثر هیوز برای طبقه‌بندی مبتنی بر شی با فقدان نمونه‌های آموزشی بدون توجه به استفاده از ویژگی‌های اضافی است.

می‌توانیم توجه کنیم که نتایج به‌طور چشمگیری بین چندین اندازه مجموعه آموزشی متفاوت بود، اما عملکردهای کمی متفاوت هنوز بین الگوریتم‌های انتخاب ویژگی با توجه به محدودیت‌های ویژگی‌ها مشاهده شد. به عنوان مثال، عملکرد هنگام استفاده از تعداد کمی از ویژگی‌ها به شدت به روش‌های ارزیابی ویژگی-اهمیت-وابستگی بستگی دارد، در حالی که روش‌های مختلف انتخاب ویژگی احتمالاً مستلزم فهرست رتبه‌بندی متفاوتی از ویژگی‌ها هستند، حتی زمانی که از همان اندازه مجموعه آموزشی استفاده می‌شود [37 ] . برای مقایسه تفاوت معنی‌داری آماری بین میانگین دقت‌های تولید شده با استفاده از تمام ویژگی‌ها و مواردی که از فهرست رتبه‌بندی ویژگی‌ها به دست آمده‌اند، از آزمون t دو دنباله استفاده شد ( جدول 2) .) برای به دست آوردن یک نتیجه گیری درست. جدول 2نتایج آزمون‌های معنی‌داری آماری را نشان می‌دهد که با استفاده از اندازه مجموعه آموزشی 300 شی برای ناحیه 1 به دست آمده است، که احتمالاً بر اساس تحلیل قبلی نسبت به اثر هیوز (بعدی داده‌ها) حساس نیست. نتایج نشان می‌دهد که کارایی روش‌های انتخاب ویژگی زمانی که تعداد کمی از ویژگی‌ها استفاده می‌شد متفاوت بود، زیرا دقت قابل مقایسه با یک مجموعه کامل از ویژگی‌ها با نیاز به تعداد متفاوتی از ویژگی‌ها به دست آمد و همچنین عملکرد متفاوتی در یک کوچک مشاهده شد. تعداد ویژگی های هر الگوریتم حتی با استفاده از طبقه بندی کننده یکسان. برای هر دو طبقه‌بندی‌کننده، نسبت بهره و SVM-RFE بهتر از سایر روش‌های ارزیابی اهمیت ویژگی‌ها بودند، زیرا مقادیر آماری پایین‌تری در هنگام استفاده از تعداد کمی از ویژگی‌ها به‌دست می‌آیند (جدول 2) .). با این حال، با توجه به کارایی انتخاب ویژگی برای طبقه‌بندی کننده RF، مشهود بود که SVM-RFE و Chi-square هر دو روش‌های انتخاب ویژگی مناسب هستند. هنگامی که تعداد کمتری از ویژگی ها (8 ویژگی) در مقایسه با سه الگوریتم دیگر ( جدول 2 ) استفاده شد، تفاوت ها کاهش یافت. برای طبقه‌بندی‌کننده SVM، هر پنج روش ارزیابی اهمیت-ویژگی با استفاده از هشت ویژگی به دقت قابل مقایسه با مجموعه کامل ویژگی‌ها دست یافتند ( جدول 2 ). این نتایج مشابه نتایج Ghosh & Joshi [ 49] است]، که ثابت کرد که دقت می تواند اشباع شود و پس از گنجاندن ده متغیر اول هنگام استفاده از تکنیک RFE با متغیرهای تبدیل (به عنوان مثال، جزء اصلی) هیچ تغییری نشان نمی دهد. بنابراین، به نظر می رسد که روش SVM-RFE ممکن است برای طبقه بندی کننده RF مناسب باشد، در حالی که نسبت Gain و SVM-RFE هر دو برای طبقه بندی کننده SVM مناسب هستند.

3.2. ارزیابی برای روش‌های ارزیابی ویژگی-زیر مجموعه

میانگین منحنی های دقت کلی و خطاهای استاندارد برای سه روش ارزیابی ویژگی-زیر مجموعه در شکل 4 و شکل 5 گزارش شده است . صرف نظر از استراتژی‌های ترکیبی بین روش‌های انتخاب ویژگی و الگوریتم‌های طبقه‌بندی بکار گرفته شده، این نتایج مطابق با این واقعیت است که میانگین دقت افزایش می‌یابد و خطای استاندارد همراه با افزایش اندازه مجموعه آموزشی کاهش می‌یابد [9 ] . علاوه بر این، تفاوت آماری معنی‌دار بین دقت کلی حاصل از سه روش ارزیابی ویژگی-زیر مجموعه-ارزیابی و آنچه که با استفاده از همه ویژگی‌ها ایجاد شده است با استفاده از تی دو دنباله ارزیابی شد .-روش آزمون. برای طبقه‌بندی‌کننده RF، نتایج نشان داد که عملکرد طبقه‌بندی با استفاده از ویژگی‌های انتخاب‌شده CFS در اکثر موارد به‌طور معنی‌داری شبیه به آن چیزی است که با استفاده از همه ویژگی‌ها به دست می‌آید، در حالی که تأثیر منفی معنی‌دار آماری انتخاب ویژگی اغلب برای هر دو روش پوشش مشاهده شد (شکل 4) . ). می‌توان آن را به حساسیت RF به نمونه‌های آموزشی محدود نسبت داد، زیرا این روش از حجم نمونه بزرگ‌تر سود می‌برد [ 50 ]. برای طبقه‌بندی کننده SVM، نتایج نشان داد که معمولاً هیچ تفاوت آماری معنی‌داری در دقت کلی بین استفاده از ویژگی‌های انتخاب شده با سه روش ارزیابی ویژگی-زیر مجموعه-ارزیابی و مجموعه ویژگی کامل وجود ندارد (شکل 5) .، به ویژه برای اندازه مجموعه آموزشی کوچک، از آنجایی که ترکیب بردارهای پشتیبان را نمی توان به طور قابل توجهی با افزودن نمونه های آموزشی بیشتر برای گستره ابر صفحه جداکننده تغییر داد [ 51 ]. بنابراین، به نظر می‌رسد طبقه‌بندی‌کننده SVM از سه روش ارزیابی ویژگی-زیر مجموعه-ارزیابی بهره می‌برد، حتی اگر هیچ بهبودی در دقت آماری معنی‌داری رخ نداده باشد، زیرا ویژگی‌های کاهش‌یافته با این وجود قادر به بهبود کارایی فرآیند طبقه‌بندی بودند.

3.3. ارزیابی جامع برای همه روش‌های انتخاب ویژگی

به منظور ارزیابی تمامی روش‌های انتخاب ویژگی در نظر گرفته شده در این مطالعه، تفاوت معنی‌دار آماری بین بهترین دقت به‌دست‌آمده با استفاده از ویژگی‌های انتخاب‌شده و حاصل از مجموعه ویژگی‌های کامل با استفاده از آزمون t دو دنباله و همچنین ارزیابی ارزیابی شد . از پاسخ های همه روش های انتخاب ویژگی در نظر گرفته شده و هر دو طبقه بندی کننده در برابر پارامتر اندازه مجموعه آموزشی ( جدول 3). از نظر سه رویکرد ارزیابی ویژگی – زیرمجموعه – ارزیابی، تنها یک زیرمجموعه ویژگی بهینه را می‌توان برای نمونه‌گیری منفرد به دست آورد، در حالی که مجموعه‌ای از زیرمجموعه‌های ویژگی احتمالاً از فهرست ویژگی‌های رتبه‌بندی شده برای روش‌های ارزیابی اهمیت ویژگی مشتق می‌شوند. بنابراین ما در نظر گرفتیم که بهترین دقت طبقه‌بندی از این زیرمجموعه ویژگی بهینه برای رویکردهای ارزیابی ویژگی – زیر مجموعه – به دست آمد. در جدول 3اعداد اعشاری ممکن است برای این سه رویکرد ارزیابی ویژگی-زیرمجموعه در پرانتز قرار گیرند، زیرا تعداد ویژگی ها در اینجا با میانگین تعداد ویژگی های انتخاب شده بر اساس ده تکرار طبقه بندی نشان داده می شود. به دلیل تغییر نمونه‌های آموزشی، تعداد ویژگی‌های بهینه لزوماً برای هر تکرار طبقه‌بندی سازگار نبود.

با توجه به مقایسه بین دو نوع نتیجه انتخاب ویژگی، ویژگی‌های به دست آمده از ارزیابی اهمیت ویژگی همیشه تأثیر مثبتی بر عملکرد طبقه‌بندی مبتنی بر شی داشت، هر طبقه‌بندی‌کننده که استفاده می‌شد، در حالی که تأثیر منفی اغلب برای یک طبقه‌بندی مشاهده شد. زیر مجموعه ویژگی که از دو روش wrapper مشتق شده است. به نظر می‌رسد که روش‌های wrapper برتری را برای طبقه‌بندی مبتنی بر شی، که در داده‌های ابرطیفی هر پیکسل ادعا می‌شود، حفظ نمی‌کنند [ 37 ، 52 ، 53 .]. علاوه بر این، سه روش ارزیابی ویژگی-زیر مجموعه-از تعداد کمی از ویژگی ها به عنوان زیرمجموعه ویژگی بهینه استفاده می کنند، به ویژه برای هر دو روش بسته بندی، در حالی که سایر روش های ارزیابی اهمیت-ویژگی ثابت کردند که تعداد نسبتاً زیادی از ویژگی ها احتمالاً به دست می آیند. بهترین دقت طبقه بندی ( جدول 3 ). ما فرض می‌کنیم که این مربوط به تخمین بیش از حد عملکرد طبقه‌بندی‌کننده است، به دلیل اعتبارسنجی متقاطع مبتنی بر نقطه در فرآیند روش wrapper [ 54 ، 55 ]، به طوری که بهترین دقت بیشتر برای تعداد کمتری به دست آمد. ویژگی ها، به خصوص زمانی که طرح یادگیری روش wrapper یک طبقه بندی کننده RF بود. دنبال کردن جانسون [ 56]، همچنین این موضوع را با استفاده از یک روش ارزیابی دقت مبتنی بر نقطه برای اعتبار سنجی متقابل انتخاب ویژگی مبتنی بر پوشش در یک طبقه‌بندی مبتنی بر شی ارائه کردیم، زیرا شی قطعه‌بندی شده لزوماً به‌عنوان یک کلاس نشان داده نمی‌شود زیرا احتمال وقوع اشیاء مخلوط [ 9 ]. در یک مطالعه آینده، ما یک روش ارزیابی دقت مبتنی بر چند ضلعی را توصیه می‌کنیم که برای اعتبارسنجی متقابل در فرآیند انتخاب ویژگی مبتنی بر لفاف استفاده شود.

از سوی دیگر، بهترین دقت طبقه بندی از ویژگی های رتبه بندی شده ایجاد شد. این به طور قابل توجهی بهتر از آن است که از مجموعه ویژگی های کامل مشتق شده است و نشان می دهد که انتخاب ویژگی دارای پتانسیل بهبود طبقه بندی مبتنی بر شی است، حتی اگر دقت طبقه بندی با استفاده از روش های ارزیابی ویژگی-زیر مجموعه برتری نسبت به مواردی که با استفاده از همه ویژگی ها به دست می آیند، ندارد. به دلیل ویژگی های محدود تعیین شده بنابراین، به نظر می‌رسد که روش‌های ارزیابی اهمیت ویژگی برای طبقه‌بندی مبتنی بر شی مناسب‌تر هستند و روش‌های wrapper برای استفاده از اعتبارسنجی متقاطع مبتنی بر چند ضلعی ضروری هستند.

برای روش‌های ارزیابی اهمیت-ویژگی، طبقه‌بندی‌کننده RF به طور قابل‌توجهی از روش‌های انتخاب ویژگی RF و SVM-RFE بهره‌مند شد، در حالی که هیچ بهبود قابل‌توجهی برای هر دو روش دیگر (نسبت به دست آوردن و Relief-F) مشاهده نشد (جدول 3 )). برعکس، طبقه‌بندی‌کننده SVM می‌تواند بیشترین پیشرفت را از هر پنج روش ارزیابی ویژگی-اهمیت-ارزیابی به دست آورد. علاوه بر این، اگر هدف بهینه‌سازی دقت طبقه‌بندی مبتنی بر شی باشد، ممکن است استفاده از روش‌های ارزیابی ویژگی-اهمیت-ارزیابی را پیشنهاد کنیم، در حالی که روش‌های ارزیابی ویژگی-زیر مجموعه به طور قابل توجهی دقت طبقه‌بندی را در هیچ موردی بهبود ندادند. علاوه بر این، آزمایش ما (با استفاده از حداکثر 32) نشان داد که تعداد بهینه ویژگی های ورودی برای به دست آوردن بهترین طبقه بندی بین 15-25 ویژگی برای طبقه بندی کننده RF است. با این حال، در بیشتر مواردی که از روش‌های ارزیابی ویژگی-اهمیت-ارزیابی در ترکیب با طبقه‌بندی کننده SVM استفاده می‌کردند، نتایج نشان داد که مجموعه‌های ویژگی نسبتاً کوچک (10-20) بهترین دقت را به دست آوردند.

4. نتیجه گیری

در این مطالعه، چندین روش انتخاب ویژگی پیشرفته برای طبقه‌بندی مبتنی بر شی مناطق کشاورزی با استفاده از تصاویر پهپاد و طبقه‌بندی‌کننده‌های RF و SVM مورد ارزیابی قرار گرفت. یک نتیجه‌گیری اصلی این است که طبقه‌بندی‌کننده RF نسبتاً به ابعاد داده‌ها حساس نیست و طبقه‌بندی‌کننده SVM از تجزیه و تحلیل انتخاب ویژگی در مورد دقت، به‌ویژه برای اندازه‌های مجموعه آموزشی کوچک سود بیشتری می‌برد. علاوه بر این، SVM به راحتی تحت تأثیر تعداد ویژگی های ورودی، یعنی پدیده هیوز، زمانی که از نمونه های آموزشی کوچک استفاده می شود، قرار می گیرد.

نتایج همچنین نشان می دهد که انتخاب یک روش انتخاب ویژگی مناسب بسیار مهم است زیرا عملکرد در اکثر موارد بسیار متفاوت است. به عنوان مثال، با روش‌های ارزشیابی-اهمیت-ویژگی، ابتدا دقت قابل مقایسه با استفاده از تعداد ویژگی‌های مختلف به دست آمد، در حالی که دقت‌های طبقه‌بندی مختلف با همان تعداد ویژگی به دست آمد ( جدول 1 ). برای طبقه‌بندی RF با استفاده از هر دو روش لفاف، کاهش آماری معنی‌داری در دقت مشاهده شد که عمدتاً مستقل از اندازه مجموعه تمرینی بود ( شکل 4) .). بنابراین، CFS ممکن است یک روش ارزیابی ویژگی – زیرمجموعه – ارزیابی مناسب باشد، زیرا مجموعه داده‌های کاهش‌یافته می‌تواند دقت طبقه‌بندی مشابهی را در مقایسه با آنچه از مجموعه ویژگی‌های کامل به دست می‌آید به دست آورد. در نهایت، نتایج روش‌های ارزیابی اهمیت ویژگی نشان می‌دهد که طبقه‌بندی مبتنی بر شی می‌تواند از انجام تحلیل انتخاب ویژگی قبل از طبقه‌بندی سود ببرد، اما ممکن است پیش‌بینی شود که اعتبارسنجی متقاطع مبتنی بر چند ضلعی می‌تواند حتی برای بهبود بیشتر ویژگی مناسب‌تر باشد. انتخاب برای طبقه بندی مبتنی بر شی برای روش wrapper.

برای روش طبقه‌بندی با استفاده از روش‌های ارزیابی اهمیت ویژگی، 15 تا 25 ویژگی ورودی احتمالاً بهترین نتایج طبقه‌بندی را برای طبقه‌بندی کننده RF در بیشتر موارد ایجاد می‌کنند. برای طبقه‌بندی‌کننده SVM، 10 تا 20 ویژگی ورودی معمولاً بهترین نتایج را ایجاد می‌کنند، بسته به الگوریتم انتخاب ویژگی و اندازه مجموعه آموزشی. ایده در مورد روش لفاف در مطالعات قبلی اثبات نشده است، و بنابراین نویسندگان امیدوارند که این یافته‌ها از پیشرفت و بلوغ بیشتر روش‌های طبقه‌بندی OBIA پشتیبانی کند. بنابراین در کار آینده، ما انتظار داریم که روش‌های wrapper با اعتبار متقاطع مبتنی بر چند ضلعی ممکن است عملکرد روش‌های wrapper را در طبقه‌بندی مبتنی بر شی بهبود بخشد.

منابع

پدرگنانا، م. Marpu، PR; دالا مورا، م. بندیکتسون، جی. Bruzzone, L. یک تکنیک جدید برای انتخاب ویژگی بهینه در پروفایل های ویژگی بر اساس الگوریتم های ژنتیک. IEEE Trans. Geosci. Remote Sens. 2013 , 51 , 3514–3528. [ Google Scholar ] [ CrossRef ]
نواک، تی. اش، تی. کوکس، اچ. Stilla، U. مقایسه یادگیری ماشینی بین تصاویر شبیه سازی شده جهان بینی-2 و پرنده-2 در مورد طبقه بندی پوشش زمین شهری مبتنی بر شی. Remote Sens. 2011 , 3 , 2263–2282. [ Google Scholar ] [ CrossRef ]
توپوزلیس، ک. Psyllos، A. انتخاب ویژگی و طبقه بندی نشت نفت با استفاده از جنگل درخت تصمیم بر روی داده های تصویر SAR. ISPRS J. Photogramm. Remote Sens. 2012 ، 68 ، 135-143. [ Google Scholar ] [ CrossRef ]
ملگانی، ف. Bruzzone, L. طبقه بندی تصاویر سنجش از دور ابرطیفی با ماشین های بردار پشتیبان. IEEE Trans. Geosci. Remote Sens. 2004 ، 42 ، 1778-1790. [ Google Scholar ] [ CrossRef ]
نخل.؛ Foody, GM انتخاب ویژگی برای طبقه بندی داده های فراطیفی توسط SVM. IEEE Trans. Geosci. Remote Sens. 2010 , 48 , 2297–2307. [ Google Scholar ] [ CrossRef ]
چنگ، جی. هان، جی. بررسی تشخیص اشیا در تصاویر سنجش از دور نوری. ISPRS J. Photogramm. Remote Sens. 2016 ، 117 ، 11-28. [ Google Scholar ] [ CrossRef ]
Laliberte، AS; براونینگ، دی. Rango، A. مقایسه سه روش انتخاب ویژگی برای طبقه‌بندی مبتنی بر شی تصاویر ultracam-l با وضوح زیر دسی متر. بین المللی J. Appl. زمین Obs. Geoinf. 2012 ، 15 ، 70-78. [ Google Scholar ] [ CrossRef ]
بلاشکه، تی. هی، GJ; کلی، م. لانگ، اس. هافمن، پی. آدینک، ای. فیتوسا، RQ; Meer، FVD; Werff، HVD; Coillie، FV Geographic تجزیه و تحلیل تصویر مبتنی بر شی – به سوی یک پارادایم جدید. ISPRS J. Photogramm. Remote Sens. 2014 ، 87 ، 180-191. [ Google Scholar ] [ CrossRef ] [ PubMed ]
ما، ال. چنگ، ال. لی، ام. لیو، ی. Ma، X. اندازه، مقیاس و ویژگی‌های مجموعه آموزشی در تجزیه و تحلیل تصویر مبتنی بر شی جغرافیایی تصاویر وسایل نقلیه هوایی بدون سرنشین با وضوح بسیار بالا. ISPRS J. Photogramm. Remote Sens. 2015 ، 102 ، 14-27. [ Google Scholar ] [ CrossRef ]
دورو، دی سی؛ فرانکلین، SE; Dubé، MG تجزیه و تحلیل تصویر مبتنی بر شی در مقیاس چندگانه و انتخاب ویژگی تصاویر رصد زمین با چند سنسور با استفاده از جنگل‌های تصادفی. بین المللی J. Remote Sens. 2012 ، 33 ، 4502-4526. [ Google Scholar ] [ CrossRef ]
استامف، ا. Kerle، N. نقشه برداری شی گرا زمین لغزش با استفاده از جنگل های تصادفی. سنسور از راه دور محیط. 2011 ، 115 ، 2564-2577. [ Google Scholar ] [ CrossRef ]
پوسانت، ا. روژیر، اس. Stumpf, A. نقشه برداری شی گرا از درختان شهری با استفاده از طبقه بندی جنگل تصادفی. بین المللی J. Appl. زمین Obs. Geoinf. 2014 ، 26 ، 235-245. [ Google Scholar ] [ CrossRef ]
هان، جی. پی، جی. کامبر، ام. داده کاوی: مفاهیم و تکنیک ها . الزویر: آمستردام، هلند، 2011. [ Google Scholar ]
چوبی، ام اس; فرانکلین، SE; Wulder، MA تجزیه و تحلیل مبتنی بر شی تصاویر Ikonos-2 برای استخراج پارامترهای موجودی جنگل. فتوگرام مهندس Remote Sens. 2006 , 72 , 383-394. [ Google Scholar ] [ CrossRef ]
Laliberte، AS; Rango، A. بافت و مقیاس در تجزیه و تحلیل مبتنی بر شی تصاویر با وضوح زیر دسی متری وسیله نقلیه هوایی بدون سرنشین (UAV). IEEE Trans. Geosci. Remote Sens. 2009 , 47 , 761-770. [ Google Scholar ] [ CrossRef ]
ویرا، MA; Formaggio، AR؛ رنو، سی دی; آتزبرگر، سی. Aguiar، DA; Mello، تجزیه و تحلیل تصویر مبتنی بر شی MP و داده کاوی روی یک سری زمانی Landsat سنجش از دور برای نقشه‌برداری از نیشکر در مناطق بزرگ اعمال شد. سنسور از راه دور محیط. 2012 ، 123 ، 553-562. [ Google Scholar ] [ CrossRef ]
پنا-باراگان، جی.ام. Ngugi، MK; کارخانه، RE; شش، J. شناسایی محصول مبتنی بر شی با استفاده از شاخص‌های چندگانه پوشش گیاهی، ویژگی‌های بافتی و فنولوژی محصول. سنسور از راه دور محیط. 2011 ، 115 ، 1301-1316. [ Google Scholar ] [ CrossRef ]
یو، کیو. گونگ، پی. کلینتون، ن. بیگینگ، جی. کلی، م. Schirokauer، D. طبقه بندی دقیق پوشش گیاهی مبتنی بر شی با تصاویر سنجش از دور با وضوح فضایی بالا در هوا. فتوگرام مهندس Remote Sens. 2006 ، 72 ، 799-811. [ Google Scholar ] [ CrossRef ]
لی، ام. ما، ال. بلاشکه، تی. چنگ، ال. Tiede، D. مقایسه سیستماتیک تکنیک های مختلف طبقه بندی مبتنی بر شی با استفاده از تصاویر با وضوح فضایی بالا در محیط های کشاورزی. بین المللی J. Appl. زمین Obs. Geoinf. 2016 ، 49 ، 87-98. [ Google Scholar ] [ CrossRef ]
نخل.؛ Mather, P. برخی مسائل در طبقه بندی داده های ابرطیفی دایس. بین المللی J. Remote Sens. 2006 ، 27 ، 2895-2916. [ Google Scholar ] [ CrossRef ]
ون کویلی، اف.ام. Verbeke، LP; De Wulf، RR انتخاب ویژگی توسط الگوریتم‌های ژنتیک در طبقه‌بندی مبتنی بر شی تصاویر IKONOS برای نقشه‌برداری جنگل در فلاندرز، بلژیک. سنسور از راه دور محیط. 2007 ، 110 ، 476-487. [ Google Scholar ] [ CrossRef ]
وستون، جی. موکرجی، اس. چاپل، او. پونتیل، ام. پوجیو، تی. Vapnik، V. انتخاب ویژگی برای SVMS. Adv. عصبی Inf. روند. سیستم 2000 ، 13 ، 668-674. [ Google Scholar ]
گیون، آی. وستون، جی. بارنهیل، اس. Vapnik، V. انتخاب ژن برای طبقه بندی سرطان با استفاده از ماشین های ناقل پشتیبانی. ماخ فرا گرفتن. 2002 ، 46 ، 389-422. [ Google Scholar ] [ CrossRef ]
دورو، دی سی؛ فرانکلین، SE; Dubé، MG مقایسه تحلیل تصویر مبتنی بر پیکسل و شی با الگوریتم‌های یادگیری ماشین انتخاب شده برای طبقه‌بندی مناظر کشاورزی با استفاده از تصاویر SPOT-5 HRG. سنسور از راه دور محیط. 2012 ، 118 ، 259-272. [ Google Scholar ] [ CrossRef ]
ما، ال. چنگ، ال. هان، دبلیو. ژونگ، ال. لی، ام. استخراج اطلاعات زمین کشت شده از داده‌های تصاویر هواپیمای بدون سرنشین با وضوح بالا. J. Appl. Remote Sens. 2014 ، 8 ، 1-25. [ Google Scholar ] [ CrossRef ]
پنیا، جی.ام. تورس سانچز، جی. د کاسترو، هوش مصنوعی؛ کلی، م. López-Granados، F. نقشه برداری علف های هرز در مزارع ذرت در اوایل فصل با استفاده از تجزیه و تحلیل مبتنی بر شی تصاویر وسایل نقلیه هوایی بدون سرنشین (UAV). PLoS ONE 2013 ، 8 ، e77151. [ Google Scholar ]
ما، ال. وانگ، ی. لی، ام. تانگ، ال. چنگ، ال. استفاده از تصاویر با وضوح بالا که با یک وسیله نقلیه هوایی بدون سرنشین مستقل برای ساخت و ساز و برنامه ریزی شهری به دست آمده است. در مجموعه مقالات کنفرانس بین المللی سنجش از دور، محیط زیست و مهندسی حمل و نقل، ناجینگ، چین، 26-28 ژوئیه 2013.
بااتز، ام. Schäpe، A. بخش‌بندی چند رزولوشن: یک رویکرد بهینه‌سازی برای تقسیم‌بندی تصویر در مقیاس چندگانه با کیفیت بالا. در Angewandte Geographische Informationsverarbeitung XII ; Strobl, J., Blaschke, T., Griesebner, G., Eds. Herbert Wichmann Verlag: برلین، آلمان، 2000; جلد 58، ص 12-23. [ Google Scholar ]
هال، م. فرانک، ای. هولمز، جی. فارینگر، بی. رویتمن، پی. Witten, IH نرم افزار داده کاوی weka: به روز رسانی. ACM SIGKDD Explor. Newsl. 2009 ، 11 ، 10-18. [ Google Scholar ] [ CrossRef ]
ژائو، ز. مورستاتر، اف. شارما، اس. علیانی، س. آناند، ا. لیو، اچ. پیشبرد تحقیقات انتخاب ویژگی: مخزن انتخاب ویژگی Asu ; TR-10-007; دانشکده محاسبات، انفورماتیک، و مهندسی سیستم های تصمیم، دانشگاه ایالتی آریزونا: تمپ، AZ، ایالات متحده آمریکا، 2007. [ Google Scholar ]
لیو، اچ. Setiono, R. Chi2: انتخاب ویژگی و گسسته سازی ویژگی های عددی. در مجموعه مقالات هفتمین کنفرانس بین المللی IEEE در مورد ابزارهای با هوش مصنوعی، Herndon، VA، ایالات متحده، 29-31 مه 1995. صص 388-391.
گیلاد-باچرخ، آر. ناووت، ا. تیشبی، تئوری و الگوریتم‌های انتخاب ویژگی مبتنی بر حاشیه N. در مجموعه مقالات بیست و یکمین کنفرانس بین المللی در مورد یادگیری ماشین، Banff، AB، کانادا، 4-8 ژوئیه 2004. ACM: نیویورک، نیویورک، ایالات متحده آمریکا؛ پ. 43.
Robnik-Shikonja، M. کونوننکو، I. تحلیل نظری و تجربی امداد و امداد. ماخ فرا گرفتن. 2003 ، 53 ، 23-69. [ Google Scholar ] [ CrossRef ]
وریکاس، ا. گلزینیس، ا. Bacauskiene، M. داده های معدن با جنگل های تصادفی: بررسی و نتایج آزمایش های جدید. تشخیص الگو 2011 ، 44 ، 330-349. [ Google Scholar ] [ CrossRef ]
هال، MA; هولمز، جی. تکنیک‌های انتخاب ویژگی معیار برای داده‌کاوی کلاس گسسته. IEEE Trans. بدانید. مهندسی داده 2003 ، 15 ، 1437-1447. [ Google Scholar ] [ CrossRef ]
Phuong، TM; لین، ز. Altman، RB انتخاب SNPS با استفاده از انتخاب ویژگی. J. Bioinf. محاسبه کنید. Biol. 2006 ، 4 ، 241-257. [ Google Scholar ] [ CrossRef ]
کهوی، ر. جان، GH Wrappers برای انتخاب زیر مجموعه ویژگی. آرتیف. هوشمند 1997 ، 97 ، 273-324. [ Google Scholar ] [ CrossRef ]
مالدونادو، اس. Weber, R. یک روش پوشش برای انتخاب ویژگی با استفاده از ماشین‌های بردار پشتیبان. Inf. علمی 2009 ، 179 ، 2208-2217. [ Google Scholar ] [ CrossRef ]
رودین، ع. لیتویننکو، آ. کلوس، ک. موریسون، ای سی؛ وودیج، تی. کورش، جی. Boerwinkle، E. استفاده از الگوریتم‌های پوشش همراه با طبقه‌بندی‌کننده تصادفی جنگل‌ها برای انتخاب متغیر در مطالعات ارتباط ژنومی در مقیاس بزرگ. جی. کامپیوتر. Biol. 2009 ، 16 ، 1705-1718. [ Google Scholar ] [ CrossRef ] [ PubMed ]
Platt, JC 12 آموزش سریع ماشین های بردار پشتیبان با استفاده از حداقل بهینه سازی متوالی. در پیشرفت در روش‌های هسته: آموزش بردار پشتیبانی ؛ مطبوعات MIT: کمبریج، MA، ایالات متحده آمریکا، 1999; ص 185-208. [ Google Scholar ]
Whiteside، TG; Maier، SW; Boggs، GS Area-based و مکان-محور اعتبار سنجی اشیاء تصویر طبقه بندی شده. بین المللی J. Appl. زمین Obs. Geoinf. 2014 ، 28 ، 117-130. [ Google Scholar ] [ CrossRef ]
استفانسکی، جی. مک، بی. Waske، B. بهینه سازی تجزیه و تحلیل تصویر مبتنی بر شی با جنگل های تصادفی برای نقشه برداری پوشش زمین. IEEE J. Sel. موضوعات کاربردی رصد زمین. Remote Sens. 2013 ، 6 ، 2492-2504. [ Google Scholar ] [ CrossRef ]
پال، M. طبقه بندی جنگل تصادفی برای طبقه بندی سنجش از دور. بین المللی J. Remote Sens. 2005 ، 26 ، 217-222. [ Google Scholar ] [ CrossRef ]
رودریگز-گالیانو، وی اف. قیمیر، بی. روگان، جی. چیکا اولمو، م. Rigol-Sanchez، JP ارزیابی اثربخشی طبقه‌بندی‌کننده تصادفی جنگل برای طبقه‌بندی پوشش زمین. ISPRS J. Photogramm. Remote Sens. 2012 ، 67 ، 93-104. [ Google Scholar ] [ CrossRef ]
چنگ، جی. هان، جی. ژو، پی. Guo, L. تشخیص شی چند طبقه جغرافیایی و طبقه بندی تصویر جغرافیایی بر اساس مجموعه آشکارسازهای قطعه. ISPRS J. Photogramm. Remote Sens. 2014 ، 98 ، 119-132. [ Google Scholar ] [ CrossRef ]
مونتراکیس، جی. من، جی. Ogole، C. ماشین‌های بردار پشتیبانی در سنجش از راه دور: بررسی. ISPRS J. Photogramm. Remote Sens. 2011 , 66 , 247-259. [ Google Scholar ] [ CrossRef ]
چانگ، سی.-سی. لین، سی.-جی. LIBSVM: کتابخانه ای برای ماشین های بردار پشتیبانی. ACM Trans. هوشمند سیستم تکنولوژی (TIST) 2011 ، 2 ، 27. [ Google Scholar ] [ CrossRef ]
شائو، ی. Lunetta، RS مقایسه ماشین بردار پشتیبان، شبکه عصبی و الگوریتم‌های گاری برای طبقه‌بندی پوشش زمین با استفاده از نقاط داده آموزشی محدود. ISPRS J. Photogramm. Remote Sens. 2012 ، 70 ، 78-87. [ Google Scholar ] [ CrossRef ]
قوش، ع. Joshi, P. مقایسه الگوریتم‌های طبقه‌بندی انتخابی برای نقشه‌برداری تکه‌های بامبو در دشت‌های گنگتیک پایین‌تر با استفاده از تصاویر جهان‌بینی ۲ با وضوح بسیار بالا. بین المللی J. Appl. زمین Obs. Geoinf. 2014 ، 26 ، 298-311. [ Google Scholar ] [ CrossRef ]
Fassnacht، F. هارتیگ، اف. لطیفی، ح. برگر، سی. هرناندز، جی. کوروالان، پی. Koch، B. اهمیت اندازه نمونه، نوع داده و روش پیش‌بینی برای تخمین‌های سنجش از دور زیست توده جنگل‌های بالای زمینی. سنسور از راه دور محیط. 2014 ، 154 ، 102-114. [ Google Scholar ] [ CrossRef ]
ویلند، ام. Pittore, M. ارزیابی عملکرد الگوریتم‌های یادگیری ماشین برای تشخیص الگوی شهری از تصاویر ماهواره‌ای چند طیفی. Remote Sens. 2014 , 6 , 2912–2939. [ Google Scholar ] [ CrossRef ]
چان، JC-W. Paelinckx، D. ارزیابی طبقه‌بندی تصادفی جنگل و درخت مبتنی بر درخت adaboost و انتخاب باند طیفی برای نقشه‌برداری اکوتوپ با استفاده از تصاویر ابرطیفی هوابرد. سنسور از راه دور محیط. 2008 ، 112 ، 2999-3011. [ Google Scholar ] [ CrossRef ]
هوانگ، ایکس. Zhang، L. یک رویکرد گروهی svm که ویژگی‌های طیفی، ساختاری و معنایی را برای طبقه‌بندی تصاویر سنجش از دور با وضوح بالا ترکیب می‌کند. IEEE Trans. Geosci. Remote Sens. 2013 ، 51 ، 257-272. [ Google Scholar ] [ CrossRef ]
چنگ، جی. هان، جی. گوا، ال. لیو، ز. اتوبوس.؛ Ren, J. طبقه‌بندی کاربری زمین مبتنی بر عناصر بصری سطح میانی مؤثر و کارآمد با استفاده از تصاویر سنجش از دور VHR. IEEE Trans. Geosci. Remote Sens. 2015 ، 53 ، 4238–4249. [ Google Scholar ] [ CrossRef ]
سان، ال. شولز، ک. پاسخ به مسائل مقیاس جانسون با مربوط به ارزیابی دقت نقشه‌های کاربری/پوشش زمین تولید شده با استفاده از داده‌های چند وضوح: نظرات در مورد “بهبود طبقه‌بندی پوشش زمین با سنجش از دور حرارتی”. Remote Sens. 2015 ، 7 ، 13440–13447. [ Google Scholar ] [ CrossRef ]
مسائل مربوط به مقیاس جانسون، BA مربوط به ارزیابی دقت نقشه‌های کاربری/پوشش زمین تولید شده با استفاده از داده‌های چند وضوح: نظرات در مورد “بهبود طبقه‌بندی پوشش زمین توسط سنجش از دور حرارتی”. Remote Sens. 2015 ، 7 ، 13436–13439. [ Google Scholar ] [ CrossRef ]

شکل 1. منطقه مطالعه در جنوب غربی چین که نمودار بدست آمده توسط تصاویر پهپاد را نشان می دهد. ( الف ) تصویر ارتو دیجیتال از ناحیه 1 که یک لایه تقسیم بندی را در مقیاس 100 پوشانده است. و ( ب ) لایه مرجع. ( ج ) تصویر ارتو دیجیتال از ناحیه 2 که یک لایه تقسیم بندی را در مقیاس 100 پوشانده است. و ( د ) لایه مرجع.

شکل 2. برای منطقه 1، رابطه بین میانگین دقت کلی طبقه‌بندی‌ها که ده بار تکرار شده است (تعداد ثابت ویژگی‌ها و اندازه مجموعه آموزشی) و تعداد ویژگی‌ها با استفاده از پنج روش ارزیابی ویژگی-اهمیت-ارزیابی با اندازه مجموعه آموزشی متفاوت برای هر دو طبقه‌بندی کننده .

شکل 3. برای منطقه 2، رابطه بین میانگین دقت کلی طبقه بندی ها که ده بار تکرار شده است (تعداد ثابت ویژگی ها و اندازه مجموعه آموزشی) و تعداد ویژگی ها با استفاده از پنج روش ارزیابی ویژگی-اهمیت-ارزیابی با اندازه مجموعه آموزشی متفاوت برای هر دو طبقه بندی کننده .

شکل 4. دقت کلی در مقابل اندازه مجموعه آموزشی بدست آمده توسط زیر مجموعه ویژگی های مختلف با استفاده از طبقه بندی کننده RF. مقدار آماری به دست آمده از آزمون t دو طرفه نشان می دهد که آیا تفاوت معنی داری در دقت طبقه بندی بین زیر مجموعه ویژگی انتخاب شده و مجموعه کامل ویژگی ها وجود دارد یا خیر.

شکل 5. دقت کلی در مقابل اندازه مجموعه آموزشی به دست آمده توسط زیر مجموعه ویژگی های مختلف با استفاده از طبقه بندی کننده SVM و مقدار آماری به دست آمده از آزمون t دو دنباله نشان می دهد که آیا تفاوت معنی داری در دقت طبقه بندی بین زیر مجموعه ویژگی انتخاب شده وجود دارد یا خیر. و مجموعه کامل ویژگی ها

جدول 1. فهرست ویژگی های شی.

جدول 2. خلاصه آزمون برای تفاوت بین طبقه بندی با زیر مجموعه ویژگی ها به دنبال یک ترتیب صعودی و مشتق شده از مجموعه ویژگی های کامل. ارزش آماری از آزمون t دو طرفه به دست آمد . اگر قدر مطلق آمار آزمون بزرگتر از 1.96 باشد، تفاوت در سطح معنی داری 05/0 معنادار است. عدد مثبت نشان می دهد که میانگین دقت مجموعه کامل ویژگی بهتر از آن است که از زیرمجموعه انتخاب شده بدست آمده است، در غیر این صورت زیر مجموعه بهتر بوده است.

جدول 3. خلاصه تفاوت بین بهترین دقت برای زیرمجموعه های ویژگی انتخاب شده و آن که با استفاده از همه ویژگی ها به دست آمده است. مقدار آماری از آزمون t دو طرفه به دست آمد و اگر قدر مطلق آماره آزمون بزرگتر از 1.96 باشد، تفاوت در سطح معنی داری 05/0 معنی دار است. عدد مثبت نشان می‌دهد که بهترین میانگین دقت برای زیرمجموعه‌های ویژگی بهتر از آن است که با استفاده از همه ویژگی‌ها به دست آمده است، در غیر این صورت دومی بهتر از اولی بود. مقادیر داخل پرانتز تعداد ویژگی هایی است که برای بهترین دقت طبقه بندی استفاده می شود.

© 2017 توسط نویسندگان. دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC BY) ( http://creativecommons.org/licenses/by/4.0/ ) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب