بازیابی تصاویر سنجش از دور با توصیفگرهای طیف الگو

خلاصه

افزایش سریع حجم داده‌های رصد زمین بصری، راه‌حل‌های موثر بازیابی تصویر مبتنی بر محتوا را می‌طلبد، که به طور خاص برای وضوح فضایی بالا و محتوای ناهمگن آنها طراحی شده است. در این مقاله، ما به این موضوع با یک پیاده‌سازی محلی جدید از توصیف‌کننده‌های مورفولوژیکی معروف به نام طیف الگو می‌پردازیم. آنها ساختارهای هیستوگرام مانند کارآمد محاسباتی هستند که توزیع جهانی ویژگی های دلخواه تعریف شده اجزای تصویر متصل را توصیف می کنند. علاوه بر استفاده از طیف های الگو برای اولین بار در این زمینه، سهم اصلی ما در محاسبه متراکم آنها، در مقیاس محلی نهفته است، بنابراین ترکیب آنها با استراتژی های واژگان بصری پیچیده را ممکن می سازد.

کلید واژه ها:

بازیابی تصویر مبتنی بر محتوا ; ریخت شناسی ریاضی ; طیف الگو ; سنجش از دور ؛ شرح صحنه

1. معرفی

فن‌آوری‌های رصد بصری زمین برای جوامع معاصر اهمیت حیاتی دارند، زیرا مقیاس تأثیر ما بر محیط اطراف ما اکنون بیشتر از همیشه است. علاوه بر این، بهبود سریع تفکیک‌پذیری‌های فضایی و طیفی دستگاه‌های جمع‌آوری تصویر، تصاویر ماهواره‌ای و هوایی را به منبعی ارزشمند از اطلاعات با طیف گسترده‌ای از کاربردهای اجتماعی، محیطی و نظامی تبدیل کرده است. در نتیجه، این تکثیر مداوم و پیچیدگی روزافزون تصاویر سنجش از دور نیاز مبرمی به روش‌های به همان اندازه مؤثر و کارآمد برای بهره‌برداری از آنها ایجاد کرده است.

به طور خاص، انباشت سریع داده‌های هوایی و ماهواره‌ای به ارزش گیگابایت به صورت روزانه، ابزارهای مقیاس‌پذیر، قوی و خودکار را که برای مدیریت، جستجو و بازیابی آنها طراحی شده‌اند، برای بهره‌برداری مؤثر از آنها ضروری کرده است. این به ما انگیزه می دهد تا روی بازیابی چنین تصاویر هوایی تمرکز کنیم و یک رویکرد جدید برای توصیف و بازیابی مبتنی بر محتوای آنها پیشنهاد کنیم.

بازیابی تصویر مبتنی بر محتوا (CBIR) معمولاً با استفاده از توصیفگرهای محاسباتی [ 1 ، 2 ، 3 ، 4 ]، یا به صورت سراسری برای کل تصویر [ 5 ، 6 ] یا بر روی [ 1 ، 7 ، 8 ] انتخاب شده یا بخش های از پیش تعیین شده از تصویر [ 9 ، 10 ]. در صورتی که توصیفگرها به صورت محلی بر روی وصله‌ها محاسبه شوند، که توصیفگرهای متعدد در هر تصویر تولید می‌کنند، ابتدا آنها را جمع‌آوری می‌کنند تا یک ورودی توصیفگر منفرد برای هر تصویر تولید شود [ 11 ، 12 ]. در نهایت، توصیفگرهای تصویر بیشتر در طرح‌های نمایه‌سازی اختصاصی استفاده می‌شوند [9 ، 13 ، 14 ، 15 ] برای دستیابی به هدف نهایی بازیابی موفق.

مورفولوژی ریاضی برای مدت طولانی مورد توجه جامعه تجزیه و تحلیل تصویر سنجش از دور قرار گرفته است، به ویژه از نظر طبقه بندی پیکسل با پروفایل های ریخت شناسی [ 16 ] و اخیراً مشخصات پروفایل ها [ 17 ، 18 ، 19 ، 20 ]، زیرا دارای ابزارهای منحصر به فردی است که قادر به فضایی هستند. -تحلیل محتوای طیفی با این حال، کاربرد آن برای بازیابی مبتنی بر محتوا در این زمینه با استفاده از توصیف‌گرهای بافت [ 21 ، 22 ] به طرز شگفت‌آوری محدود شده است، با توجه به اینکه جایگزین‌های بسیار قوی‌تری دارد.

یکی از این جایگزین‌ها، طیف‌های الگوی شناخته شده [ 23 ] است، ابزاری چند مقیاسی که به صورت جهانی بر روی اجزای تصویر متصل عمل می‌کند و توزیع هیستوگرام‌مانند یک یا چند ویژگی فضایی و/یا طیفی دلخواه آنها را تولید می‌کند. اگرچه طیف‌های الگو توصیف‌گر محتوا قدرتمندی هستند، تا همین اواخر تنها می‌توان آن‌ها را به صورت جهانی از روی یک تصویر مشخص محاسبه کرد. این از طریق گسترش ما به نظریه اساسی آنها تغییر کرده است که محاسبات آنها را در سطح محلی فعال کرده است [ 24 ]. کارهای اولیه ما با طیف های الگوی محلی بر محاسبه موفقیت آمیز آنها از مناطق برجسته محلی متمرکز شده است [ 25 ، 26 ].

با انگیزه این نتایج، در این مقاله، ما یک استراتژی توصیف محتوای جدید را ارائه می‌کنیم که برای اولین بار بر محاسبه متراکم طیف‌های الگوی محلی از یک شبکه منظم تکیه می‌کند، و بیشتر آنها را با بردارهای توصیفگرهای محلی (VLAD) ترکیب می‌کنیم. راه‌حل توصیف محتوای حاصل در برابر طیف‌های الگوی جهانی، و استراتژی‌های محلی جایگزین با استفاده از بزرگترین مجموعه داده هوایی CBIR که در دسترس عموم است، یعنی مجموعه داده UC Merced Landuse/Landcover، که در آن به عملکردهای امیدوارکننده‌ای دست می‌یابد، آزمایش می‌شود.

مقاله بصورت زیر مرتب شده است. بخش 2 کار قبلی را در مورد بازیابی تصاویر هوایی و ماهواره ای مبتنی بر محتوا مرور می کند و مشارکت های ما را شرح می دهد. در مرحله بعد، بخش 3 تعریف طیف های الگو را به عنوان توصیفگرهای جهانی و محلی یادآوری می کند و همچنین ویژگی های مختلف درگیر در مطالعه ما را شرح می دهد. ما پروتکل ارزیابی مورد استفاده در آزمایش‌های خود را در بخش 4 توصیف می‌کنیم ، در حالی که نتایج در بخش 5 قبل از نتیجه‌گیری و ارائه دستورالعمل‌های تحقیقاتی آینده مورد بحث قرار می‌گیرند.

2. کار قبلی

بازیابی تصویر مبتنی بر محتوا در 20 سال گذشته مسیر طولانی را طی کرده است. پس از آزمایش‌های امکان‌سنجی موفقیت‌آمیز اولیه، تلاش زیادی برای پر کردن «شکاف معنایی»، یعنی شکاف بین توصیف‌گرهای محتوای سطح پایین‌تر و معنایی یک تصویر، و اجرای روش‌های بازیابی بیشتر (به عنوان مثال، عمل) انجام شده است. بازیابی مبتنی بر ویدئو و غیره). برای مطالعه عمیق مسائل مربوط به CBIR و بررسی جامع این زمینه، خواننده به [ 27 ] مراجعه می کند.

ظهور نسبتاً اخیر پایگاه‌های داده تجاری بسیار بزرگ از تصاویر سنجش از دور، جامعه تحقیقاتی را به انطباق و توسعه بیشتر راه‌حل‌های CBIR موجود برای این زمینه جدید سوق داده است که عمدتاً با دیدگاه بالا، وضوح فضایی بالا و محتوای ناهمگن مشخص می‌شود. در نتیجه، مجموعه وسیعی از استراتژی‌های جدید پدیدار شده‌اند که مروری بر آن‌ها در ادامه می‌آید.

2.1. کار مرتبط

یک سیستم استاندارد CBIR از حداقل دو جزء تشکیل شده است: شرح محتوای آن یا ماژول استخراج ویژگی، که داده‌های بصری را به نمایش‌های فشرده کاهش می‌دهد، و معیار تشابه که در ویژگی‌های استخراج‌شده به منظور تعیین تصاویر مشابه استفاده می‌شود. پرس و جو (ر.ک. شکل 1 ).

تا آنجا که به توضیحات محتوایی تصاویر هوایی و ماهواره ای با هدف نهایی بازیابی مربوط می شود، با طیف گسترده ای از راه حل های استخراج ویژگی مواجه می شوید. تلاش‌های اولیه با ویژگی‌های آماری پایه کلاس‌های تصویر طیفی [ 28 ] آغاز شد و به سرعت به انطباق روش‌های قبلاً آزمایش‌شده CBIR رنگی با این زمینه، با استفاده از شکل [ 29 ] و توصیف‌کننده‌های بافت به‌ویژه شناخته شده مانند فیلترهای گابور [ 30 ] پیش رفت. کوواریانس مورفولوژیکی [ 21 ]، الگوهای باینری محلی [ 31 ] و ماتریس های هم رخدادی در مقیاس خاکستری [ 32 ].

با این حال، رویکردهای جدیدتر، به موازات تحولات در زمینه بینایی رایانه، خود را به سمت استراتژی‌های توصیف محلی و واژگان بصری سوق داده‌اند. در این راستا، GIST [ 33 ]، SIFT [ 9 ، 34 ] و MSER [ 35 ] به طور کامل مورد مطالعه قرار گرفته اند و SIFT به عنوان بهترین عملکرد در بین آنها نتیجه گیری شده است. علاوه بر این، مجموعه داده‌های جدید و چالش برانگیزی نیز با در نظر گرفتن CBIR تصاویر جغرافیایی پیشنهاد شده‌اند که مجموعه داده Landcover/Landuse UC Merced بزرگترین تا به امروز در میان آنها بوده و دارای 21 کلاس و 2100 نمونه است. به این ترتیب، به سرعت توسط جامعه علمی بازیابی مبتنی بر محتوا و طبقه بندی صحنه برای سنجش از راه دور پذیرفته شده است [ 9], 21 , 22 , 36 , 37 , 38 , 39 , 40 , 41 , 42 , 43 , 44 ].

اخیراً، کارهای بیشتر منتشر شده در این زمینه بر ترکیب توصیف‌گرهای جهانی و محلی [ 45 ] متمرکز شده‌اند، در حالی که دیگران بر بهره‌برداری از بازخورد کاربر از طریق یادگیری فعال [ 46 ] تمرکز کرده‌اند. در نهایت، تکنیک‌های یادگیری عمیق نیز برای مسئله مورد بررسی، عمدتاً به شکل شبکه‌های عصبی کانولوشنال [ 44 ] اعمال شده‌اند.

2.2. مشارکت های ما

در این مقاله، ما پتانسیل طیف‌های الگوی محلی را که با یک استراتژی متراکم محاسبه شده‌اند، برای توصیف محتوای تصاویر هوایی بررسی می‌کنیم که هدف نهایی آن CBIR است. ما آنها را بیشتر با بردار توصیفگرهای محلی (VLAD) ترکیب می کنیم تا یک واژگان بصری را تشکیل دهیم.

با جزئیات بیشتر، طیف های الگو یکی از قدیمی ترین و قوی ترین توصیف کننده های محتوا هستند که توسط مورفولوژی ریاضی ارائه می شوند [ 23 ]. آنها در ابتدا برای توصیف توزیع اندازه اشیاء درون تصاویر از طریق نمایش های هیستوگرام مانند معرفی شدند. با گذشت زمان، آنها تمدید شدند [ 6 ، 47] برای توصیف نه تنها اندازه، بلکه توزیع شکل و بافت و همچنین توزیع هر صفت انتخاب شده دلخواه در بین اجزای تصویر متصل شده. علاوه بر این، اجرای کارآمد آن‌ها از طریق نمایش‌های تصویری مبتنی بر درخت، آنها را به ابزارهای توصیف محتوا مؤثر، کارآمد و چند مقیاسی، هدف کلی، جامع (یعنی جهانی) تبدیل کرده است. از این رو، اولین کمک ما به پیشرفته ترین، استفاده از طیف های الگو برای اولین بار در CBIR تصاویر هوایی است.

علاوه بر این، پیشینه نظری مورد نیاز برای محاسبه آنها به صورت محلی به تازگی معرفی شده است [ 24 ]. اولین پیاده‌سازی گزارش‌شده از طیف‌های الگوی محلی در زمینه طبقه‌بندی تصویر با هدف عمومی بوده است، جایی که آنها از مناطق برجسته که با استفاده از MSER شناسایی شده‌اند محاسبه شده‌اند [ 25 ، 26 ]. به دنبال عملکردهای امیدوارکننده ای که در آن زمینه به دست آمده است، در این مقاله، برای اولین بار، محاسبه طیف های الگوی محلی را نه از مناطق برجسته، بلکه از کل تصویر ورودی، با استفاده از نه یک رویکرد جهانی، بلکه یک شبکه متراکم بررسی می کنیم. با مراحل ثابت این دومین جنبه جدید رویکرد ما را تشکیل می دهد.

علاوه بر این، به دنبال کار اوزکان و همکاران. [ 9 ]، در جایی که SIFT همراه با VLAD مورد بررسی قرار گرفته است، ما نتایج ترکیب طیف های الگوی محاسبه شده محلی را همراه با واژگان بصری به دست آمده از طریق VLAD بررسی و گزارش می کنیم. در این راستا، کار ما برای دومین بار در پیشرفته ترین زمان است که از هر رویکرد صرفی برای تشکیل یک واژگان بصری استفاده می شود (با اولین مورد [22])، و اولین بار با طیف های الگوی محلی ، که سومین سهم اصلی کار ما در پیشرفت هنر است.

رویکرد پیشنهادی با بزرگترین مجموعه داده‌های عمومی موجود در نوع خود آزمایش و تأیید می‌شود، و نشان داده شده است که از نظر عملکرد بازیابی با توصیفگرهای SIFT پرکاربرد در طول بردار ویژگی بسیار کوتاه‌تر قابل مقایسه است.

3. طیف الگو

این بخش ابتدا اصول پشت طیف های الگو را یادآور می شود و سپس به جزئیات و تفاوت های بین اجرای جهانی و محلی آنها می پردازد.

طیف الگو ساختارهای هیستوگرام مانندی هستند که از ریخت شناسی ریاضی سرچشمه می گیرند و معمولاً برای تجزیه و تحلیل محتوا [ 23 ] استفاده می شوند و اطلاعات مربوط به توزیع اندازه و شکل اجزای تصویر را به دست می آورند. آنها را می توان به عنوان تخمینی از توابع چگالی احتمال، با هیستوگرام به عنوان پایه و قدیمی ترین شکل آنها مشاهده کرد [ 48 ]. آنها را می توان به طور موثر با استفاده از تکنیکی به نام گرانولومتری (اندازه یا شکل) محاسبه کرد [ 49 ، 50 ] در یک سلسله مراتب درخت حداکثر و منتخب [ 51 ، 52 ].

3.1. Min- و Max-Trees

درختان min- و max [ 51 ، 52 ] تجزیه های سلسله مراتبی یک تصویر هستند که با مجموعه های سطح آن کار می کنند. با جزئیات بیشتر، مجموعه‌های سطح بالایی برای هر سطح خاکستری k از یک تصویر I تعریف شده‌اند . سطح بالایی که در سطح k تنظیم شده است شامل تمام پیکسل های p با مقدار سطح خاکستری است

f (p)

بالاتر از آستانه k ،

L^{k} = {p \in I | f (p) \geq k}

. هر مجموعه سطح می تواند شامل چندین مؤلفه متصل باشد که به آنها مؤلفه های پیک نیز گفته می شود. اجزای اوج سطح بالایی مجموعه

L^{k}

با نشان داده می شوند

L^{k, i}

(جایی که i از یک مجموعه شاخص است) و برای مقادیر کاهنده k تودرتو هستند . هنگامی که در یک سلسله مراتب سازماندهی می شوند، این اجزای تو در تو سلسله مراتبی به نام max-tree را تشکیل می دهند ( شکل 2 ).

L^{k, i}

سلسله مراتب درخت حداکثر شامل جزئیات تصویر روشن و مناطق (ماکسیما سطح خاکستری محلی) در برگ های آن است. در مقابل، برای عملکرد با مناطق تصویر تاریک، مجموعه‌های سطح پایین‌تر با نشان داده می‌شوند

L_{k} = {p \in I | f (p) \leq k}

استفاده می شوند و در سلسله مراتبی به نام min-tree سازماندهی می شوند. سلسله مراتب min-tree همچنین می تواند به عنوان درخت حداکثر از تصویر معکوس ساخته شود.

I

، به دلیل رابطه دوگانگی بین دو سلسله مراتب. از آنجایی که سلسله مراتب خود سطوح خاکستری همه اجزا را ذخیره می کنند، می توان یک تصویر کامل را مستقیماً از درختان min و max آن بازسازی کرد.

3.2. فیلترینگ و گرانولومتری

برای مشخص کردن مناطق این سلسله مراتب، می‌توانیم به هر گره ویژگی‌های مربوط به ویژگی‌های آن گره را اختصاص دهیم. یک صفت

K (\cdot)

اگر برای دو منطقه تودرتو افزایش می یابد

L^{k, i} \subseteq L^{l, j}

، مقدار آن همیشه برای منطقه بزرگتر بیشتر است:

K (L^{l, j}) \geq K (L^{k, i})

. در نتیجه، مقدار ویژگی یک گره،

K (L^{k, i})

، کوچکتر از هر یک از ارزش های اجداد خود خواهد بود. این نوع ویژگی ها معمولاً اندازه گره را توصیف می کنند.

اگر این ویژگی برقرار نباشد، ویژگی غیرافزاینده است. از میان تمام ویژگی‌های غیرافزاینده، در اینجا ما به ویژگی‌های شکل دقیق علاقه‌مندیم که فقط به شکل ناحیه پاسخ می‌دهند و بنابراین نسبت به مقیاس‌بندی، چرخش و ترجمه ثابت هستند [49 ] .

ما به روش استاندارد اندازه گیری تعداد پیکسل های یک منطقه برای توصیف اندازه آن تکیه می کنیم، که بنابراین با ناحیه مربوطه نشان داده می شود.

A (L^{k, i})

. ما اطلاعات شکل را از طریق دو ویژگی مختلف بررسی می کنیم. اولین ویژگی مورد استفاده، اندازه گیری ازدیاد طول منطقه است که به آن عدم تراکم اصلاح شده (CNC) می گویند:

C N C (L k ، i) = 2 π (من ( L k ، i ) آ ( L k ، i ) 2 + 1 6 A ( L k ، i ))

(1)

جایی که $I (L^{k, i})$ لحظه اینرسی منطقه در اینجا است. این ویژگی در واقع مطابق با اولین لحظه تغییر ناپذیر هو [ 53 ] است که برای کاربرد آن در فضای تصویر گسسته، برخلاف فضای پیوسته [ 54 ] تصحیح شده است. این یک ویژگی شکل است که معمولاً در سنجش از دور استفاده می شود [ 20 ]. بنابراین، اولین ترم $\frac{I (L^{k, i})}{A {(L^{k, i})}^{2}}$ لحظه اول ثابت هو را محاسبه می کند، در حالی که اصطلاح $\frac{1}{6 A (L^{k, i})}$ مربوط به ضریب تصحیح است. این ویژگی برای یک جسم کاملا دایره ای (فشرده) مقدار 1 را می گیرد، که با نزدیک شدن شکل جسم به خط نازک طولانی، رشد می کند. با این حال، در عمل، مقادیر بالاتر از آستانه حدود 50-60 هنگام کار با این ویژگی [ 6 ، 24 ] کنار گذاشته می‌شوند، زیرا مناطقی که به چنین مقادیر غیرفشردگی بالایی دست می‌یابند بسیار نادر هستند. $1 %$ یا کمتر از تمام مناطق در دقیقه و حداکثر درختان مربوط به مجموعه داده استفاده شده در این مقاله). معیارهای دیگری مانند قطر ژئودزیکی [ 55 ] وجود دارد که با ازدیاد طول جسم مطابقت دارد . با این حال، در حالی که چنین ویژگی هایی زمانی مورد نیاز است که فرآیند انتخاب منطقه صرفاً به یک (یا چند) ویژگی مانند استخراج ساختارهای اثر انگشت ارائه شده در [ 56 ] بستگی دارد، رویکرد طیف الگوی ارائه شده بعداً به دلیل تکیه بر معیارهای ویژگی های متعدد از قوی تر است. یک منطقه واحد برای مشخص کردن آن با یک توصیفگر منطقه. علاوه بر این، حتی تقریب کارآمد قطر ژئودزیکی به نام قطر باریسنتریک [ 56] همچنان به اصلاح الگوریتم max-tree نیاز دارد زیرا درخت max فقط برای محاسبه ویژگی‌هایی مناسب است که می‌توانند به طور موثر به روز شوند زیرا درخت از حداکثرهای محلی توسط یک فرآیند تجمیع ساخته می‌شود. بنابراین، در اجرای کارآمد فیلتر با استفاده از قطر باریسنتریک، ترتیب پیمایش بیشینه درخت برای مطابقت بهتر با ماهیت ویژگی اصلاح می‌شود و تنها اطلاعات جزئی مربوط به ویژگی در طول پیمایش درخت به‌روزرسانی می‌شود، در حالی که مقادیر ویژگی نهایی هنوز باید با بررسی مجدد پیکسل های هر گره در پیمایش محاسبه شود.

دومین ویژگی غیرافزاینده ای که ما استفاده می کنیم، آنتروپی شانون است که با استفاده از فرکانسی که یک پیکسل از سطح خاکستری i در منطقه رخ می دهد، تعریف می شود.

L^{k, i}

، با احتمال بیان می شود

p (i, L^{k, i})

اچ (L k ، i) = - \sum i \in سطوح خاکستری p (من ، L k ، i) ورود به سیستم 2 p (من ، L k ، i)

(2)

مقادیر کم ویژگی از

H (\cdot)

زمانی مشاهده خواهد شد که محتوای ناحیه از نظر توزیع سطح خاکستری همگن باشد، در حالی که مناطق ناهمگن حاوی سطوح خاکستری مختلف مقادیر بالاتری از این ویژگی خواهند داشت. با این حال، دامنه این ویژگی بسیار کوچکتر از محدوده است

CNC

ویژگی، به طوری که مقادیر ویژگی مورد علاقه بین 0 تا 8 باشد [ 6 ]. ویژگی های تخصیص داده شده به گره ها همچنین می تواند بر اساس مفاهیم پیچیده تر، مانند بافت، حرکت، یا حتی شباهت به اشکال از پیش تعریف شده [ 57 ] باشد. بسیاری از نمونه های ویژگی دیگر را می توان در [ 49 ، 51 ، 58 ] یافت .

پس از مرحله ساخت درخت و انتساب ویژگی گره های آنها، تنها در صورتی می توانیم گره ها را برای پردازش بیشتر در نظر بگیریم که مقدار ویژگی آنها باشد.

K (L^{k, i})

بالاتر از یک آستانه معین t است . سپس درختان با حذف تمام اجزای متصل زیر این آستانه هرس می شوند. پردازش سلسله مراتب ها به این صورت (که در آن تصمیم برای حفظ یا رد گره های سلسله مراتب بر اساس مقادیر ویژگی آنها است) فیلترینگ نامیده می شود. برای یک ویژگی کلی

K (\cdot)

و آستانه t را نشان می دهیم

Ψ_{t}

فیلتری که فقط گره ها را با آن نگه می دارد

K (L^{k, i}) > t

، و

Ψ_{t} (I)

تصویر به دست آمده از بازسازی درخت فیلتر شده.

هنگام انجام فیلتر کردن یک ویژگی با یک ویژگی افزایشی مانند اندازه، عملیات حاصل می شود

Γ_{t}

ویژگی های باز شدن صفت (یعنی ضد گسترش، افزایش و ناتوانی) را خواهد داشت. گرانولومتری اندازه [ 49 ] مجموعه ای از چنین دهانه هایی است

{Γ_{t_{i}}}

با افزایش سایز

t_{i + 1} > t_{i}

، که در هر مرحله اجزای بیشتری را از تصویر حذف می کند و به عنوان مجموعه ای از غربال های درجه های افزایشی دیده می شود. پس از هر باز شدن متوالی، گرانولومتری میزان جزئیات موجود در تصویر را یادداشت می کند. هنگام استفاده از یک ویژگی غیر افزایشی و متغیر مقیاس

Φ_{t}

، فیلتر کردن صفت یا نازک شدن صفت به دست آمده همچنان ضد گسترده و بی قدرت است، اما دیگر افزایش نمی یابد. اگر تصویر

Φ_{t} (I)

از درختی که با اعمال قانون تفریق [ 50 ] هرس شده بازسازی می شود، گسترش تکنیک برای شکل دادن به گرانولومتری ها [ 50 ] اجازه می دهد تا میزان جزئیات تصویر را در بین کلاس ها بر اساس شکل یا سایر معیارهای مشخصه مستقل از مقیاس مناطق ذکر کنید. قانون تفریق مورد استفاده برای هرس درخت تنها با حذف اجزایی انجام می شود که ویژگی را برآورده نمی کنند، اما کنتراست محلی اجزای نگه داشته شده را حفظ می کند. وقتی از چنین قاعده ای استفاده می شود،

Φ_{t} (I)

فقط شامل اجزای با

K (L^{k, i}) > t

و مهمتر از همه، تصویر تفاوت

I - Φ_{t} (I)

فقط شامل اجزای با

K (L^{k, i}) \leq t

3.3. طیف الگوی جهانی

بر خلاف گرانولومتری، طیف الگو بر روی مقدار جزئیات حذف شده بین دهانه های متوالی تمرکز می کند. طیف الگوی اندازه [ 23 ] بر اساس دهانه های ناحیه و گرانولومتری های اندازه است و با یک هیستوگرام در تمام کلاس های اندازه مختلف نشان داده می شود. به طور مشابه، یک طیف الگوی شکل [ 50] بر اساس گرانولومتری شکل مربوط به هیستوگرام توزیع صفت مؤلفه در طیف وسیعی از طبقات شکل است. هر کلاس اندازه (مطابق با کلاس شکل) در طیف الگوی اندازه (طیف الگوی شکل وجه) با اندازه گیری Lebesgue مربوط به مقدار جزئیات در آن کلاس توصیف می شود. طیف الگو را می توان به عنوان تخمین های تابع چگالی احتمال در ساده ترین شکل هیستوگرام خود تفسیر کرد که احتمال وجود یک جزء با اندازه یا شکل معین در تصویر را توصیف می کند. به منظور قرار دادن تعریف طیف الگوی اندازه از [ 23 ] به شکلی مناسب تر برای تصاویر در مقیاس خاکستری I ، حجم یک تصویر مقیاس خاکستری I را به صورت زیر تعریف می کنیم:

V (من) = \sum ک الف (L ک) = \sum ک \sum من الف (L k ، i)

(3)

سپس برای گرانولومتری اندازه

{Γ_{t_{i}}}

، می توانیم طیف الگوی اندازه را تعریف کنیم

{s_{Γ, t_{i}}}

مانند:

س Γ, تی من = V (Γ تی من - 1 (من)) - V (Γ تی من (من)) س Γ, تی دقیقه = V (من) - V (Γ تی دقیقه (من))

(4)

به طور مشابه، با توجه به [ 50 ]، برای یک گرانولومتری شکل

{Φ_{t_{i}}}

، طیف الگوی شکل

{s_{Φ, t_{i}}}

را می توان به صورت زیر تعریف کرد:

س Φ, تی من = V (Φ تی من - 1 (من)) - V (Φ تی من (من)) س Φ, تی دقیقه = V (من) - V (Φ تی دقیقه (من))

(5)

ترکیب طیف‌های الگوی شکل و اندازه در یک هیستوگرام دو بعدی منحصر به فرد که میزان جزئیات تصویر را در سطل‌های اندازه شکل اختصاصی نشان می‌دهد، یک طیف الگوی اندازه شکل تولید می‌کند [ 47 ]. برای اندازه گرانولومتری

{Γ_{t_{i}}}

و گرانولومتری شکل

{Φ_{u_{j}}}

، ما طیف الگوی اندازه شکل ترکیبی را تعریف می کنیم

{s_{Γ, Φ, t_{i}, u_{j}}}

مانند:

س Γ, Φ, تی من ، تو j س Γ, Φ, تی دقیقه ، تو j س Γ, Φ, تی من ، تو دقیقه س Γ, Φ, تی دقیقه ، تو دقیقه = V (Γ تی من - 1 (Φ تو j (من))) - V (Γ تی من (Φ تو j (من))) + V (Γ تی من (Φ تو j - 1 (من))) - V (Γ تی من (Φ تو j (من)))) = V (Γ تی من - 1 (Φ تو j - 1 (من))) - V (Γ تی من (Φ تو j (من)))) = V (Φ تو j - 1 (من)) - V (Γ تی دقیقه (Φ تو j (من)))) = V (Γ تی من - 1 (من)) - V (Γ تی من (Φ تو دقیقه (من)))) = V (من) - V (Γ تی دقیقه (Φ تو دقیقه (من))))

(6)

هنگامی که برای یک تصویر کامل محاسبه می‌شوند، می‌توانند به‌عنوان توصیف‌گر تصویر ثابت ترجمه، مقیاس و چرخش استفاده شوند و با موفقیت در طبقه‌بندی تصویر [ 47 ] و بازیابی [ 6 ] اعمال شوند. استفاده از ترکیبی از ویژگی‌هایی که ویژگی‌های شیء مختلف را توصیف می‌کنند، مانند جهت‌گیری، رنگ و شدت، همانطور که در [ 59] بررسی شد، ممکن است.]. از آنجایی که هدف ما توصیفگر کدگذاری تفاوت بین تصاویر با محتوای زیاد و کم است، توصیفگرهای تولید شده را عادی نمی‌کنیم، بلکه صرفاً مقدار جزئیات تصویر (معیار Lebesgue از مؤلفه‌های کمک‌کننده) را به عنوان نسبت اندازه کل تصویر ذخیره می‌کنیم. طیف های الگو با انتخاب تعداد bin هایی که برای هر ویژگی استفاده می شود و همچنین حداکثر مقدار هر ویژگی که در هیستوگرام در نظر گرفته می شود، پارامتری می شوند. توزیع bin بر روی کلاس‌های شکل و اندازه مختلف معمولاً لگاریتمی در محدوده انتخاب شده از مقادیر ویژگی است. هنگامی که به این روش استفاده می شود، ما به توصیفگرهای تصویر جهانی تولید شده به عنوان طیف الگوی جهانی (GPS) اشاره خواهیم کرد.

3.4. طیف الگوی محلی

اخیراً، یک گسترش محلی از طیف های الگو پیشنهاد شده است [ 24 ، 25 ]، که برای مشخص کردن تکه ها به جای کل تصویر طراحی شده است، به عنوان مثال، مناطق مورد نظر به طور خاص انتخاب شده یا تکه هایی با شکل و اندازه از پیش تعیین شده. یک طیف الگوی اندازه شکل محلی با اعمال سری عملگرها به دست می آید

{s_{Γ, Φ, t_{i}, u_{j}}}

به یک جزء متصل خاص

L^{k, i}

، یا به طور کلی یک منطقه

R

به جای کل تصویر من . آنها در ابتدا در مناطق بیرونی با حداکثر پایداری (MSER) [ 7 ] به دلایل کارایی محاسباتی معرفی شدند ، زیرا MSERها را می توان از سلسله مراتب درخت حداکثر و min-tree به روشی ساده استخراج کرد. نتایج تجربی اولیه نشان داد که این توصیف‌گرها می‌توانند عملکردهای رقابتی را در زمینه بازیابی تصویر در مقیاس خاکستری [ 24 ] به دست آورند، و ما را برانگیخت تا طیف‌های الگوی محلی (LPS) را در زمینه سنجش از دور در کنار استراتژی‌های متنوع‌تر بررسی کنیم.

مقیاس ناگزیر کوچکتر اشیاء موجود در تصاویر هوایی، با توجه به عکسهای رنگی معمولی، نیاز به استخراج مناطق مورد علاقه با استفاده از مراحل تشخیص مانند MSER را کاهش می دهد. به همین دلیل است که ما در عوض از یک استراتژی شبکه منظم متراکم برای محاسبه LPS استفاده کرده ایم. به طور خاص، LPS بر روی تکه های مستطیلی محلی که بر روی یک شبکه منظم نمونه برداری متراکم روی تصویر تعریف شده اند محاسبه می شود ( برای جزئیات به بخش 4 مراجعه کنید). اگر همه وصله‌های محلی از پیش انتخاب‌شده اندازه یکسان (یا بسیار مشابه) داشته باشند، ویژگی عدم تغییر مقیاس در گسترش GPS به LPS وجود دارد [ 25]]. با این حال، برای دستیابی به توصیف تصویر در مقیاس‌های چندگانه، می‌توان اندازه‌های مختلف وصله‌های محلی را متناسب با هر مقیاس مورد استفاده انتخاب کرد. با توجه به باینینگ لگاریتمی، از یک مقیاس مرجع مشترک M استفاده می‌شود تا امکان مقایسه توصیفگر را به شیوه‌ای غیرمتغیر مقیاس فراهم کند. طیف الگوی محلی

{s_{Γ, Φ, t_{i}, u_{j}, M}} (R)

سپس به صورت زیر تعریف می شود:

{س Γ, Φ, تی من ، تو j ، م} (ر) = {س Γ, Φ, تی من ، تو j} (م الف ( R ) آر)

(7)

جایی که $a R$ به طور کلی مقیاس پذیری منطقه را نشان می دهد $R$ توسط یک . این تکنیک، که در [ 24 ] معرفی شد، پیچیدگی رویکرد را افزایش نمی‌دهد، زیرا این امر با مقیاس کردن مقیاس Lebesgue از مشارکت‌های فردی در طول محاسبه توصیفگر به دست می‌آید.

4. تنظیم آزمایشی

4.1. مجموعه داده ها و معیارهای ارزیابی

همه آزمایش‌های ما روی مجموعه داده‌های UC Merced در دسترس عموم [ 34 ] انجام شده است. دارای 2100 رنگ است

R G B

تصاویر در 21 کلاس (100 تصویر در هر کلاس) سازماندهی شده اند که نمونه هایی از آنها در شکل 3 نشان داده شده است . همه تصاویر در اندازه هستند

256 \times 256

پیکسل ها با وضوح فضایی 30 سانتی متر. ما توصیفگرهای خود را ابتدا بر روی نسخه های خاکستری تصاویر محاسبه کرده ایم، با تبدیل

G r a y = 0.299 \times R + 0.587 \times G + 0.114 \times B

برای افزایش عملکرد توصیفگرهای LPS، تکنیک‌های تقویت داده‌ها را در تصاویر ورودی مجموعه داده اعتبارسنجی اعمال کردیم. بهترین عملکرد زمانی حاصل شد که تمام تصاویر مجموعه داده های Merced به مدت 45 درجه چرخانده شدند، که نمونه ای از آن در شکل 4 نشان داده شده است. نشان داده شده است . سپس محاسبه LPS بر روی تصاویر تقویت شده تکرار می شود و به توصیفگرهای به دست آمده برای داده های غیرافزوده اضافه می شود. توجه به این نکته حائز اهمیت است که مزیت این رویکرد از این واقعیت ناشی می‌شود که از قسمت‌های مختلف تصویر برای محاسبه توصیفگر استفاده می‌شود، زیرا خود توصیف‌کننده‌ها تغییرناپذیر مقیاس هستند. به همین دلیل، توصیفگرهای GPS بر روی داده های تقویت شده محاسبه نمی شوند، زیرا چرخش یک تصویر محتوای آن را تغییر نمی دهد (همانطور که توسط GPS اندازه گیری می شود).

معیار ارزیابی انتخاب شده متوسط رتبه بازیابی اصلاح شده نرمال شده (ANMRR) است، زیرا این معیار رایج ترین مورد استفاده در این مجموعه داده است، بنابراین امکان مقایسه مستقیم با سایر نتایج منتشر شده را فراهم می کند [9 ، 21 ، 22 ، 34 ] . معمولاً برای اندازه گیری اثربخشی بازیابی استفاده می شود [ 60 ]. با دادن یک پرس و جو q یا تمام پرس و جوهای یک کلاس، یک عدد

K (q)

تعریف شده است، که نشان می دهد که فقط اولی

K (q)

تصاویر برگشتی از نظر ارزیابی بازیابی امکان پذیر در نظر گرفته می شوند. اغلب به اندازه دو برابر مجموعه حقیقت زمین تنظیم می شود

NG (q)

. با فرض اینکه

k^{t h}

تصویر حقیقت زمین در بازیابی می شود

Rank (k)

، یک تابع پنالتی

Rank * (k)

برای هر آیتم بازیابی شده تعریف شده است:

رتبه * ( k ) = {رتبه ( k ) _اگررتبه ( k ) ≤ K ( q)1.25 K ( q) ،اگررتبه ( k ) > K ( q)رتبه*(ک)=رتبه(ک)،اگررتبه(ک)≤ک(�)1.25ک(�)،اگررتبه(ک)>ک(�)

(8)

از تمام پنالتی ها

Rank * (k)

برای هر query q ، میانگین رتبه (AVR) برای آن q به صورت زیر تعریف می شود:

AVR (q) = 1 NG ( q ) \sum k = 1 NG (q) رتبه * (k)

(9)

پس از مرحله میانی، ANMRR مستقیماً به صورت زیر تعریف می شود:

ANMRR = 1 NQ \sum q = 1 ن س AVR ( q ) - 0.5 ( 1 + NG ( q ) ) 1.25 K ( q ) - 0.5 ( 1 + NG ( q ) )

(10)

که در آن NQ تعداد پرس و جوها است. بنابراین، ANMRR مقادیری در محدوده 0 برای بهترین نتایج و 1 برای بدترین نتایج به دست می آورد.

به منظور کامل بودن، ما همچنین نتایج خود را بر حسب معیار بازیابی دیگری، یعنی میانگین دقت (mAP) بیان می کنیم. این اندازه گیری به طور خاص برای ارزیابی نتایج بازیابی رتبه بندی شده [ 61 ] و ارائه یک معیار کیفیت واحد در تمام سطوح فراخوانی یک سیستم برای مجموعه ای از پرس و جوهای متعدد طراحی شده است. برای یک تصویر پرس و جوی منفرد q ، اگر یک سیستم بازیابی برگردد

K (q)

نتایج، ما می‌توانیم دقت را محاسبه کرده و تنها با در نظر گرفتن اولین m تصاویر بازگشتی به صورت نامرتب، آن را به یاد آوریم. دقت در m به عنوان نسبت بین تعداد تصاویر صحیح (مرتبط) در مجموعه نتایج و تعداد کل تصاویر بازیابی شده در آن نقطه، m محاسبه می شود :

دقت (m) = مرتبط بازیابی شده ( m ) متر

(11)

در حالی که فراخوانی در m به عنوان نسبت بین تعداد تصاویر مرتبط در مجموعه نتایج و تعداد کل تصاویر مرتبط برای آن پرس و جو تعریف می شود:

یادآوری (m) = مرتبط بازیابی شده ( m ) مربوطه مجموع

(12)

محاسبه و ترسیم مقادیر دقت و یادآوری برای یک پرس و جو در یک زمینه بازیابی رتبه بندی شده، یک منحنی فراخوان دقیق را تولید می کند. مساحت زیر این منحنی بر روی همه نتایج K مطابق با AP، میانگین دقت یک پرس و جو، و معادل میانگین مقادیر دقت به دست آمده برای مجموعه نتایج بازیابی K برتر، پس از بازیابی هر نتیجه مرتبط جدید است:

AP = \sum m = 1 ک دقت (m) \times فراخوان Δ (m) = \sum ک m = 1 دقت ( m ) \times مرتبط ( m ) مربوطه مجموع

(13)

جایی که $relevant (m)$ اگر m- امین تصویر بازیابی شده مرتبط باشد ، یک متغیر نشانگر با مقدار 1 است . در نهایت، mAP به عنوان مقدار میانگین میانگین دقت برای همه پرس و جوها محاسبه می شود. این روش پیش‌بینی‌های نادرست را جریمه نمی‌کند، و امکان بررسی تعداد زیادی از نتایج بازیابی را فراهم می‌کند، در حالی که ترتیب پیش‌بینی‌ها را با جریمه کردن پیش‌بینی‌های نادرست قبل از پیش‌بینی‌های صحیح ارزش‌گذاری می‌کند.

4.2. تنظیمات رویکردهای طیف الگو

4.2.1. طیف الگوی جهانی

ما استفاده از توصیفگرهای GPS دو بعدی را برای به دست آوردن عملکرد پایه برای خانواده توصیفگرهای طیف الگو استفاده کردیم. در این رویکرد پایه، ما توصیفگرهای GPS را از کل تصاویر محاسبه می‌کنیم. اندازه‌های سطل به صورت تجربی تعیین شده‌اند، جایی که اندازه‌های سطل مورد استفاده در آثار منتشر شده قبلی به عنوان نقطه شروع استفاده می‌شوند [ 6 ]. این منجر به انتخاب استفاده از 10 bin برای ویژگی اندازه (مساحت) و شش برای ویژگی شکل شد. حداکثر مساحت مجاز در هیستوگرام برابر با اندازه تصویر است. حداکثر برای ویژگی های شکل به طور تجربی 56 برای ویژگی CNC و هشت برای ویژگی تعیین شد.

H

صفت. همانطور که ما GPS را از هر دو درخت کوچک و حداکثر درخت هر تصویر محاسبه می کنیم، این منجر به توصیف کننده های جهانی طول می شود.

6 \times 10 + 6 \times 10 = 120

ما در جدول 1 نتایج را با استفاده از Area+CNC و Area+ گزارش می کنیم

H

به عنوان ویژگی های شکل، و هنگام ترکیب آنها در یک توصیفگر واحد به طول 240، بهبود بیشتری را مشاهده کنید. محاسبه GPS از هر کانال در مقیاس خاکستری

R G B

تصاویر به طور جداگانه (یعنی به صورت حاشیه ای) نیز مورد بررسی قرار گرفته است، اما نتایج به دلیل پیشرفت های ناچیز و به دلیل اینکه این رویکرد نمی تواند عملاً با تصاویر چند کاناله دارای تعداد دلخواه کانال اجرا شود، گزارش نشده است.

4.2.2. طیف الگوی محلی

به منظور بهبود رویکرد GPS خط پایه، ابتدا روی یک رویکرد محلی و تک مقیاس تمرکز کرده‌ایم. در اینجا، تصویر به صورت متراکم نمونه برداری می شود و LPS بر روی تکه های تصویر مستطیلی معمولی بر روی یک شبکه روی تصویر محاسبه می شود، همانطور که در شکل 5 الف نشان داده شده است. ابعاد پچ به صورت تجربی بین تعیین شده است

d = 32

d = 128

پیکسل ها و ابعاد

80 \times 80

پیکسل ها بهینه تعیین شدند. به همین ترتیب، فاصله 16 پیکسلی بین مراکز وصله برای بهترین عملکرد در بین موارد آزمایش شده انتخاب شده است.

s = 8, 16, 32

پیکسل ها استفاده از هشت سطل برای مشخصه اندازه و شش عدد برای شکل، که در نتیجه یک هیستوگرام اندازه ایجاد می شود

8 \times 6

، مشخص شد که بهترین عملکرد را با توجه به اندازه LPS نشان می دهد. این نیز با آزمایشات قبلی ما از LPS در مناطق برجسته [ 24 ] مطابقت دارد. از آنجایی که ما هنوز دو هیستوگرام در هر پچ تصویر (یکی برای هر درخت) محاسبه می کنیم، اندازه توصیفگر نهایی LPS برابر است با

8 \times 6 + 8 \times 6 = 96

( جدول 1 – LPS متراکم). از آنجایی که همه وصله ها دارای اندازه یکسانی هستند (برخلاف مناطق برجسته)، نیازی به هیچ مرحله اضافی برای اطمینان از عدم تغییر مقیاس توصیفگرها وجود ندارد.

ما با محاسبه LPS در مقیاس های چندگانه، با استفاده از یک هرم چند مقیاسی از تکه ها، آزمایش بیشتری با LPS انجام داده ایم ( جدول 1 – هرم LPS). اندازه وصله در پایین ترین مقیاس به تنظیم شد

32 \times 32

پیکسل ها و اندازه پچ برای هر سطح از هرم افزایش می یابد (

2 \times

در امتداد هر بعد)، همانطور که در شکل 5 نشان داده شده است . از آنجایی که اندازه وصله های مورد استفاده برای LPS دیگر سازگار نیست، ما از استراتژی معرفی شده در کار قبلی خود [ 24 ] پیروی می کنیم تا با استفاده از یک مقیاس مرجع مشترک برای همه وصله ها، از عدم تغییر مقیاس اطمینان حاصل کنیم (تنظیم به اندازه پچ در مقیاس دوم،

64 \times 64

). فاصله بین مراکز وصله بر روی 16 پیکسل در تمام مقیاس ها تنظیم شده است، بنابراین طول توصیفگر یکسان 96 است، اما با سه برابر بیشتر توصیفگرهای محاسبه شده در هر تصویر.

ما هم LPS متراکم و هم LPS هرمی را با و بدون افزایش داده آزمایش کرده‌ایم. علاوه بر این، برای هر دو رویکرد مبتنی بر LPS، از طرح نمایه سازی VLAD برای تولید توصیفگرهای تصویر نهایی [ 11 ] استفاده شده است ( شکل 6 ). از آنجایی که پارامتر مهم VLAD تعداد مراکز خوشه است، ما بهترین عملکرد را برای هر رویکرد LPS با فرض تعداد متفاوتی از مراکز خوشه گزارش می‌کنیم.

k = 8

به

k = 512

( شکل 7 ب). برای ساختن واژگان برای VLAD، ما به مجموعه داده‌ای در دسترس عمومی دیگر، یعنی مجموعه داده اعتبارسنجی چالش تشخیص تصویری در مقیاس بزرگ ImageNet 2010 (ILSVRC2010) تکیه می‌کنیم [ 62 ]. اجازه دهید تأکید کنیم که این مجموعه داده حاوی هیچ داده سنجش از راه دور نیست. توصیفگرها برای 500 تصویر اول این مجموعه داده ImageNet محاسبه می‌شوند (با پارامترهای یکسان برای نمونه‌های متراکم و رویکرد هرمی، جایی که اندازه وصله هرم در آن متوقف شده است.

256 \times 256

پیکسل)، و یک زیر مجموعه تصادفی از این توصیف کننده ها برای هر آزمایش استفاده می شود. هیچ افزایش داده ای روی این مجموعه داده انجام نشد، زیرا فقط برای ارائه کلمات بصری برای محاسبه مرکز خوشه VLAD استفاده شده است.

5. نتایج و بحث

یافته های کلی ما در جدول 1 نشان داده شده است . از نتایج به‌دست‌آمده، گزارش می‌دهیم که خط پایه GPS، علی‌رغم اینکه یک رویکرد کل‌نگر است، هم‌اکنون هم از رویکردهای مورفولوژیکی جهانی و محلی گزارش‌شده قبلی بر اساس توصیف بافت [ 21 ، 22 ] و همچنین رویکرد SIFT منی بر اساس نقاط کلیدی برجسته بهتر عمل می‌کند. [ 34 ].

به طور خاص، GPS ابتدا در امتداد Area+CNC محاسبه شده است، زیرا این ویژگی شکل است که بیشتر برای محاسبه طیف الگو استفاده می شود. سپس، ما علاوه بر این با Area+ آزمایش کرده‌ایم

H

ترکیبی برای GPS (پیشنهاد شده توسط [ 6 ] به عنوان دومین ویژگی مؤثر شکل). مجموعه دوم از طیف های الگو، بر اساس

H

، به خودی خود عملکرد بدتری دارد که می تواند با قدرت تبعیض کمتری توضیح داده شود

H

ویژگی، زیرا این ویژگی مقادیر را از محدوده کوچکتری نسبت به CNC بدست می آورد. با این وجود، ترکیب این دو ویژگی منجر به بهبود عملکرد می شود، بنابراین ماهیت مکمل آنها را نشان می دهد. بهترین نتایج به دست آمده با GPS به ANMRR رسیده است

55.7 %

(یا mAP معادل

32.5 %

تا آنجا که به رویکرد مبتنی بر LPS متراکم و VLAD پیشنهادی مربوط می شود، ما پیشرفت های قابل توجه تری را در آنجا به دست آورده ایم. اولین رویکرد LPS (LPS متراکم)، که در آن توصیفگرها از تکه‌های اندازه‌گیری متراکم و منظم محاسبه می‌شوند.

80 \times 80

پیکسل با 16 پیکسل بین مراکز خوشه، 144 توصیفگر در هر تصویر تولید می کند و ANMRR از

52.5 %

(یا نقشه از

38 %

با این حال، نتایج LPS تنها با استفاده از ویژگی CNC گزارش می‌شوند، زیرا برخلاف GPS، ترکیب آنها با ویژگی شکل دیگر منجر به بهبودی نشده است. این را می توان با این واقعیت توضیح داد که مقدار جزئیات موجود در تکه های نمونه متراکم بسیار کوچکتر از کل تصویر است که در مورد GPS وجود دارد، از این رو نمونه ها (مناطق) کمتری در طول محاسبه هیستوگرام به کار می روند. علاوه بر این، طیف وسیعی از

H

ویژگی معمولاً کوچکتر از ویژگی CNC است. در نتیجه، هیستوگرام ها دیگر نماینده توزیع این ویژگی در LPS نیستند، به دلیل عدم وجود مناطق نمونه کافی. از سوی دیگر، افزایش داده ها منجر به بهبود سه درصدی برای هر دو ANMRR و mAP می شود ( شکل 7 a). این شکل همچنین تأثیر تعداد مراکز خوشه VLAD را بر عملکرد نشان می دهد، جایی که می توان مشاهده کرد که بهترین عملکرد برای تعداد نسبتاً کمی از مراکز خوشه به دست می آید. همچنین می‌توان مشاهده کرد که تعداد بهینه مراکز خوشه‌ای به‌دلیل تنوع بیشتر بیان‌شده در توصیف‌گرها، هنگام اعمال تقویت داده‌ها به سمت مقادیر بیشتر تغییر می‌کند.

آخرین پیشرفت در رویکرد پیشنهادی از طریق محاسبه LPS چند مقیاسی (LPS هرمی) به دست آمده است. این استراتژی منجر به افزایش تقریباً سه برابری در تعداد توصیف‌گرها می‌شود و به طور خاص 476 توصیفگر در هر تصویر به دلیل مقیاس‌های چندگانه تولید می‌کند. در حالی که عملکرد خود را با استفاده از افزایش داده ها همانطور که در شکل 7 نشان داده شده است، بهبود می بخشد ب نشان داده شده است، بهبود می بخشد.

علاوه بر این، روند مشابهی در تعداد مراکز خوشه‌ای نیز بین نسخه‌های تقویت‌شده و غیرافزوده‌شده LPS هرمی مشاهده می‌شود، زیرا هر دو به سطح بهینه خود برای همان تعداد مراکز خوشه‌ای دست می‌یابند. در مقایسه با رویکرد متراکم مقیاس تک، تفاوت را می توان با افزایش پیچیدگی توصیفگر و همچنین تعداد آنها توضیح داد. توجه داریم که این استراتژی شامل رویکرد GPS است، زیرا مقیاس نهایی هرم LPS خود تصاویر است.

به طور کلی، بهترین نتایج مبتنی بر LPS که به دست آمده اند، هستند

47.2 %

ANMRR (مربوط به

43.7 %

mAP)، و بهبودی را نسبت به تمام رویکردهای مبتنی بر مورفولوژی قبلی، و همچنین رویکرد SIFT مبتنی بر نقطه کلیدی در این مجموعه داده نشان می‌دهد [ 34 ]. علاوه بر این، نتایج ما با رویکرد متراکم SIFT+VLAD [ 9 ] تنها با یک

1.2 %

تفاوت در عملکرد ANMRR با این حال، اجازه دهید به این نکته اشاره کنیم که با استفاده از توصیفگرهای کوتاه‌تر (به طول 96 برای LPS و 128 برای SIFT)، و همچنین با استفاده از توصیف‌گرهای کمتر ([9] یک افست 10 پیکسل و پنج سطح هرمی را گزارش می‌کند . در حالی که ما از یک افست 16 پیکسلی در چهار مقیاس مختلف استفاده می کنیم).

6. نتیجه گیری

در این مقاله، ما از هر دو طیف الگوی جهانی و محلی در زمینه بازیابی تصویر جغرافیایی استفاده کرده‌ایم و طیف‌های الگو را برای اولین بار با یک استراتژی متراکم در ترکیب با طرح نمایه‌سازی VLAD پیاده‌سازی کرده‌ایم. ما عملکرد بازیابی طیف الگوی جهانی و همتای محلی جدید آن را ارزیابی کرده‌ایم و آنها را با عملکرد سایر رویکردهای پیشرفته مقایسه کرده‌ایم. ما همچنین نتایج خود را بر حسب mAP بیان کرده‌ایم، یکی دیگر از معیارهای رایج در بازیابی، که امکان مقایسه آسان‌تر با عملکرد توصیفگرها در مجموعه‌های داده مختلف را فراهم می‌کند. توصیفگر ما از رویکرد SIFT مبتنی بر نقطه کلیدی [ 34] بهتر عمل می کند] و بهترین نتایج مبتنی بر مورفولوژی را تا کنون تولید می کند، که از تمام رویکردهای مورفولوژیکی قبلی بهتر عمل می کند.

در مقایسه با رویکرد SIFT متراکم [ 9 ]، نتایج مشابهی را با استفاده از طرح نمایه سازی VLAD به دست می آوریم، با عملکرد ما کمی کمتر از

1.2 %

ANMRR. با این حال، مزیت توصیفگر ما این است که، علیرغم نمونه‌گیری کم‌تر، بر بردارهای ویژگی بسیار کوتاه‌تر متکی است (

75 %

طول توصیفگرهای SIFT متراکم)، که منجر به سرعت بازیابی بالاتر می شود.

با ایجاد یک راه حل توصیفی مبتنی بر محتوای LPS چند مقیاسی و موثر، کار آینده بر بهره برداری از ساختار چند متغیره تصاویر سنجش از راه دور متمرکز خواهد شد، که امروزه به طور معمول به سطح صدها باند در مورد تصاویر فراطیفی می رسد.

منابع

بی، اچ. اس، ا. تویتلارس، تی. Van Gool، L. ویژگی‌های قوی با سرعت بالا (SURF). محاسبه کنید. Vis. تصویر زیر. 2008 ، 110 ، 346-359. [ Google Scholar ] [ CrossRef ]
تولا، ای. لپتیت، وی. Fua, P. یک توصیفگر محلی سریع برای تطبیق متراکم. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، انکوریج، AK، ایالات متحده آمریکا، 23 تا 28 ژوئن 2008. صص 1-8.
الهی، ع. اورتیز، آر. Vandergheynst، P. Freak: نقطه کلیدی سریع شبکیه چشم. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، پراویدنس، RI، ایالات متحده آمریکا، 16-21 ژوئن 2012. صص 510-517.
Lowe, DG ویژگی های تصویر متمایز از نقاط کلیدی تغییرناپذیر مقیاس. بین المللی جی. کامپیوتر. Vis. 2004 ، 60 ، 91-110. [ Google Scholar ] [ CrossRef ]
داتا، آر. جوشی، دی. لی، جی. وانگ، JZ بازیابی تصویر: ایده‌ها، تأثیرات و روندهای عصر جدید. کامپیوتر ACM. Surv. 2008 , 40 . [ Google Scholar ] [ CrossRef ]
توشابه، ف. Wilkinson، MHF بازیابی تصویر مبتنی بر محتوا با استفاده از طیف الگوی ویژگی ترکیبی دوبعدی. در پیشرفت در بازیابی اطلاعات چند زبانه و چندوجهی ; Springer: بوداپست، مجارستان، 2008; صص 554-561. [ Google Scholar ]
ماتاس، جی. چام، او. شهری، م. Pajdla, T. استریو با خط پایه گسترده از مناطق بیرونی با حداکثر پایداری. تصویر Vis. محاسبه کنید. 2004 ، 22 ، 761-767. [ Google Scholar ] [ CrossRef ]
میکولایچیک، ک. اشمید، سی. آشکارساز نقطه بهره ثابت وابسته. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، کپنهاگ، دانمارک، 28-31 مه 2002. صص 128-142.
اوزکان، س. آزمون.؛ تولا، ای. سویسال، م. Esen, E. تجزیه و تحلیل عملکرد روشهای نمایشی پیشرفته برای بازیابی و طبقه بندی تصاویر جغرافیایی. IEEE Geosci. سنسور از راه دور Lett. 2014 ، 11 ، 1996-2000. [ Google Scholar ] [ CrossRef ]
ایسن، آ. تولیاس، جی. گوسلین، پی اچ. Jégou، H. مقایسه آشکارسازهای ناحیه متراکم برای جستجوی تصویر و طبقه بندی ریزدانه. IEEE Trans. فرآیند تصویر 2015 ، 24 ، 2369-2381. [ Google Scholar ] [ CrossRef ] [ PubMed ]
جگو، اچ. دوز، م. اشمید، سی. Pérez, P. تجمیع توصیفگرهای محلی در یک نمایش تصویر فشرده. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 13 تا 18 ژوئن 2010. صص 3304-3311.
سیویک، جی. Zisserman, A. Video Google: جستجوی بصری کارآمد ویدیوها. در جهت شناسایی اشیاء در سطح دسته ; Ponce, J., Hebert, M., Schmid, C., Zisserman, A., Eds. Springer: بوداپست، مجارستان، 2006; صص 127-144. [ Google Scholar ]
وانگ، ام. Wan، QM; Gu، LB; آهنگ، TY بازیابی تصویر با سنجش از دور با ترکیب ویژگی‌های بصری و معنایی تصویر. بین المللی J. Remote Sens. 2013 ، 34 ، 4200-4223. [ Google Scholar ] [ CrossRef ]
اسپینوزا-مولینا، دی. Datcu، M. Earth-Observation بازیابی تصویر بر اساس محتوا، معناشناسی، و ابرداده. IEEE Trans. Geosci. Remote Sens. 2013 , 51 , 5145–5159. [ Google Scholar ] [ CrossRef ]
بهمنیار، ر. کوی، اس. Datcu، M. مطالعه تطبیقی مدل‌های کیسه‌ای از کلمات و مدل‌های کیفی از موضوعات وصله‌های تصویر EO. IEEE Geosci. سنسور از راه دور Lett. 2015 ، 12 ، 1357–1361. [ Google Scholar ] [ CrossRef ]
پسری، م. Benediktsson، J. رویکردی جدید برای تقسیم بندی مورفولوژیکی تصاویر ماهواره ای با وضوح بالا. IEEE Trans. Geosci. Remote Sens. 2001 , 39 , 309-320. [ Google Scholar ] [ CrossRef ]
دالا مورا، م. بندیکتسون، جی. واسکه، بی. Bruzzone، L. پروفایل های ویژگی مورفولوژیکی برای تجزیه و تحلیل تصاویر با وضوح بسیار بالا. IEEE Trans. Geosci. Remote Sens. 2010 , 48 , 3747–3762. [ Google Scholar ] [ CrossRef ]
غمیسی، پ. دالا مورا، م. Benediktsson، JA بررسی تکنیک های طبقه بندی طیفی- فضایی بر اساس پروفایل های ویژگی. IEEE Trans. Geosci. Remote Sens. 2015 , 53 , 2335–2353. [ Google Scholar ] [ CrossRef ]
Aptoula، E. طبقه بندی تصویر فراطیفی با پروفایل های ویژگی چند بعدی. IEEE Geosci. سنسور از راه دور Lett. 2015 ، 12 ، 2031–2035. [ Google Scholar ] [ CrossRef ]
آپتولا، ای. دالا مورا، م. Lefèvre, S. پروفایل های ویژگی برداری برای طبقه بندی تصاویر ابرطیفی. IEEE Trans. Geosci. Remote Sens. 2016 , 54 , 3208–3220. [ Google Scholar ] [ CrossRef ]
آپتولا، ای. بازیابی تصویر سنجش از دور با توصیفگرهای بافت مورفولوژیکی جهانی. IEEE Trans. Geosci. Remote Sens. 2014 , 52 , 3023–3034. [ Google Scholar ] [ CrossRef ]
آپتولا، ای. کیسه کلمات صرفی برای بازیابی جغرافیایی مبتنی بر محتوا. در مجموعه مقالات کارگاه بین المللی نمایه سازی چند رسانه ای مبتنی بر محتوا، کلاگنفورت، اتریش، 18 تا 20 ژوئن 2014.
ماراگوس، P. طیف الگو و نمایش شکل چند مقیاسی. IEEE Trans. الگوی مقعدی ماخ هوشمند 1989 ، 11 ، 701-716. [ Google Scholar ] [ CrossRef ]
بوسیلج، پ. Wilkinson، MHF; کیجک، ای. Lefèvre، S. طیف های الگوی دو بعدی محلی به عنوان توصیفگرهای منطقه متصل. در مجموعه مقالات سمپوزیوم بین المللی مورفولوژی ریاضی، ریکیاویک، ایسلند، 27-29 مه 2015; ص 182-193.
بوسیلج، پ. کیجک، ای. Wilkinson، MHF; Lefèvre، S. توصیف‌گرهای محلی کوتاه از طیف‌های الگوی متصل دوبعدی. در مجموعه مقالات کنفرانس بین المللی IEEE در مورد پردازش تصویر، شهر کبک، QC، کانادا، 27-30 سپتامبر 2015.
بوسیلج، پ. Wilkinson، MHF; کیجک، ای. Lefèvre، S. طیف های الگوی دو بعدی محلی به عنوان توصیفگرهای منطقه متصل. ریاضی. مورفول. تئوری کاربردی 2016 ، 1 ، 203-215. [ Google Scholar ] [ CrossRef ]
لیو، ی. ژانگ، دی. لو، جی. Ma, WY بررسی بازیابی تصویر مبتنی بر محتوا با معناشناسی سطح بالا. تشخیص الگو 2007 ، 40 ، 262-282. [ Google Scholar ] [ CrossRef ]
برتسنایدر، تی. کاوت، آر. Kao, O. بازیابی تصاویر سنجش از دور با استفاده از محتوای اطلاعات طیفی. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE، تورنتو، ON، کانادا، 24-28 ژوئن 2002. صص 2253-2255.
اسکات، جی. کلاریچ، م. دیویس، سی. Shyu, C. درخت بیت مپ متعادل با آنتروپی برای بازیابی اشیاء مبتنی بر شکل از پایگاه داده های تصاویر ماهواره ای در مقیاس بزرگ. IEEE Trans. Geosci. Remote Sens. 2011 ، 49 ، 1603-1616. [ Google Scholar ] [ CrossRef ]
یائو، اچ. لی، بی. Cao, W. بازیابی تصاویر سنجش از دور بر اساس طبقه‌بندی ویژگی بافت گابور. در مجموعه مقالات کنفرانس بین المللی پردازش سیگنال، مونترال، QC، کانادا، 17-21 مه 2004. صص 733-736.
توبین، KW; بهادوری، BL; برایت، EA؛ چریادات، ع. کارنوفسکی، تی پی؛ Palathingal، PJ; پوتوک، TE; قیمت، JR نمایه سازی جغرافیایی در مقیاس بزرگ برای بازیابی و تجزیه و تحلیل مبتنی بر تصویر. در مجموعه مقالات سمپوزیوم بین المللی در محاسبات بصری، دریاچه تاهو، NV، ایالات متحده آمریکا، 5-7 دسامبر 2005. صص 543-552.
خو، اس. نیش، تی. لی، دی. Wang, S. طبقه بندی اشیاء تصاویر هوایی با کلمات بصری. IEEE Geosci. سنسور از راه دور Lett. 2010 ، 7 ، 366-370. [ Google Scholar ]
چن، ال. یانگ، دبلیو. خو، ک. Xu, T. ارزیابی ویژگی های محلی برای طبقه بندی صحنه با استفاده از تصاویر ماهواره ای VHR. در مجموعه مقالات رویداد سنجش از دور شهری مشترک، مونیخ، آلمان، 10-13 آوریل 2011. صص 385-388.
یانگ، ی. Newsam, S. بازیابی تصویر جغرافیایی با استفاده از ویژگی‌های ثابت محلی. IEEE Trans. Geosci. Remote Sens. 2013 ، 51 ، 818-832. [ Google Scholar ] [ CrossRef ]
اوزدمیر، بی. Aksoy، S. طبقه بندی تصویر با استفاده از نمایش هیستوگرام زیرگراف. در مجموعه مقالات کنفرانس بین المللی شناخت الگو، استانبول، ترکیه، 23 تا 26 اوت 2010. صص 1112–1115.
نگرل، آر. پیکارد، دی. Gosselin، PH ارزیابی ویژگی‌های بصری مرتبه دوم برای طبقه‌بندی کاربری زمین. در مجموعه مقالات کارگاه بین المللی نمایه سازی چند رسانه ای مبتنی بر محتوا، کلاگنفورت، اتریش، 18 تا 20 ژوئن 2014.
ژائو، ال جی؛ تانگ، پی. Huo، LZ طبقه‌بندی صحنه استفاده از زمین با استفاده از مدل چند مقیاسی کیسه‌ای از کلمات بصری با ساختار دایره‌ای متحدالمرکز. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2014 , 7 , 4620–4631. [ Google Scholar ] [ CrossRef ]
ژانگ، اف. دو، بی. Zhang, L. یادگیری ویژگی بدون نظارت با هدایت برجسته برای طبقه بندی صحنه. IEEE Trans. Geosci. Remote Sens. 2015 , 53 , 2175–2184. [ Google Scholar ] [ CrossRef ]
ژونگ، ی. زو، س. Zhang، L. طبقه بندی صحنه بر اساس مدل موضوع احتمالی ترکیب چند ویژگی برای تصاویر سنجش از دور با وضوح فضایی بالا. IEEE Trans. Geosci. Remote Sens. 2015 , 53 , 6207–6222. [ Google Scholar ] [ CrossRef ]
Gueguen, L. طبقه بندی ساختارهای ترکیبی در تصاویر ماهواره ای: یک نمایش فشرده برای پرس و جوهای سریع. IEEE Trans. Geosci. Remote Sens. 2015 ، 53 ، 1803-1818. [ Google Scholar ] [ CrossRef ]
فن، جی. قهوهای مایل به زرد، HL; Lu, S. کدگذاری پراکنده چند مسیری برای طبقه بندی صحنه در تصاویر ماهواره ای با وضوح بسیار بالا. SPIE Remote Sens. 2015 ، 9643 ، 96430S. [ Google Scholar ]
آهنگ، س. هوانگ، آر. وانگ، ک. بازیابی تصویر سنجش از دور بر اساس نمایه‌های ویژگی. در مجموعه مقالات کنفرانس بین المللی علوم کامپیوتر و اتوماسیون مکانیکی، هانگژو، چین، 23 تا 25 اکتبر 2015. صص 231-234.
ژو، دبلیو. شائو، ز. دیائو، سی. چنگ، کیو. بازیابی تصاویر سنجش از راه دور با وضوح بالا با استفاده از ویژگی‌های پراکنده توسط رمزگذار خودکار. سنسور از راه دور Lett. 2015 ، 6 ، 775-783. [ Google Scholar ] [ CrossRef ]
Napoletano, P. توصیفگرهای بصری برای بازیابی مبتنی بر محتوا تصاویر سنجش از دور. arXiv , 2016; arXiv:1602.00970. [ Google Scholar ]
وانگ، ی. ژانگ، ال. تانگ، ایکس. ژانگ، ال. ژانگ، ز. لیو، اچ. زینگ، ایکس. Mathiopoulos، PT یک رویکرد یادگیری مبتنی بر نمودار سه لایه برای بازیابی تصویر سنجش از دور. IEEE Trans. Geosci. Remote Sens. 2016 , 54 , 6020–6034. [ Google Scholar ] [ CrossRef ]
دمیر، بی. Bruzzone, L. یک روش یادگیری فعال جدید در بازخورد مرتبط برای بازیابی تصویر سنجش از دور مبتنی بر محتوا. IEEE Trans. Geosci. Remote Sens. 2015 , 53 , 2323–2334. [ Google Scholar ] [ CrossRef ]
Urbach، ER; Roerdink، JBTM؛ Wilkinson، MHF طیف الگوی اندازه شکل متصل برای چرخش و طبقه‌بندی ثابت مقیاس تصاویر در مقیاس خاکستری. IEEE Trans. الگوی مقعدی ماخ هوشمند 2007 ، 29 ، 272-285. [ Google Scholar ] [ CrossRef ] [ PubMed ]
سیلورمن، تخمین چگالی BW برای آمار و تجزیه و تحلیل داده ها . CRC Press: Boca Raton، FL، USA، 1986. [ Google Scholar ]
برین، ای جی. جونز، آر. دهانه ها، نازک شدن ها و گرانولومتری ها را مشخص کنید. محاسبه کنید. Vis. تصویر زیر. 1996 ، 64 ، 377-389. [ Google Scholar ] [ CrossRef ]
Urbach، ER; گرانولومتری های Wilkinson، MHF Shape-only و فیلترهای شکل در مقیاس خاکستری. در مجموعه مقالات سمپوزیوم بین المللی مورفولوژی ریاضی، سیدنی، استرالیا، 3-5 آوریل 2002. صص 305-314.
سالمبر، پی. اولیوراس، ا. Garrido, L. اپراتورهای متصل ضد گسترده برای پردازش تصویر و توالی. IEEE Trans. فرآیند تصویر 1998 ، 7 ، 555-570. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
جونز، R. درختان مؤلفه برای فیلتر کردن و تقسیم بندی تصویر. در مجموعه مقالات کارگاه IEEE در مورد پردازش غیرخطی سیگنال و تصویر، جزیره مکیناک، MI، ایالات متحده، 8 تا 10 سپتامبر 1997.
Hu، MK تشخیص الگوی بصری توسط متغیرهای لحظه ای. IRE Trans. Inf. نظریه 1962 ، 8 ، 179-187. [ Google Scholar ]
Westenberg، MA; Roerdink، JBTM؛ Wilkinson، فیلترینگ ویژگی حجمی MHF و تجسم تعاملی با استفاده از نمایش Max-Tree. IEEE Trans. فرآیند تصویر 2007 ، 16 ، 2943-2952. [ Google Scholar ] [ CrossRef ] [ PubMed ]
لانتوژول، سی. Maisonneuve, F. روشهای ژئودزیکی در تحلیل کمی تصویر. تشخیص الگو 1984 ، 17 ، 177-187. [ Google Scholar ] [ CrossRef ]
مورارد، وی. Dececiere، E. Dokládal, P. نازک شدن صفات ژئودزیکی کارآمد بر اساس قطر باری مرکزی. جی. ریاضی. تصویربرداری Vis. 2013 ، 46 ، 128-142. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
سالمبر، پی. Wilkinson، اپراتورهای متصل به MHF. فرآیند سیگنال IEEE Mag. 2009 ، 26 ، 136-157. [ Google Scholar ] [ CrossRef ]
Soille, P. در مورد روابط اتصال اصیل بر اساس محمولات منطقی. در مجموعه مقالات کنفرانس بین المللی تحلیل و پردازش تصویر، مودنا، ایتالیا، 10-14 سپتامبر 2007. صص 487-492.
Lefèvre، S. فراتر از توزیع اندازه مورفولوژیکی. جی. الکترون. Imaging 2009 , 18 , 013010. [ Google Scholar ] [ CrossRef ]
Manjunath، BS; اهم، جی آر؛ Vasudevan، VV; یامادا، الف. توصیفگرهای رنگ و بافت. IEEE Trans. سیستم مدار. فناوری ویدئو 2001 ، 11 ، 703-715. [ Google Scholar ] [ CrossRef ]
منینگ، سی دی; رغوان، پ. Schütze, H. Introduction to Information Retrieval ; انتشارات دانشگاه کمبریج: کمبریج، انگلستان، 2008. [ Google Scholar ]
روساکوفسکی، او. دنگ، ج. سو، اچ. کراوز، جی. ستایش، س. ما، س. هوانگ، ز. کارپاتی، ا. خسلا، ع. برنشتاین، ام. و همکاران چالش تشخیص بصری در مقیاس بزرگ ImageNet. بین المللی جی. کامپیوتر. Vis. 2015 ، 115 ، 1-42. [ Google Scholar ] [ CrossRef ]

شکل 1. نمای کلی سیستم CBIR.

شکل 2. حداکثر درخت برای شکل ( a ) در ( b ) نمایش داده می شود . مناطق مربوط به گره ها در کنار آنها نمایش داده می شوند، با مجموعه های سطح نشان داده شده در داخل گره ها.

شکل 3. تصویر 21 کلاس از مجموعه داده Merced.

شکل 4. نمونه هایی از اعمال افزایش داده ها بر روی تصاویر از مجموعه داده Merced. ردیف اول تصاویر اصلی را نشان می دهد، در حالی که تصاویر مربوط به چرخش 45 درجه که برای تقویت داده ها استفاده می شود در ردیف دوم نشان داده شده است.

شکل 5. تصویری از نحوه پوشاندن وصله ها بر روی تصویر نمونه برداری متراکم. در ( a )، پوشش در یک مقیاس نشان داده شده است. ابعاد پچ می باشد

d \times d

، و پارامتر s افست بین مراکز وصله ها را تعیین می کند. در ( b )، سه لایه نهایی در یک هرم از تکه‌ها که تصویر را پوشش می‌دهند نشان داده شده است (برای وضوح، هیچ همپوشانی بین تکه‌ها در این مثال نشان داده نشده است).

شکل 6. نمای کلی جریان استخراج ویژگی.

شکل 7. آزمایش‌هایی که تأثیر تعداد مراکز خوشه‌ای VLAD و همچنین استفاده از توصیفگرهای مبتنی بر داده‌های تقویت‌شده را نشان می‌دهند. در ( a )، نتایج بازیابی هنگام محاسبه LPS روی یک تصویر با نمونه متراکم نشان داده شده است. نتایج هنگام استفاده از یک هرم از تکه ها در ( b ) نشان داده شده است. هر نقطه داده با تکرار آزمایش‌ها بین 10 تا 20 بار با مقادیر تصادفی مختلف برای مقداردهی اولیه خوشه‌بندی VLAD به‌دست آمد. نوارهای خطا روی شکل ها پراکندگی در نتایج را بیان می کند و با یک انحراف استاندارد مطابقت دارد.

جدول 1. عملکرد بازیابی رویکردهای مختلف محلی و جهانی در مجموعه داده Merced.

© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب