مدل ردپای مبتنی بر مجموعه نقطه و روش رتبه بندی فضایی برای بازیابی اطلاعات جغرافیایی

خلاصه

در عصر داده‌های بزرگ اخیر، داده‌های مرتبط فضایی عظیم به طور مداوم از منابع مختلف تولید و درهم می‌شوند. کسب اطلاعات دقیق جغرافیایی نیز به فوریت مورد نیاز است. نحوه بازیابی دقیق اطلاعات جغرافیایی مورد نظر به موضوع مهمی تبدیل شده است که باید در اولویت بالایی حل شود. فناوری‌های کلیدی در بازیابی اطلاعات جغرافیایی، مدل‌سازی ردپای اسناد و رتبه‌بندی اسناد بر اساس ارزیابی شباهت آنهاست. روش‌های سنتی ارزیابی شباهت فضایی عمدتاً با استفاده از مدل ردپای MBR (مستطیل محدودکننده حداقل) انجام می‌شود. با این حال، به دلیل ماهیت ساده و ناهمواری آن، نتایج روش های سنتی تمایل به همسانگردی و فضای اضافی دارند. در این مقاله، یک مدل جدید که ردپاها را در قالب مجموعه‌های نقطه‌ای می‌سازد، ارائه می‌شود. ردپای مبتنی بر مجموعه نقطه با ماهیت نام مکان ها در صفحات وب منطبق است، بنابراین برای توصیف گستره مکانی اسناد بدون افزونگی، سازگار، دقیق و ناهمسانگرد است و می تواند اطلاعات جغرافیایی چند مقیاسی را مدیریت کند. روش رتبه بندی فضایی مربوطه نیز بر اساس مدل مبتنی بر مجموعه نقطه ارائه شده است. الگوریتم ارزیابی شباهت جدید این روش ابتدا فواصل چندگانه را برای مجاورت فضایی در مقیاس‌های مختلف اندازه‌گیری می‌کند و سپس فراوانی نام مکان‌ها را برای بهبود دقت و دقت ترکیب می‌کند. نتایج تجربی نشان می‌دهد که روش پیشنهادی در سناریوهای مختلف جستجو از روش‌های سنتی با دقت بالاتر بهتر عمل می‌کند. و ناهمسانگرد برای توصیف گستره فضایی اسناد، و می تواند اطلاعات جغرافیایی چند مقیاسی را مدیریت کند. روش رتبه بندی فضایی مربوطه نیز بر اساس مدل مبتنی بر مجموعه نقطه ارائه شده است. الگوریتم ارزیابی شباهت جدید این روش ابتدا فواصل چندگانه را برای مجاورت فضایی در مقیاس‌های مختلف اندازه‌گیری می‌کند و سپس فراوانی نام مکان‌ها را برای بهبود دقت و دقت ترکیب می‌کند. نتایج تجربی نشان می‌دهد که روش پیشنهادی در سناریوهای مختلف جستجو از روش‌های سنتی با دقت بالاتر بهتر عمل می‌کند. و ناهمسانگرد برای توصیف گستره فضایی اسناد، و می تواند اطلاعات جغرافیایی چند مقیاسی را مدیریت کند. روش رتبه بندی فضایی مربوطه نیز بر اساس مدل مبتنی بر مجموعه نقطه ارائه شده است. الگوریتم ارزیابی شباهت جدید این روش ابتدا فواصل چندگانه را برای مجاورت فضایی در مقیاس‌های مختلف اندازه‌گیری می‌کند و سپس فراوانی نام مکان‌ها را برای بهبود دقت و دقت ترکیب می‌کند. نتایج تجربی نشان می‌دهد که روش پیشنهادی در سناریوهای مختلف جستجو از روش‌های سنتی با دقت بالاتر بهتر عمل می‌کند. الگوریتم ارزیابی شباهت جدید این روش ابتدا فواصل چندگانه را برای مجاورت فضایی در مقیاس‌های مختلف اندازه‌گیری می‌کند و سپس فراوانی نام مکان‌ها را برای بهبود دقت و دقت ترکیب می‌کند. نتایج تجربی نشان می‌دهد که روش پیشنهادی در سناریوهای مختلف جستجو از روش‌های سنتی با دقت بالاتر بهتر عمل می‌کند. الگوریتم ارزیابی شباهت جدید این روش ابتدا فواصل چندگانه را برای مجاورت فضایی در مقیاس‌های مختلف اندازه‌گیری می‌کند و سپس فراوانی نام مکان‌ها را برای بهبود دقت و دقت ترکیب می‌کند. نتایج تجربی نشان می‌دهد که روش پیشنهادی در سناریوهای مختلف جستجو از روش‌های سنتی با دقت بالاتر بهتر عمل می‌کند.

کلید واژه ها:

بازیابی اطلاعات جغرافیایی ; رد پا ; ارزیابی شباهت ; نقطه مجموعه ; چند مقیاسی

1. معرفی

در عصر داده‌های بزرگ اخیر، توسعه سریع فناوری‌های مبتنی بر وب و مکان، و همچنین کاربردهای گسترده رسانه‌های اجتماعی با برچسب‌گذاری اطلاعات مکان، به تنوع و بزرگواری داده‌های جغرافیایی، همراه با تقاضای فوری کسب کمک کرده است. اطلاعات دقیق جغرافیایی گزارش شده است که 20 درصد از جستجوها در گوگل مربوط به مکان ها است [ 1 ]. یک گزارش سالانه از comScore/TMPDM که به رفتار جستجوی محلی در سال 2013 اشاره می کند همچنین بیان می کند که تا سال 2013، نزدیک به 86 میلیون نفر در ایالات متحده به دنبال اطلاعات کسب و کار محلی در دستگاه های تلفن همراه خود بودند که افزایش 63 درصدی از سال 2010 را نشان می دهد [2] .]. همه این ارقام نشان می‌دهند که اطلاعات جغرافیایی در وب فراگیر است و موجودیت‌های جغرافیایی در پرسش‌های کاربران مکرر هستند. کسب و پردازش اطلاعات جغرافیایی، به ویژه بازیابی اطلاعات جغرافیایی، از ارزش مطالعاتی حیاتی و یک چشم انداز کاربردی امیدوارکننده است.

اولین بار توسط لارسون [ 3 ] پیشنهاد شد، بازیابی اطلاعات جغرافیایی (GIR) به عنوان یک فرآیند مربوط به فراهم کردن دسترسی به منابع اطلاعاتی مرجع جغرافیایی تعریف می شود. GIR شامل تمام حوزه‌هایی است که به طور سنتی هسته تحقیقات بازیابی اطلاعات (IR) را تشکیل می‌دهند، با تأکید یا اضافه بر نمایه‌سازی و بازیابی مکانی و جغرافیایی.

زمینه های اصلی تحقیقاتی GIR توسط جونز [ 4 ] به هفت چالش تعمیم داده شده است: تشخیص، ابهام زدایی، تفسیر، نمایه سازی، رتبه بندی، طراحی رابط های کاربری و ارزیابی. به دلیل منابع متعدد و انواع رسانه های داده های جغرافیایی، اطلاعات ضمنی همیشه مبهم است. این منجر به اشکال متنوعی از ردپاها می‌شود که الگوریتم‌های رتبه‌بندی فضایی را تعیین می‌کنند. پیترز و همکاران [ 5] ردپای اسناد را با نام مکان ها ساخت و تفاوت های نحوی بین عبارات را برای ارزیابی شباهت ها مقایسه کرد. با این حال، ارزیابی شباهت فضایی بر اساس معناشناسی است: دو عبارت مختلف که نشان دهنده یک منطقه فضایی یکسان هستند به عنوان یک نام مکان در نظر گرفته می شوند. در این مورد، معیار شباهت دیگر تحت اللفظی نیست، بلکه «مجاورت» ضمنی موجودیت ها است.

برای ارضای معناشناسی جغرافیایی، برخی از محققین [ 6 ، 7 ، 8 ] ردپاها را به عنوان MBRs (مستطیل محدود حداقل) یا بدنه های محدب که شامل فضایی است که نام مکان ها در اسناد به آن اشاره دارد، و ارزیابی شباهت فضایی برای رتبه بندی نامیده اند. به رابطه توپولوژیکی بین دو چند ضلعی، منظم یا نامنظم بستگی دارد [ 9 ]. با توجه به GeoCLEF، یک مسیر بازیابی جغرافیایی بین زبانی از انجمن ارزیابی بین زبانی (CLEF) که هدف آن ارزیابی سیستم های GIR برای کارهای جستجوی فضایی و چند زبانه است [ 10 ، 11] .]، MBR و بدنه محدب رایج ترین مدل های مورد استفاده در حال حاضر هستند. با این حال، مدل بدنه محدب به دلیل پیچیدگی مدل بدنه محدب به اندازه مدل MBR فراگیر نیست. تولید و ذخیره بدنه محدب یک سند، و همچنین محاسبه رابطه توپولوژیکی بین بدنه های محدب، زمان و فضا وقت گیر است.

اگرچه مدل های چند ضلعی ساده و سرراست هستند، هر دو MBR و بدنه محدب از نقایص ذاتی رنج می برند که از ماهیت چند ضلعی ها و ارزیابی توپولوژی ناشی می شود. معایب خاص مدل های فوق به شرح زیر است:

(آ): افزونگی فضا آشکارترین ضعف زمانی اتفاق می افتد که مدل های چند ضلعی نواحی مورب، نامنظم، غیر محدب یا چند قسمتی را نشان می دهند [ 12 ]. چند ضلعی ها فضای بیشتری را نسبت به اسنادی که به آن اشاره می کنند پوشش می دهند ( شکل 1 )، و اگر پرس و جو در فضای اضافی قرار گیرد، اسناد نامربوط بازیابی خواهند شد.
(ب): باتلاقی محل. اسناد ممکن است شامل مکان هایی در مقیاس های مختلف باشد، به عنوان مثال، پکن، منطقه هایدیان، و دانشگاه پکن ( شکل 2 ). با این حال، چند ضلعی نهایی فقط ناحیه کلی را نشان می دهد و مکان های داخلی پوشانده می شوند که منجر به از دست رفتن اطلاعات می شود. به عنوان مثال، اگر پرس و جو دانشگاه پکن باشد، و دو سند وجود داشته باشد که هر دو به پکن اشاره می کنند، اما یک سند به دانشگاه پکن اشاره می کند و دیگری نه، در این صورت مدل چند ضلعی نمی تواند بین این دو سند تمایز قائل شود و هدف قرار نمی دهد. مرتبط ترین سند، زیرا ردپای این دو سند به صورت چند ضلعی یکسان ارائه شده است.
(ج): عدم دقت ارزیابی شباهت بر اساس مدل‌های چند ضلعی برای بررسی رابطه توپولوژیکی است، یعنی اینکه آیا آنها یکدیگر را لمس/تقاطع/حاوی یکدیگر هستند یا خیر. از آنجایی که این رابطه باینری است (0 برای جداسازی و 1 برای تقاطع)، نتیجه ناهموار است. این روش ارزیابی بین شناخت «دور» یا «نزدیک» که از نظر شناخت فضایی انسان مهم است، تبعیض قائل نمی شود و باید بر فاصله دو موجود تأکید کرد. برخی از بهبودها برای غلبه بر عدم دقت ارزیابی باینری با بررسی مجاورت در سه سناریو انجام شده است: حاوی، همپوشانی، و مجاورت [ 11]. به همین ترتیب، تابع ارزیابی از باینری به نسبت مساحت تنظیم می‌شود که دقت را بهبود می‌بخشد، اما نتیجه ممکن است همیشه با عقل سلیم مطابقت نداشته باشد. به عنوان مثال، اگر پرس و جو “Beijing” باشد و این پرس و جو را از دو سند A و B بازیابی کنیم ، و ردپای سند A “Dongcheng District” و ردپای سند B “Haidian District” باشد ( شکل 2 ). سپس هنگام استفاده از تابع ارزیابی نسبت مساحت، سند B بالاتر از A قرار می گیرد زیرا مساحت ناحیه Haidian بزرگتر از مساحت ناحیه Dongcheng است. اما چون سند الف و سند بهر دو به مناطق فرعی پکن اشاره می کنند و اطلاعات بیشتری برای تشخیص ارتباط وجود ندارد، هنگام بازیابی پکن، هر دو منطقه فرعی باید رتبه یکسانی داشته باشند.
(د): همگنی. فضای درون یک MBR واحد به طور مساوی در نظر گرفته می‌شود، حتی اگر برخی از مکان‌ها به دلیل فرکانس‌های بالاتر مهم‌تر باشند. به عنوان مثال، اگر یک سند 50 بار به منطقه هایدیان اشاره کند و در سند دیگر فقط یک بار به منطقه هایدیان اشاره شود، ممکن است ردپای چند ضلعی برای این دو سند یکسان باشد. با این حال، در بازیابی متن سنتی، با توجه به مدل TF-IDF [ 13 ]، موجودیت‌های با بسامد بالاتر تمایل به امتیازهای رتبه‌بندی بالاتری دارند. به همین ترتیب، ما سند اول را قطعاً بیشتر مربوط به ولسوالی حیدیان می دانیم تا سند دوم، زیرا در سند اول مکان را بیشتر ذکر کرده است.

تلاش هایی برای رفع مشکلات فوق صورت گرفته است. مدل های ردپای هندسی بهبود یافته، از جمله چند ضلعی [ 14 ، 15 ] و مجموعه MBR [ 16 ، 17 ]، به عنوان یک نوع راه حل ارائه می شوند. De Andrade [ 18 ] بیشتر درجه همپوشانی MBR ها را با ارتباط فضایی، که توسط فرکانس های همپوشانی MBR ها تعریف می شود، برای محاسبه رتبه بندی های فضایی ادغام می کند. دی ساباتا و رایشنباخر [ 19 ، 20] پنج معیار دقیق (شامل موضوعی بودن، مجاورت مکانی-زمانی، جهت، خوشه، و هم‌مکانی) را برای محاسبه امتیاز مربوط به فضایی ارائه می‌کند. اگرچه این روش‌ها از مشکل افزونگی جلوگیری می‌کنند، مسائل مربوط به باتلاقی مکان و همگنی هنوز وجود دارد. مدل‌های غنی از نظر معنایی نیز به عنوان راه‌حل برای چنین مسائلی ارائه شده‌اند. مجموعه‌ای از نام مکان‌ها ابتدا برای نشان دادن گستره‌های سند استفاده می‌شوند و ارتباط با روابط سلسله مراتبی آنها محاسبه می‌شود [ 21 ، 22 ]. علاوه بر این، هستی‌شناسی‌های جغرافیایی یا نمودارهای دانش، به‌جای ردپای، برای اندازه‌گیری شباهت‌های معنایی برای رتبه‌بندی‌های فضایی [ 23 ، 24 ، 25 ، 26] ساخته می‌شوند.]. آخرین مدل‌های موضوعی نیز در بازیابی اطلاعات جغرافیایی برای یافتن اسناد مرتبط با مکان مشابه بر اساس معناشناسی پنهان استفاده می‌شوند [ 23 ، 27 ]. اگرچه این روش‌های مبتنی بر معنایی می‌توانند ارتباط فضایی و موضوعی را با هم در رتبه‌بندی ادغام کنند، هستی‌شناسی‌ها و دانش مختص حوزه هستند و معمولاً ساختن آنها دشوار است. در مقایسه با فاصله مکانی، فاصله معنایی ممکن است منجر به عدم دقت و اطلاعات از دست رفته شود. در سال‌های اخیر، جمع‌سپاری، شبکه‌های اجتماعی و دیگر منابع کلان داده در مدل‌های ردپای معنایی و هندسی برای محاسبات مجاورت فضایی و رتبه‌بندی گنجانده شده‌اند [ 28 ، 29]]. با این حال، همه روش‌های فوق فرکانس مکان‌ها را در نظر نمی‌گیرند، که عامل مهمی برای توصیف تمرکز اسناد است.

در مطالعه حاضر، ما یک مدل جدید ردپای مبتنی بر مجموعه نقطه از اسناد ایجاد می‌کنیم که بر معایب مدل‌های چندضلعی فائق می‌آید. در همان زمان، ما یک روش ارزیابی شباهت مبتنی بر فاصله و فرکانس متناظر را برای رتبه‌بندی فضایی برای دستیابی به دقت بالاتر در بازیابی مکان‌های جغرافیایی مرتبط ارائه کردیم.

2. مدل ردپای اسناد

به جای MBR کلی یا بدنه محدب، مدل ردپاها را از چند ضلعی به مجموعه نقطه ای تغییر می دهیم.

معقول است که نقاط را به عنوان رد پا تعیین کنیم زیرا بیشتر اطلاعات جغرافیایی آشکار شده در متون به شکل نام مکان ها است [ 30 ]. با توسعه LBS (سرویس مبتنی بر مکان)، روزنامه‌ها اکنون حاوی مقادیر زیادی داده POI (نقطه مورد علاقه) هستند. این روزنامه‌نگارها می‌توانند هر نام مکان را به یک جفت طول و عرض جغرافیایی، یعنی یک نقطه مکانی، نشان دهند.

از این رو، مدل مجموعه نقطه‌ای با معادلات (1) و (2) نشان داده می‌شود، که در آن F _I نشان‌دهنده ردپای سند I با N نقطه _I است ، و نقطه مکانی متناظر یک نام مکان و نام‌های مستعار آن به صورت fp _i نشان داده می‌شود . و φ , λ , f و S به ترتیب عرض جغرافیایی، طول جغرافیایی، فرکانس و سطح زمین را نشان می دهند.

F _I = { fp ₁ , fp ₂ , fp ₃ , …, fp _NI }

(1)

fp _i = { φ , λ , f , S }

(2)

مدل نقطه گسسته دارای مزایای خاصی نسبت به مدل های سنتی چند ضلعی است. اولاً، علیرغم توزیع مکان‌ها، ردپا بدون افزونگی است. از آنجایی که هر نام مکان به یک نقطه نمایش داده می شود، ردپای تنها حاوی نقاط توصیه شده در متن است و الگوریتم ارزیابی شباهت مستقیماً نقاط را بررسی می کند. باید تاکید کرد که این فرافکنی یک فرافکنی چند به یک است. بسیاری از نام مکان ها ممکن است به دلیل نام مستعار با یک نقطه نشان داده شوند. دوم، مدل مجموعه نقطه، هر مکانی را که در سند ظاهر می شود، حفظ می کند و هیچ اطلاعاتی از دست نمی رود. سوم، الگوریتم شباهت مشتق شده با ویژگی های یک مجموعه نقطه مطابقت دارد و نتیجه دقیق تر است. در نهایت چون فرکانس ظاهری یک نقطه فضایی را با پارامتر f ثبت می کنیم، این مدل ناهمسانگرد است. رد پای یک سند دیگر دامنه جهانی ندارد. از آنجایی که شمارش فراوانی ظاهر نام مکان‌ها آسان است، می‌توانیم وزن‌های مختلفی را با توجه به فراوانی آنها به نقاط مختلف اختصاص دهیم تا اهمیت هر نقطه را متمایز کنیم. هرچه نام مکان بیشتر ظاهر شود، سند مربوط به مکان مربوطه بیشتر است. فاکتور فراوانی ارزیابی ما را دقیق و قابل اعتماد می کند.

یک مشکل این است که رابطه بین نام مکان ها در یک سطح سلسله مراتبی نیست. برای مثال، فضایی که «چین» به آن اشاره می‌کند، حاوی فضایی است که «پکن» به آن اشاره می‌کند. رابطه واقعی بین این دو نام مکان، گنجاندن فضایی است. با این حال، اگر این دو نام مکان را به سادگی در دو نقطه مجزا قرار دهیم، رابطه شمول گم شده است زیرا نقطه یک ویژگی بعد صفر است. نتیجه رابطه ای که ما از دو نقطه به دست می آوریم ممکن است با واقعیت متفاوت باشد، به عنوان مثال، نام مکان ها دانه بندی های متفاوتی دارند، بنابراین روش های ارزیابی شباهت باید بر اساس دانه بندی تنظیم شوند. ما این وضعیت را با افزودن ضریب بعد S و تنظیم الگوریتم ارزیابی در سطوح مختلف، همانطور که به طور مفصل دربخش 3.1 .

3. روش رتبه بندی فضایی

پس از استخراج ردپای یک سند، باید از رتبه بندی مکانی برای استخراج اسناد مربوطه استفاده شود. رتبه بندی فضایی بر اساس نمرات ارزیابی شباهت فضایی است و از این رو در پیشنهاد یک الگوریتم ارزیابی شباهت فضایی کارآمد از اهمیت بالایی برخوردار است. فاصله یک راه مستقیم برای توصیف شباهت فضایی است و مهمترین عامل در الگوریتم ارزیابی شباهت فضایی ما است. تابع فاصله خاص که در بخش 3.1 بحث خواهیم کردروش سنتی برای اندازه گیری مجاورت فضایی بین موجودیت ها است. علاوه بر این، از آنجایی که سند مربوط به مکانی است که بیشتر ذکر شده است، تأثیر فرکانس به عنوان پارامتر وزن در تابع فاصله ادغام می شود که باعث می شود خلاصه و ارزیابی اطلاعات جغرافیایی یک سند دقیق و دقیق تر شود. ما ترکیب فاصله و فرکانس را به تفصیل در بخش 3.2 مورد بحث قرار خواهیم داد .

3.1. مجاورت فضایی

به طور کلی، هر نام مکانی دلالت بر ناحیه ای دارد که می تواند با مرکز آن نشان داده شود. در نتیجه، نام مکان ها در اسناد را می توان به نقاط فضایی پیش بینی کرد و فاصله مختصرترین و مؤثرترین راه برای بررسی نزدیکی بین نقاط جدا شده است. همانطور که قاعده کلی جغرافیا می گوید: “همه چیز به هر چیز دیگری مربوط است، اما چیزهای نزدیک بیشتر از چیزهای دور مرتبط هستند” [ 31 ]. بر اساس این قانون می توان یک پارامتر ارزیابی مربوطه ساخت که با فاصله اقلیدسی همبستگی منفی دارد. در مورد ما، ما اسناد را جستجو می کنیم تا همبستگی آنها را با یک پرس و جو Q تعیین کنیم . ردپای پرس و جو شامل M نقطه است و برای هر سند I، دارای یک ردپای مجموعه نقطه با N نقطه _I است . مجاورت مکانی نقطه i در ردپای سند I به نقطه m در ردپای پرس و جو Q که با g _i_{نشان داده می شود | m} را می توان با معادله (3) محاسبه کرد که از آن به عنوان “مدل گرانشی” یاد می شود. پارامتر r یک پارامتر کاهش فاصله است که تأثیرات فاصله را بر رفتار تعامل نشان می دهد. r بزرگتر به معنی اثر پوسیدگی سریعتر است و فعل و انفعالات بیشتر تحت تأثیر فاصله قرار می گیرند. مقدار تجربی r معمولاً به عنوان کسری از 1 تا 2 نسبت داده می شود [ 32 ]. سمبلd نشان دهنده فاصله زمین (معادله (4)) یا فاصله اقلیدسی (معادله (5)) بین دو نقطه جغرافیایی است، جایی که R نشان دهنده شعاع زمین است. طول و عرض جغرافیایی نقطه i و نقطه m به ترتیب به صورت φ _i , λ _i , φ _m و λ _m نشان داده می شوند . مختصات طرح ریزی به ترتیب x ₁ ، y ₁ ، x ₂ و y ₂ نشان داده می شود .

g من | متر = 1 د r من | متر

(3)

د من | متر = R \times a r c c o s [c o s ϕ من ج__ϕ متر سس (__λ من - λ متر) + s i n ϕ من s i n ϕ متر]

(4)

د من | متر = (ایکس 1 - ایکس 2) 2 + (y 1 - y 2) 2 - - - - - - - - - - - - - - - - - - \sqrt

(5)

با این حال، انتزاع هیچ تبعیضی با توجه به “اندازه” منطقه ای که نام مکان به آن اشاره دارد، ایجاد نمی کند. یک ایستگاه اتوبوس یا یک شهر هر دو به یک نقطه بعد صفر ختم می‌شوند و ابعاد آن نادیده گرفته می‌شود. فرض کنید ایستگاه اتوبوس در داخل شهر باشد، انتزاع ممکن است منجر به دو نقطه جداگانه شود که اطلاعات مربوط به رابطه بین شهر و ایستگاه اتوبوس را از دست می دهد. این محدودیت مدل مجموعه نقطه با تابع فاصله معمولی به دلیل ماهیت یک نقطه است که یک نقطه فقط حاوی مکان است و اطلاعات ابعاد را از دست می دهد. در چنین شرایطی، مشکل چند مقیاسی رخ می دهد که ناشی از تفاوت ابعاد و مساحت بین مکان های مورد بررسی است. به عنوان مثال، دو مکان “دانشگاه پکن” و “موزه ملی” (شکل 2 ) نزدیکی فضایی یکسانی با پرس و جو «پکن» خواهد داشت، زیرا هر دو در داخل شهر هستند و اطلاعات بیشتری برای ایجاد تبعیض وجود ندارد. با این حال، نتیجه ارتباط بر اساس اندازه‌گیری فاصله این است که «موزه ملی» بیشتر با «پکن» مرتبط است، زیرا «موزه ملی» به مرکز شهر نزدیک‌تر است، که نقطه فضایی مربوط به نام مکان «پکن» است. . این یک مثال معمولی از یک مسئله چند مقیاسی است که باید بر آن غلبه کنیم تا ارزیابی های معقولی بر اساس مدل مجموعه نقطه انجام دهیم.

قبل از بحث در مورد مسئله چند مقیاسی ذکر شده در بالا، باید مشخص شود که فرآیند بازیابی جهت دار و غیر قابل برگشت است. ما ترجیح می‌دهیم زیرمنطقه‌های پرس و جو را به جای نواحی بالایی بازیابی کنیم. این محدودیت به دلیل هدف بازیابی اطلاعات است. مردم تمایل دارند به جای اطلاعات عمومی تر، اطلاعات دقیق تری از پرس و جوها دریافت کنند. به عنوان مثال، اگر منطقه پرس و جو “پکن” است، اسنادی که به “دانشگاه پکن” اشاره می کنند باید بالاتر از اسنادی با ردپایی که به “چین” اشاره می کنند، رتبه بندی شوند. برعکس، برای پرسش “دانشگاه پکن”، سند با ردپای “پکن” در اولویت اول نیست.

قبل از شروع، ما سه فاصله (معادلات (6) – (8)) بین نقطه m در ردپای پرس و جو Q و نقطه i در ردپای سند I تعریف می کنیم . فاصله زمین بین این دو نقطه را نشان می دهند

d_{1}

. تمام نشانه های دیگر با معادله (4) یکسان است. شعاع نقطه پرس و جو m به صورت نشان داده می شود

d_{2}

، با مساحت آن S _m بر حسب کیلومتر محاسبه می شود که می توان آن را از پایگاه دانش گوگل یا روزنامه روزنامه ها بدست آورد ( شکل 3 ). شعاع نقطه سند i را نشان می دهند

d_{3}

، با مساحت آن S _i بر حسب کیلومتر محاسبه می شود. ما از شعاع یک منطقه به عنوان یک اندازه گیری ساده برای پوشش استفاده می کنیم.

د 1 = R \times a r c c o s [c o s ϕ من ج__ϕ متر سس (__λ من - λ متر) + s i n ϕ من s i n ϕ متر]

(6)

د 2 = اس متر π - - - \sqrt

(7)

د 3 = اس من π - - - \sqrt

(8)

علاوه بر این، موارد بازیابی را به سه سناریو تعمیم می دهیم ( شکل 4 ).

(آ): سناریوی 1: نقطه m و نقطه i کاملاً حاوی یکدیگر نیستند ( شکل 4 a)، از جمله موارد همپوشانی و قطع شدن. در این حالت فاصله ای که برای ارزیابی شباهت این دو نقطه استفاده می شود را به صورت تعریف می کنیم $d_{1}$ .
(ب): سناریوی 2: مساحت پیشنهاد شده توسط نقطه m شامل مساحت نقطه i است . به عنوان مثال، پرس و جو “Beijing” است و اسنادی وجود دارد که به “دانشگاه پکن”، “PKU DaXing” و “Tianjin” اشاره دارد ( شکل 4 ب). برای این سه مکان، “دانشگاه پکن” و “PKU Daxing” در پکن گنجانده شده است. تیانجین و پکن شهرهای همسایه هستند و هیچ منطقه همپوشانی ندارند. ما هر دو فاصله را تعریف می کنیم، فاصله بین پکن و دانشگاه پکن و فاصله بین پکن و PKU Daxing، $d_{2}$ ، زیرا دانشگاه پکن و PKU Daxing در یک سطح هستند (بدون حاوی) و هر دو در داخل پکن هستند. نزدیکی آنها به پکن را نمی توان بیشتر از این متمایز کرد. رابطه بین پکن و تیانجین با سناریوی 1 مطابقت دارد، بنابراین فاصله بیشتر از $d_{2}$ که در نهایت منجر به نمره پایین تری در مقایسه با دانشگاه پکن/PKU Daxing می شود. به طور خلاصه، برای هر مکان در منطقه پرس و جو، فاصله یکسانی ( $d_{2}$ ) برای کسب همان امتیاز رتبه بندی.
(ج): سناریوی 3: محدوده جغرافیایی نقطه m در محدوده نقطه i قرار دارد . به عنوان مثال، پرس و جو “دانشگاه پکن” است و دو سند به ترتیب به پکن و منطقه هایدیان اشاره دارند ( شکل 4 ج). ما تصمیم گرفتیم که اگرچه این دو ناحیه هر دو شامل ناحیه پرس و جو هستند، اما ناحیه Haidian مرتبط تر است زیرا جزئیات آن دقیق تر است. برای درک این موضوع، فاصله ها به این صورت تعریف می شوند ${Unknown node type: font}_{Unknown node type: font}$ . از آنجایی که شعاع ناحیه ریزدانه کوتاهتر از ناحیه درشت دانه است، رتبه ناحیه ریزدانه بالاتر خواهد بود.

در فرآیند ارزیابی نزدیکی، حالت واقعی همیشه مخلوطی از سه موقعیت فوق است ( شکل 5 ). دایره Q ناحیه پرس و جو را نشان می دهد و دایره های P ₁ تا P ₆ مساحت هر نقطه در ردپای را نشان می دهد. دایره‌های P ₁ و P _{2 توسط}Q قرار می‌گیرند که با سناریوی 2 مطابقت دارد، به‌عنوان مثال، ناحیه ذکر شده در سند توسط ناحیه پرس‌وجو شامل می‌شود. بنابراین، فاصله به عنوان _Rq برای هر دو P ₁ و_{بنابراین ،} P2، زیرا اطلاعات دیگری برای تفکیک ارتباط این دو مکان وجود ندارد. دایره‌های P ₃ و P ₄ با سناریوی 3 مطابقت دارند زیرا دایره‌های P ₃ و P ₄ هر دو حاوی Q هستند و فواصل به‌عنوان شعاع مکان‌هایی که ناحیه پرس و جو را شامل می‌شوند، تعریف می‌شوند که به ترتیب R ₃ و R ₄ هستند. دایره های P ₅ و P ₆ با سناریوی مناسب (1). زیرا دایره های P ₅ و P ₆از ناحیه پرس و جو جدا می شوند، فواصل به عنوان فواصل مرکزی تعریف می شوند که₃د ₅ و د ₆ . با توجه به تصویر، نتایج رتبه بندی بازیابی برای منطقه پرس و جو Q ، رتبه ( P ₁ ) = Rank ( P ₂ ) > Rank ( P ₃ ) > Rank ( P ₄ ) > Rank ( P ₅ ) > Rank ( P ₆ ) خواهد بود . ، زیرا R _q < R < R ₄< D ₅< D ₆. این نتیجه با عقل سلیم مطابقت دارد.

با این حال، در مراحل فوق تصمیم می گیریم که کدام فاصله (

d_{1}, d_{2}, d_{3}

) بر اساس آگاهی از روابط توپولوژیکی انتخاب خواهد شد. اگر از قبل توپولوژی را نمی دانیم چگونه می توانیم فاصله را انتخاب کنیم؟

_در سناریوی (2)، به عنوان مثال، P ₁ و Q , d ₃ < d ₁ < d ₂ و فاصله تعیین شده نهایی d ₂ (یا Rq ) است.
در سناریوی (3)، به عنوان مثال، P ₃ و Q , d ₂ < d ₁ < d ₃ و فاصله تعیین شده نهایی d ₃ (یا R ₃ ) است.
در سناریوی (1)، به عنوان مثال، P ₅ و Q ، d ₃ < d ₂ < d ₁ و فاصله تعیین شده نهایی d ₁ است .

به طور خلاصه، فاصله نهایی d _i|m که در ارزیابی شباهت در همه سناریوها استفاده می کنیم را می توان به صورت معادله (9) تعمیم داد. بنابراین در فرآیند بازیابی دیگر نیازی به بررسی روابط توپولوژیکی نیست. در عوض، ما فقط باید d ₁ ، d ₂ و d ₃ را محاسبه کنیم و فاصله نهایی را به عنوان حداکثر بین آنها تعیین کنیم که حجم کار را به شدت کاهش می دهد.

d _i_| m = حداکثر ( d ₁ , d ₂ , d ₃ )

(9)

از آنجایی که اغلب بیش از یک نقطه در رد پای یک سند یا پرس و جو وجود دارد، تأثیرات همه نکات خلاصه می شود. تابع کلی با معادله (10) نشان داده می شود، که در آن معانی نمادها با نمادهای قبلی یکسان است. این روش می تواند مشکل چند مقیاسی را برطرف کند و از اشتباهات ناشی از عیوب مدل ساده نقطه ای جلوگیری کند. از آنجایی که این روش ارزیابی سناریوی جستجوی واقعی را دقیق‌تر توصیف می‌کند، نتایج رتبه‌بندی مربوطه دقیق‌تر خواهد بود.

جی من | س = \sum m = 1 م \sum i = 1 ن من 1 د r من | متر

(10)

3.2. پارامتر وزن فرکانس

ما تابع مدل گرانش را در بالا برای ارزیابی نزدیکی فضایی بر اساس فاصله نشان می‌دهیم. با این حال، نزدیکی و شباهت دقیقاً معادل نیستند. تشابه نه تنها نزدیکی، بلکه تأکید اسناد را نیز ارزیابی می کند. ما می دانیم که فرکانس بالاتر ظاهر شدن یک کلمه در سند نشان دهنده احتمال ارتباط بیشتر است. این مشخصه به طور گسترده و با موفقیت در IR برای فیلتر کردن کلمات توقف در زمینه های موضوعی مختلف از جمله خلاصه سازی متن و طبقه بندی، مانند ضریب وزنی TF-IDF استفاده می شود. 13] .]. برخلاف MBR ها که با هر نقطه در مستطیل به طور مساوی رفتار می کنند، در نظر گرفتن فرکانس در این مقاله، چگالی نقاط را منعکس می کند و نتیجه می تواند دقیق تر و صحیح تر باشد. به عنوان مثال، فرض کنید دو سند با ظرفیت و ردپای کلمه یکسان داریم. کلمه ظرفیت برای هر مدرک 1000 می باشد و هر دو سند مربوط به پکن است. سند A 100 بار پکن را توصیه می کند، در حالی که B فقط 10 بار پکن را توصیه می کند. نتیجه گیری از تجزیه و تحلیل MBR می تواند این باشد که A و B برای پرس و جو “Beijing” امتیاز یکسانی دارند زیرا MBR های آنها یکسان است. با این حال، به معنای رایج مرتبط بودن، سند A احتمالاً بیشتر مربوط به پکن است تا سندب _ با معرفی ضریب فرکانس، ممکن است از چنین کمبودهایی جلوگیری شود.

فراوانی موقعیت مکانی i به صورت f _i در معادله (11) تعریف می‌شود ، که در آن n _i تعداد وقوع نام مکان‌هایی است که به هر مکان اشاره می‌کنند و N I _کل وقوع نام مکان‌ها در سند مربوطه است. لازم به ذکر است که بسامد بر اساس معناشناسی جغرافیایی به جای املایی محاسبه می‌شود، بنابراین شمارش رخداد نام مستعار مربوط به یک مکان جغرافیایی یکسان را می‌توان انباشته کرد، حتی اگر عبارات ممکن است کاملاً متفاوت باشند. f _i بالاتر نشان دهنده ارتباط بیشتر سند با مکان مکانی است.

f من = n من \sum ن من j = 1 n j

(11)

برای ترکیب اثرات فرکانس و فاصله، وزن فاصله بین نقاط پرس و جو و نقاط ردپای سند را به نسبت مستقیم با فراوانی وقوع نام مکان مربوطه در یک سند اختصاص می دهیم. بنابراین، مدل جاذبه در رابطه (3) را می توان با معادله (12) تنظیم کرد. پارامتر r در معادله یک مقدار تجربی برای هماهنگ کردن تأثیر فرکانس و فاصله مکانی است. با افزایش r ، فاصله مکانی تعیین کننده تر می شود.

g من | متر = f من \times 1 د r من | متر

(12)

تابع ارزیابی نرمال شده کل سند به صورت معادله (13) محاسبه خواهد شد. با توجه به اینکه مکان مکانی m در یک پرس و جو ممکن است بیش از یک بار ظاهر شود، پارامتر f _m فراوانی آن در پرس و جو است. معادله (14) یک نسخه ساده شده است که فراوانی نقاط در پرس و جو را نادیده می گیرد. | D | تعداد اسناد موجود در مجموعه است و بقیه نشانه ها با معادلات قبلی یکسان است.

جی من | س = \sum م m = 1 f متر \sum ن من i = 1 f من 1 د r من | متر \sum | D | من = 1 \sum م m = 1 f متر \sum ن من i = 1 f من 1 د r من | متر

(13)

جی من | س = \sum م m = 1 \sum ن من i = 1 f من 1 د r من | متر \sum | D | من = 1 \sum م m = 1 \sum ن من i = 1 f من 1 د r من | متر

(14)

الگوریتم اثر فرکانس و فاصله را ترکیب می کند. با رتبه G _I_{| با امتیازات Q} به ترتیب نزولی، فهرستی به دست می‌آوریم که آیتم‌های برتر آن نسبی‌ترین نتایج برای پرس و جو هستند.

3.3. روش رتبه بندی

3.3.1. پیش فیلترینگ و شاخص فضایی

یک نقص در الگوریتم ارزیابی مبتنی بر فاصله فرکانس وجود دارد. اگر سندی حاوی مکان‌هایی باشد که بسیار نزدیک به نقطه پرس و جو هستند، اما فرکانس این مکان‌ها پایین باشد، ممکن است امتیاز ترکیبی سند به اندازه‌ای بالا نباشد که اجازه بازیابی سند را بدهد. برای غلبه بر این غیرمنطقی بودن، قانونی تعیین می کنیم که اگر سند دارای مکان هایی باشد که به اندازه کافی به نقطه پرس و جو نزدیک هستند، سند باید در نتیجه برگردانده شود و سپس رتبه بندی شود. ما این اصل را با افزودن یک مرحله فیلتر در زمان اجرا متوجه می شویم.

قبل از محاسبه امتیازهای شباهت، برای هر سند، حداقل فاصله بین نقطه پرس و جو m و نقاط ردپای سند را محاسبه می کنیم، سپس اسناد را با حداقل فاصله های W -کوتاه ترین بازیابی می کنیم تا یک مجموعه نامزد برای پرس و جو ایجاد شود. ارزیابی شباهت فقط بر روی داوطلب انجام می شود. این مرحله تضمین می کند که اصل ذکر شده در بالا اعمال می شود و همچنین بار کاری را کاهش می دهد. در عمل، مقدار W با در نظر گرفتن مجموع اسناد موجود در مجموعه تصمیم گیری می شود.

یک شاخص فضایی بر اساس geohash ساخته شده است تا فیلتر را تسریع کند. اختراع شده توسط Niemeyer [ 33 ]، geohash یک سیستم ژئوکد طول و عرض جغرافیایی است و برای نمایه سازی نقاط مکانی مناسب است. Geohash فضا را به سطل های شبکه ای به نام geohash تقسیم می کند و هر سطل دارای یک کد رشته منحصر به فرد است. از آنجا که مدل ردپای ما مبتنی بر نقطه است و مناطق را به طور همزمان در نظر می گیرد، geohash مناسب است و در کار ما به کار می رود. ما از هفت رقم برای کدگذاری نقاط در ردپای اسناد استفاده می کنیم که به دقت 0.076 ± کیلومتر می رسد. ایندکس رشته کد و شناسه های اسنادی را که ردپای آنها حاوی این کد است را ثبت می کند.

این یک مزیت بزرگ است که شاخص geohash اطلاعات مکانی را به رشته تبدیل می کند. بنابراین جستجوی همسایگی با مقایسه کدهای ژئوهش از طریق فیلتر فضایی به جای محاسبه فاصله انجام می شود. علاوه بر این، با به کارگیری ایده الگوریتم پر کردن دانه، می‌توانیم به سرعت اسناد W بالای حاوی نزدیک‌ترین مکان‌ها به نقطه پرس و جو را به دست آوریم.

روش پیش فیلتر کردن مانند شکل 6 نشان داده شده است . هنگامی که درخواست فضایی ارسال شد، ردپای آن در geohash کدگذاری می‌شود و به فهرست هدف منتقل می‌شود. اسنادی را که ردپای آنها حاوی رشته geohash هدف است به عنوان نامزد انتخاب کنید. اگر تعداد کاندیداها کمتر از آستانه ای باشد که ما تعیین کرده ایم، باید تعداد بیشتری کاندید انتخاب شوند. برای بدست آوردن نامزدهای بیشتر، کدهای geohash هشت همسایه شبکه هدف را در لیست هدف قرار می دهیم. مراحل بالا را تکرار کنید، و با رسیدن تعداد نامزدها به آستانه، روند پیش فیلتر کردن به پایان می رسد.

3.3.2. روش رتبه بندی

روش کلی رتبه بندی فضایی در شکل 7 نشان داده شده است . پس از ارسال یک پرس و جو، ما یک پیش فیلترینگ geohash برای ایجاد یک لیست نامزد انجام می دهیم. با استفاده از الگوریتم ارزیابی پیشنهادی در بخش 3 ، امتیاز رتبه بندی را برای هر سند در لیست محاسبه کنید . و مدارک را بر اساس نمرات رتبه بندی به ترتیب نزولی مرتب کنید و نتیجه را برگردانید. لازم به ذکر است که پس از محاسبه فراوانی امتیازات در یک سند کاندید، می توانیم امتیازها را به ترتیب نزولی f _i مرتب کنیم و K بالا را استخراج کنیم.نقاطی برای نشان دادن ردپای سند. این مرحله تعداد امتیازهایی را که در محاسبه فاصله درگیر می شود کاهش می دهد و مقدار محاسبه را به طور چشمگیری کاهش می دهد.

پیچیدگی زمانی الگوریتم ما O(M×K×W) است. در بین سه عامل مؤثر بر کارایی، تعداد مکان‌های مکانی ذکر شده توسط یک پرس و جو ( M ) کوچک است، معمولاً کمتر از 5، و پارامتر K یک ثابت تجربی است. از این رو، پارامتر W عامل تعیین کننده کارایی است. مقدار W متناسب با تعداد کل سند مجموعه است. بنابراین، پیچیدگی زمانی را می توان به صورت O(n) ساده کرد .

4. آزمایش ها و نتایج

4.1. منبع اطلاعات

مجموعه ای که ما در آزمایش خود استفاده کردیم شامل اخبار داخلی چین است که از ژوئن تا دسامبر 2014 از سینا نیوز [ 34 ] خزیده شده است. 700 سند در مجموعه وجود دارد و هر سند شامل 1 تا 29 نام مکان است. مقیاس مکان های فضایی اشاره شده از یک نقطه به استان متفاوت است.

دو مدل ردپای در پیش پردازش بر اساس این پیکره ساخته شده است. یکی از آن ها مدل کلی MBR سند سنتی است که با مختصات نام مکان های موجود که از gazetteer مشتق می شوند و به عنوان مرجع استفاده می شود، محاسبه می شود. مدل ردپای دیگر مدل مبتنی بر مجموعه نقطه است که ما پیشنهاد کردیم. برای آزمایش استحکام مدل ما در برخورد با سناریوهای مختلف، 50 پرس و جو از مقیاس های مختلف به طور خاص انتخاب شده اند که همه موقعیت های ممکن را در نظر می گیرند. برخی از پرس و جوها در جدول 1 فهرست شده اند .

4.2. شاخص

ما دقت، یادآوری، دقت متوسط ( AP )، میانگین دقت متوسط ( MAP ) و دقت R را انتخاب می‌کنیم که به عنوان معادلات (15)-(19) تعریف می‌شوند تا عملکرد مدل خود را ارزیابی کنیم. آزمایش‌های مبتنی بر مدل باینری MBR و مدل نسبت مساحت MBR به عنوان یک مقایسه عمل می‌کنند.

پ r e c i s i o n = آر آ آ

(15)

R e c a l l = آر آ آر

(16)

A P = ⎛ ⎝ ⎜ \sum i = 1 آر من r a n ک من ⎞ ⎠ ⎟ / ر

(17)

م A P = ⎛ ⎝ ⎜ \sum i = 1 س آ پ من ⎞ ⎠ ⎟ / س

(18)

R - P r e c i s i o n = ⎛ ⎝ ⎜ \sum i = 1 س پ من @ R ⎞ ⎠ ⎟ / س

(19)

در معادله (15) تا معادله (19)، R _a نشان دهنده اسنادی است که بازیابی شده و مرتبط هستند. A نشان دهنده اسنادی است که بازیابی می شوند. R نشان دهنده اسنادی است که مرتبط هستند. رتبه _i نشان دهنده رتبه سند مربوطه i در لیست نتایج است. Q تعداد پرس و جوها در یک دسته را نشان می دهد. و P _i @R نشان دهنده دقت زمانی است که تعداد اسناد بازیابی شده R باشد . معیارهایی با مقادیر بالاتر نشان دهنده عملکرد بهتر بازیابی ها هستند.

4.3. مقایسه عملکرد

با اعمال فرآیند نشان داده شده در شکل 7 ، ما نتایج بازیابی را به دست آوردیم که از آن منحنی Recall دقیق (PR) ( شکل 8 )، APs ( شکل 9 )، MAPs ( جدول 2 )، و هیستوگرام پرس و جو ( شکل 10 ) هستند. نشات گرفته.

منحنی PR مدل نقطه‌ای بالاترین است، که نشان می‌دهد مدل ردپای ما و الگوریتم ارزیابی به دقت بالاتری نسبت به مدل‌های MBR تحت نرخ‌های فراخوان یکسان دست می‌یابند. علاوه بر این، نرخ نزولی دقت مدل نقطه‌ای کم است، که نشان می‌دهد دقت متوسط بازده‌های عظیم قابل قبول است.

برای شکل 9 ، عملکرد الگوریتم ما برای اکثر پرس و جوها، مانند جستارهای 6-9 یا 24-28، که بر روی یک منطقه نسبتاً ریزدانه تمرکز دارند، مانند ناحیه لیچنگ در شهر کوانژو، استان فوجیان، بسیار بهتر است. پرس و جو 6) و دانشگاه نانچانگ (پرسمان 27) و به احتمال زیاد همراه با واحدهای اداری بالاتر مانند شهرها و استان ها ذکر می شوند. در آن صورت، برای این پرس‌وجوها، مکان‌های هدف در مدل سنتی MBR قرار خواهند گرفت. علاوه بر این، جستارهایی مانند جستارهای 9 (استان گوانگدونگ)، 16 (شهر مائومینگ استان گوانگژو)، 23 (منطقه خودمختار نینگ شیا)، و 29 (شهر لوئویانگ) مکان های درشتی هستند و از باتلاق موقعیت در MBR سنتی زنده خواهند ماند. مدل.

میانگین دقت الگوریتم ما برای 92.0٪ از پرس و جوها ظاهراً بالاتر از دو مدل دیگر است و MAP الگوریتم ما به 84.79٪ می رسد.

هیستوگرام های پرس و جو به عنوان دیفرانسیل R-Precision بین روش های مختلف تولید می شوند. هرچه ستون بالاتر باشد، الگوریتم ما در مقایسه با مدل های MBR عملکرد بهتری به دست می آورد. برای 84 درصد پرس و جوها، دقت R روش ما بسیار بالاتر است.

در نتیجه، همه این ارقام این ادعا را تایید می‌کنند که مدل و الگوریتم رتبه‌بندی که در این مقاله پیشنهاد کردیم، بهتر از مدل‌های MBR عمل می‌کند، به‌ویژه در برخورد با اسنادی که ردپای آن‌ها شامل مکان‌های ریز دانه یا مکان‌های سطوح سلسله مراتبی مختلف است. این ویژگی برای بازیابی اطلاعات جغرافیایی مبتنی بر وب با توجه به چند منبعی و کاراکترهای بدون ساختار اطلاعات آنلاین بسیار مناسب است. علاوه بر این، POI یک فرمت بسیار محبوب از اطلاعات جغرافیایی در منابع آنلاین است و ماهیت نقطه‌ای دارد.

5. نتیجه گیری ها

در این مقاله، ما یک روش جدید مبتنی بر مجموعه نقطه برای ایجاد ردپای برای اسناد و یک روش رتبه‌بندی فضایی بر اساس آن ساختار پیشنهاد می‌کنیم. مدل مبتنی بر مجموعه نقطه پیشنهاد شده، بدون افزونگی است و باتلاق مکان را غلبه می کند. با توجه به خاصیت پراکندگی نقاط مکانی، فراوانی نام مکان در یک سند را می توان به عنوان یک عامل وزن در نظر گرفت و ارزیابی را ناهمسانگرد و در نتیجه دقیق تر می کند. یکی از ارزش‌های کلیدی مدل این است که مدل می‌تواند داده‌های مقیاس مختلط را بدون بررسی رابطه توپولوژیکی، که به ندرت در کارهای مرتبط مورد مطالعه قرار می‌گیرد، نه توسط مدل کلی MBR و نه مدل مجموعه MBR، مورد بررسی قرار دهد. علاوه بر این، یک روش اجرایی کامل و همچنین بهینه سازی طرح ها بر اساس نمایه سازی geohash ارائه شده است. آزمایش ها انجام می شود، و نتایج نشان می‌دهد که (1) الگوریتم ما به دقت بالاتری نسبت به مدل‌های MBR تحت نرخ‌های فراخوان یکسان دست می‌یابد، و نرخ نزولی دقت آن بسیار پایین‌تر است، و اطمینان می‌دهد که دقت بازده‌های عظیم تضمین می‌شود. (2) دقت الگوریتم ما بسیار بالاتر از روش‌های MBR در هنگام برخورد با پرس و جوهای دقیق است، به این معنی که الگوریتم ما برای به دست آوردن اطلاعات دقیق مناسب‌تر خواهد بود. و (3)MAP الگوریتم ما به 84.79٪ می رسد، در حالی که MAP برای مدل های MBR به ترتیب 47.8٪ و 13.9٪ است. همه این ارقام نشان می دهد که الگوریتم ما در بیشتر موارد از روش های سنتی بهتر عمل می کند.

منابع

آمار و حقایق Google Places. در دسترس آنلاین: https://sites.google.com/a/pressatgoogle.com/googleplaces/metrics (در 7 ژوئیه 2014 قابل دسترسی است).
Neustar Localeze. مطالعه استفاده از جستجوی محلی در دسترس آنلاین: http://www.localsearchstudy.com/ (دسترسی در 7 ژوئیه 2014).
لارسون، RR بازیابی اطلاعات جغرافیایی و مرور فضایی. در GIS و کتابخانه ها: مراجعین، نقشه ها و اطلاعات مکانی . Smith, L., Gluck, M., Eds. Urbana-Champaign، دانشگاه ایلینوی: Champaign، IL، ایالات متحده آمریکا، 1995; صص 81-124. [ Google Scholar ]
جونز، CB; آلانی، ح. تودوپ، دی. بازیابی اطلاعات جغرافیایی با هستی شناسی مکان. در مجموعه مقالات کنفرانس در نظریه اطلاعات فضایی، Morro Bay، CA، ایالات متحده آمریکا، 19-23 سپتامبر 2001; صص 322-335.
پیترز، سی. کلاف، پی. Gey، FC ارزیابی بازیابی اطلاعات چند زبانه و چندوجهی ; Springer Science & Business Media: Medford، MA، ایالات متحده آمریکا، 2007. [ Google Scholar ]
گی، اف. لارسون، آر. ساندرسون، ام. جوهو، اچ. کلاف، پی. Petras, V. GeoCLEF: مروری بر مسیر بازیابی اطلاعات جغرافیایی بین زبانی CLEF 2005. در دسترسی به مخازن اطلاعات چند زبانه ؛ Perters, C., Gey, F., Gonzalo, J., Müller, H., Jones, GJF, Kluck, M., Magnini, B., de Rijke, M., Eds. Springer: برلین، آلمان، 2006; ص 908-919. [ Google Scholar ]
آزمایش‌های Guillén، R. CSUSM در GeoCLEF2005: وظایف یک‌زبانه و دو زبانه. در دسترسی به مخازن اطلاعات چند زبانه ؛ Perters, C., Gey, F., Gonzalo, J., Müller, H., Jones, GJF, Kluck, M., Magnini, B., de Rijke, M., Eds. Springer: برلین، آلمان، 2006; ص 956-962. [ Google Scholar ]
Kornai, A. ارزیابی بازیابی اطلاعات جغرافیایی ; Springer: برلین، آلمان، 2006. [ Google Scholar ]
لارسون، آر.آر. Frontiera, P. روش های رتبه بندی فضایی برای بازیابی اطلاعات جغرافیایی (GIR) در کتابخانه های دیجیتال. در نکات سخنرانی در علوم کامپیوتر 3232 ; Heery, R., Lyon, L., Eds.; Springer: برلین، آلمان، 2004; صص 45-57. [ Google Scholar ]
پیتر، سی. دیزلرز، تی. فرو، ن. گونزالو، جی. جونز، GJF; کوریمو، ام. ماندل، تی. نخود، A.; پتراس، وی. سیستم های ارزیابی برای دسترسی به اطلاعات چند زبانه و چندوجهی . Springer: برلین، آلمان، 2009. [ Google Scholar ]
مارتینز، بی. Calado, P. یادگیری رتبه بندی برای بازیابی اطلاعات جغرافیایی. در مجموعه مقالات ششمین کارگاه در مورد بازیابی اطلاعات جغرافیایی، زوریخ، سوئیس، 28-29 ژانویه 2010. ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2010. [ Google Scholar ]
پاپادیاس، دی. تئودوریدیس، ی. سلیس، تی. Egenhofer، MJ روابط توپولوژیکی در دنیای حداقل مستطیل های مرزی: مطالعه ای با درختان R. Acm Sigmod Rec. 2010 ، 24 ، 92-103. [ Google Scholar ] [ CrossRef ]
سالتون، جی. باکلی، سی. رویکردهای وزن دهی در بازیابی خودکار متن. Inf. روند. & مدیریت. 1988 ، 24 ، 513-523. [ Google Scholar ]
جونز، CB; عبدالموتی، هوش مصنوعی؛ فینچ، دی. فو، جی. Vaid, S. موتور جستجوی فضایی SPIRIT: معماری، هستی شناسی ها و نمایه سازی فضایی. لکت. یادداشت ها محاسبه. علمی 2004 ، 3234 ، 125-139. [ Google Scholar ]
Purves، RS; کلاف، پی. جونز، CB; آرامپاتزیس، ا. بوچر، بی. فینچ، دی. فو، جی. جوهو، اچ. سید، ع.ک. واید، اس. و همکاران طراحی و اجرای SPIRIT: یک موتور جستجوی فضایی برای بازیابی اطلاعات در اینترنت. بین المللی جی. جئوگر. Inf. علمی 2007 ، 21 ، 717-745. [ Google Scholar ] [ CrossRef ]
ژو، ی. Xie، X. وانگ، سی. گونگ، ی. Ma, W. ساختارهای فهرست ترکیبی برای جستجوی وب مبتنی بر مکان. در مجموعه مقالات چهاردهمین کنفرانس بین المللی ACM در مدیریت اطلاعات و دانش، برمن، آلمان، 31 اکتبر تا 5 نوامبر 2005. صص 155-162.
چن، ی. سوئل، تی. Markowetz، A. پردازش پرس و جو کارآمد در موتورهای جستجوی وب جغرافیایی. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD در مدیریت داده ها، شیکاگو، IL، ایالات متحده آمریکا، 27-29 ژوئن 2006. ص 277-288.
De Andrade، FG; باپتیستا، سی اس; دیویس، کالیفرنیا بهبود بازیابی اطلاعات جغرافیایی در زیرساخت های داده های مکانی. Geoinformatica 2014 ، 18 ، 793-818. [ Google Scholar ] [ CrossRef ]
دی ساباتا، اس. Reichenbacher, T. معیارهای ارتباط جغرافیایی: یک مطالعه تجربی. بین المللی جی. جئوگر. Inf. علمی 2013 ، 26 ، 1495-1520. [ Google Scholar ] [ CrossRef ]
رایشنباخر، تی. دی ساباتا، اس. Purves، RS; Fabrikant، SI ارزیابی ارتباط جغرافیایی برای جستجوی تلفن همراه: یک مدل محاسباتی و اعتبار سنجی آن از طریق جمع سپاری. J. Assoc. Inf. علمی تکنولوژی 2016 . [ Google Scholar ] [ CrossRef ]
دینگ، جی. گراوانو، ال. Shivakumar، N. محاسبات دامنه جغرافیایی منبع وب. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی پایگاه های داده بسیار بزرگ، قاهره، مصر، 10-14 سپتامبر 2000.
آمیتای، ای. هارئل، ن. سیوان، ر. Soffer، A. Web-a-where: برچسب گذاری جغرافیایی محتوای وب. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سالانه ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات، شفیلد، انگلستان، 25-29 ژوئیه 2004.
آدامز، بی. Janowicz، K. امضاهای موضوعی برای پاکسازی و غنی‌سازی داده‌های مرتبط مرتبط با مکان. بین المللی جی. جئوگر. Inf. علمی 2015 ، 29 ، 556-579. [ Google Scholar ] [ CrossRef ]
فرس، دی. رودریگز، اچ. ارزیابی رتبه‌بندی مجدد دانش جغرافیایی، پردازش زبانی و تکنیک‌های بسط پرس و جو برای بازیابی اطلاعات جغرافیایی. در پردازش رشته و بازیابی اطلاعات ، مجموعه مقالات بیست و دومین سمپوزیوم بین المللی، لندن، انگلستان، 1 تا 4 سپتامبر 2015. Iliopoulos, C., Puglisi, S., Yilmaz, E., Eds. صص 311-323.
نگوین، تی تی. Jung, JJ بهره برداری از منابع دارای برچسب جغرافیایی برای رتبه بندی فضایی با گسترش الگوریتم HITS. محاسبه کنید. علمی Inf. سیستم 2014 ، 12 ، 185-201. [ Google Scholar ]
آدامز، ب. یافتن مکان های مشابه با استفاده از مدل مکان مشاهده به تعمیم. جی. جئوگر. سیستم 2015 ، 17 ، 137-156. [ Google Scholar ] [ CrossRef ]
جیانگ، دی. ووسکی، جی. Leung، KW; یانگ، ال. Ng, W. SG-WSTD: چارچوبی برای کشف موضوع جستجوی وب جغرافیایی مقیاس پذیر. سیستم مبتنی بر دانش 2015 ، 84 ، 18-33. [ Google Scholar ] [ CrossRef ]
ریورا، اف ام؛ رویز، ام تی; گوزمام، جی. ایبارا، MM یک رویکرد یادگیری مشارکتی برای بازیابی اطلاعات جغرافیایی بر اساس شبکه های اجتماعی. محاسبه کنید. هوم رفتار 2015 ، 51 ، 829-842. [ Google Scholar ] [ CrossRef ]
موراتیدیس، ک. لی، جی. تانگ، ی. Mamoulis, N. جستجوی مشترک بر اساس مجاورت اجتماعی و فضایی. IEEE Trans. بدانید. مهندسی داده 2015 ، 27 ، 781-793. [ Google Scholar ] [ CrossRef ]
لیو، ی. یوان، ی. شیائو، دی. ژانگ، ی. Hu, J. تقریب مبتنی بر مجموعه نقطه برای اشیاء منطقه: مطالعه موردی نشان دادن محلات. محاسبه کنید. محیط زیست سیستم شهری 2010 ، 34 ، 28-39. [ Google Scholar ] [ CrossRef ]
Tobler, WR یک فیلم کامپیوتری شبیه سازی رشد شهری در منطقه دیترویت. اقتصاد Geogr. 1970 ، 46 ، 234-240. [ Google Scholar ] [ CrossRef ]
لیو، ی. سویی، ز. کانگ، سی. گائو، ی. کشف الگوهای سفر بین شهری و تعامل فضایی از داده های ورود به شبکه های اجتماعی. PLoS ONE 2014 ، 9 ، e86026. [ Google Scholar ] [ CrossRef ] [ PubMed ]
نکات و ترفندهای Neimeyer، G. Geohash. در دسترس آنلاین: http://geohash.org/site/tips.html (در 1 ژوئن 2016 قابل دسترسی است).
سینا نیوز. در دسترس آنلاین: http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml (در 1 ژانویه 2015 قابل دسترسی است).

شکل 1. افزونگی های فضایی ناشی از مدل MBR و مدل بدنه محدب. نقاط سیاه نشان دهنده مکان ها یا مناطق مربوطه است که با نام مکان ها در یک سند به آنها اشاره می شود.

شکل 2. نقشه طرح روابط فضایی بین پکن (مرکز شهر)، ناحیه هایدیان، ناحیه دونگ چنگ، دانشگاه پکن، موزه ملی و مرکز پکن.

شکل 3. نمونه ای از نام مکانی که اطلاعات منطقه آن را می توان از روزنامه ها بدست آورد.

شکل 4. ترسیم نقشه های سه سناریوی روابط منطقه ای. ( الف ) سناریوی 1: نقطه m و نقطه i به طور کامل حاوی یکدیگر نیستند. ( ب ) سناریوی 2: مساحت پیشنهاد شده توسط نقطه m شامل مساحت نقطه I است . ( ج ) سناریوی 3: محدوده جغرافیایی نقطه m در محدوده نقطه i قرار دارد .

شکل 5. رابطه بین حوزه های پرس و جو و سند با توجه به سه سناریو.

شکل 6. روش پیش فیلترینگ ژئوهش.

شکل 7. فرآیند کلی رتبه بندی فضایی مدل ردپای مبتنی بر مجموعه نقطه.

شکل 8. منحنی دقیق یادآوری سه مدل ردپای.

شکل 9. Aps سه مدل ردپای.

شکل 10. هیستوگرام پرس و جو از سه مدل ردپای.

جدول 1. نمونه هایی از پرس و جو.

جدول 2. نقشه های سه مدل ردپای.

© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب