از پورتال های جغرافیایی تا پورتال های دانش جغرافیایی

چکیده

ما کاربرد تحلیل معنایی پنهان (LSA) را در ترکیب با سیستم‌های توصیه‌گر ارائه می‌کنیم تا کشف در ژئوپورتال‌ها را افزایش دهیم. به عنوان مبنایی برای کشف، ابرداده های داده ها و خدمات مکانی و همچنین منابع غیرمکانی مانند اسناد و مقالات علمی ایجاد و به صورت (نیمه) خودکار در کاتالوگ ژئوپورتال ثبت می شود. پیوندهایی که در خود داده ها ذاتی نیستند بر اساس شباهت معنایی محتوای متنی آن با استفاده از LSA ایجاد می شوند. این منجر به گذار از داده های بدون ساختار به اطلاعات ساخت یافته (فراداده) می شود که به عنوان پایه ای برای تولید دانش عمل می کند. اطلاعات فراداده در یک سیستم توصیه ادغام می شود که یک لیست رتبه بندی را ارائه می دهد که (1) آنچه سایر کاربران مشاهده کرده اند و (2) منابع مرتبط کشف شده توسط گردش کار LSA در نتیجه را نشان می دهد. بر اساس این فرض که متون مشابه دارای وجوه مشترکی هستند و کاربران احتمالاً به آنچه سایر کاربران مشاهده کرده‌اند علاقه مند هستند، توصیه‌ها یک نتیجه جستجوی گسترده‌تر، اما همچنین دقیق‌تر ارائه می‌دهند. از یک طرف ، موتور توصیه کننده اطلاعات اضافی را در نظر می گیرد. از سوی دیگر، منابع را بر اساس تجربه کشف سایر کاربران و احتمال مرتبط بودن اسناد با یکدیگر رتبه بندی می کند. بلکه دقیق تر، نتیجه جستجو. از یک طرف ، موتور توصیه کننده اطلاعات اضافی را در نظر می گیرد. از سوی دیگر، منابع را بر اساس تجربه کشف سایر کاربران و احتمال مرتبط بودن اسناد با یکدیگر رتبه بندی می کند. بلکه دقیق تر، نتیجه جستجو. از یک طرف ، موتور توصیه کننده اطلاعات اضافی را در نظر می گیرد. از سوی دیگر، منابع را بر اساس تجربه کشف سایر کاربران و احتمال مرتبط بودن اسناد با یکدیگر رتبه بندی می کند.

کلید واژه ها:

تحلیل معنایی پنهان ; LSA ; توصیه کننده ; تطبیق ; شباهت

1. مقدمه

با ظهور دستگاه های هوشمند، محاسبات توزیع شده و سیار، و همچنین گسترش حوزه های کاربردی برای سیستم های اطلاعاتی، انتقال جامعه ما به یک جامعه اطلاعاتی مدت هاست کامل شده است. در سال 1997، IBM یک جامعه اطلاعاتی را به عنوان «جامعه‌ای که با سطح بالایی از شدت اطلاعات در زندگی روزمره اکثر شهروندان، در اکثر سازمان‌ها و محل‌های کاری مشخص می‌شود» با قابلیت «انتقال، دریافت و تبادل سریع داده‌های دیجیتال بین مکان‌ها بدون در نظر گرفتن موقعیت‌ها» پیش‌بینی کرد. فاصله» [ 1]. در جامعه ما، ایجاد، توزیع، دستکاری و تفسیر اطلاعات تا حد زیادی بر محیط های کاری و زندگی روزمره ما تأثیر می گذارد. نیازها و ایده های جدید منجر به توسعه سریع فناوری شده است که به ما کمک می کند تا سرعت، مقدار و دقت به دست آوردن آنچه که به خاک اقتصاد و زندگی ما تبدیل شده است را بهبود بخشیم: داده ها.

در این زمینه، یافتن داده‌های مرتبط در آن جهان دیجیتالی گسترده و روزافزون که در سال 2011 بیش از 1.8 زتابایت (1.8 × 1012 گیگابایت) موجود در 500 کوادریلیون فایل بود، به یک چالش بزرگ تبدیل شده است ^[ 2 ] . اگرچه تأیید نشده است، اما استفاده گسترده در ادبیات، و همچنین انواع فن‌آوری‌های جریان اصلی با استفاده از اطلاعات مکان، ثابت می‌کند که بیش از 80 درصد از کل داده‌ها دارای یک جزء فضایی هستند.

با این حال، این حجم زیاد داده تا زمانی که اطلاعات معنی‌داری از آن استخراج نشود، ارزش کمی دارد. همانطور که بلینگر [ 3 ] بیان می‌کند، داده‌ها به تنهایی «فقط یک نقطه بی‌معنی در فضا و زمان هستند، بدون اشاره به فضا یا زمان». برای به دست آوردن اطلاعات از موجودیت های داده های مسطح، لازم است آنها را در بافت یا روابط قرار دهیم ( شکل 1 را رجوع کنید ). اگر نه تنها روابط بین داده ها شناسایی شود، بلکه الگوها نیز بتوانند استخراج شوند و به طور مستقل مجدداً اعمال شوند، دانش تولید می شود. این امر از یک سو منجر به افزایش پیچیدگی و همچنین افزایش درک از سوی دیگر می شود.

شکل 1. از داده تا دانش.

در نظر گرفتن ابزار تبدیل موثر داده ها به اطلاعات و دانش به عنوان مبنایی برای تصمیم گیری برای بهینه سازی استفاده از داده ها [ 4 ]، به دلیل افزایش سریع مقادیر داده های تولید شده توسط انسان و همچنین سیستم های خودکار، مانند حسگرها، تبدیل به طور موثر داده ها به اطلاعات امروزه به یک چالش بزرگ برای افراد و مشاغل تبدیل شده است. با این حال، مشکل تنها استخراج ارزش مفید از داده ها و اطلاعات نیست، بلکه یافتن قطعاتی از اطلاعات است که در وهله اول مرتبط به نظر می رسد [ 4 ]. برای چالش برانگیزتر کردن همه چیز، 70 درصد از کل داده ها در جهان دیجیتال ساختاری ندارند [ 5 ]] و اغلب بدون یک زمینه هنوز مهم که امکان کشف معنادار را فراهم می کند. مثال‌هایی برای چنین داده‌های بدون ساختار عبارتند از ایمیل‌ها، اسناد متنی، ارائه‌ها، تصاویر، ویدئوها و هر داده دیگری که همراه با ابرداده ارائه نشده است، اما برای داده‌های مکانی نیز صادق است.

بنابراین، رشد مقادیر داده‌های بدون ساختار، مکانیسم‌ها و الگوریتم‌های جستجو را به چالش می‌کشد، که برای تخلیه کاربران در جستجوی اطلاعات مرتبط طراحی شده‌اند. طبق نظر کروزیه [ 6 ]، اضافه بار اطلاعات، روش‌های فیلتر متنی از دست رفته در استخرهای اطلاعات غیرمرتبط، و همچنین موتورهای جستجویی که فهرست نتایج مسطح را بر اساس جستارهای ساده کلیدواژه ایجاد می‌کنند، اثرات منفی بر کارایی و بهره‌وری دارند.

در این زمینه، یک وظیفه مهم کاهش درصد داده های بدون ساختار با توسعه روش های جدید برای کشف است که چالش ساختاردهی موجودیت های داده های مسطح را برطرف می کند. به گفته کروزیه [ 6 ]، دو رویکرد متفاوت برای توسعه ظرفیت معنایی در سیستم‌های اطلاعاتی وجود دارد: «اول، رویکرد پایین به بالا مشکل‌ساز است، زیرا فرض می‌کند ابرداده‌ها به هر بخش از محتوا اضافه می‌شود تا اطلاعات بیشتری در مورد آن درج شود. متن نوشته. […] دوم، رویکرد از بالا به پایین ممکن است موفقیت بیشتری برای بقیه داده ها داشته باشد، زیرا بر توسعه قابلیت های خودکار حاشیه نویسی متن مبتنی بر زبان طبیعی تمرکز دارد.

ما تطبیق متن معنایی را در ترکیب با توصیه‌ها به عنوان راه‌حلی برای غلبه بر چالش‌ها در کشف اطلاعات در حوزه زیرساخت‌های داده‌های مکانی (SDI) در نظر می‌گیریم. در ساده ترین شکل، تطبیق متن معنایی به ارتباط دو نهاد یا متن می پردازد. در حالی که تطبیق متن معنایی برای اسناد حاوی متن به خوبی کار می‌کند، می‌توان آن را برای ابرداده‌های ساخت‌یافته نیز اعمال کرد، در نتیجه رویکردهای از پایین به بالا و از بالا به پایین کروزیه را مخلوط کرد [ 6 ]]، ضمن افزایش قابلیت های بازیابی اطلاعات از طریق استخراج اطلاعات و ترویج کشف دانش محتوای ساختاریافته. این تکنیک‌ها نه تنها در فرآیندهای کشف فعال (“چه می‌خواهم بدانم؟”)، بلکه در فرآیندهای توصیه غیرفعال نیز استفاده می‌شوند (“بر اساس آنچه می‌خواهم بدانم، احتمالاً من نیز می‌خواهم بدانم که…”) . این امر با چالش عمده موتورهای جستجو که بر روی حجم وسیعی از داده ها کار می کنند، مواجه می شود، و اغلب انجام جستجو در مورد چیزهایی که هنوز از وجود آنها اطلاعی ندارند را برای کاربران دشوار می کند.

2. پورتال های فضایی

در بسیاری از محیط‌های اطلاعاتی، مانند زیرساخت‌های داده‌های مکانی (SDI)، به اصطلاح پورتال‌ها به دروازه‌های مهمی به‌عنوان نقاط واحد برای دسترسی به مجموعه‌های اطلاعاتی شرکت‌ها، سازمان‌ها یا سرمایه‌گذاری‌های مشترک تبدیل شده‌اند. پورتال وب سایتی است که به عنوان پل نهایی و مهمی عمل می کند که کاربران و محتوا را گرد هم می آورد [ 7 ]. این یک پلت فرم مرکزی برای کشف، انتشار، دسترسی و به اشتراک گذاری اطلاعات و دانش است [ 8 ]. در حالی که نمونه های رایج مانند گوگل یا بینگ نیز ممکن است به عنوان پورتال در نظر گرفته شوند، در حوزه جغرافیایی، اصطلاحات “پرتال فضایی” یا “ژئوپورتال” وجود داشت. بنابراین، یک ژئوپورتال واسطه اطلاعاتی بین منابع مکانی و کاربران بالقوه آنها است [ 8]. با این حال، عامل حیاتی برای سودمندی و پذیرش نهایی یک پورتال، تهیه منابع مرتبط است که بتوان آن را به صورت ساختاریافته و مستند جستجو کرد. در هر محیطی، پورتالی که منابع مستند کمی ارائه می‌کند یا بدون آن است، هیچ مزیتی از نظر بازیابی اطلاعات و استخراج دانش ارائه نمی‌کند [ 4 ].

SDIهای جدید از ابرداده های قابل خواندن توسط کامپیوتر و ساختار XML برای اهداف کشف استفاده می کنند. متادیتا – که اغلب از استانداردهای تایید شده پیروی می کند تا از قابلیت همکاری و مقایسه اطمینان حاصل شود – باید توسط صاحبان منابع به صورت دستی وارد شود. عناصر تا حدی از اطلاعات ساختاریافته تشکیل شده اند، اما برخی از عناصر، مانند چکیده ها یا اصل و نسب، متن آزاد بدون ساختار هستند [ 9 ]. خود سوابق فراداده در پایگاه داده های مرکزی یا توزیع شده نگهداری می شوند که به اصطلاح کاتالوگ ها را تشکیل می دهند [ 10 ]. به عنوان ثبت منابع، آنها به عنوان واسطه بین کاربران و ارائه دهندگان عمل می کنند. در یک مکانیسم اکتشاف اساسی، جستجوهای مبتنی بر کلیدواژه کاربران به صورت نحوی با کلمات موجود در فایل‌های فراداده مطابقت داده می‌شوند [ 9 ]]. فقط ابرداده‌هایی که دقیقاً حاوی کلمات کلیدی وارد شده توسط کاربر هستند بازگردانده می‌شوند. در کنار جستجوی مبتنی بر کلمه کلیدی، ابرهای برچسب، لیست های تکمیل خودکار محتوا، و همچنین فیلترهای مکانی (جعبه محدود) و زمانی بیشتر در رابط های جستجوی امروزی در SDI اعمال می شوند [ 11 ]. با این حال، روش‌های جستجوی مبتنی بر کلمه کلیدی، چالش‌هایی را نشان می‌دهند که سعی می‌شود از طریق در نظر گرفتن اصطلاحنامه‌ها، طبقه‌بندی‌ها و هستی‌شناسی‌ها برطرف شوند [ 12 ، 13 ]. در مقابل این رویکردها، ما از توصیه‌هایی در ترکیب با روش‌های تطبیق متن معنایی برای غلبه بر این چالش‌ها استفاده می‌کنیم.

از آنجایی که یک ژئوپورتال باید نیازهای کاربران را برآورده کند، ما ساختار اساسی ژئوپورتال را برای پروژه FP7 اتحادیه اروپا EnerGEO (ر.ک. شکل 2 ) بر اساس پارادایم طراحی وظیفه محور، همانطور که توسط Scholz و Mittlböck [ 14 ] توضیح داده شد، ساختیم. بنابراین برای کاربردها و همچنین برای کشف با اصل “یک سوال-یک پاسخ” مطابقت دارد. این به این معنی است که استفاده از یک پورتال باید آسان باشد و اطلاعات معنادار و نه فقط داده های ساده را در اختیار کاربران قرار دهد. علاوه بر این، به عنوان نشان دهنده مفهوم تطبیق متن معنایی و توصیه های ارائه شده در این مقاله است.

شکل 2. ژئوپورتال EnerGEO.

در این زمینه، روش‌های جستجو با ابزارهای تطبیق معنایی که به بهره‌برداری از مقادیر زیادی از داده‌های بدون ساختار با آشکار ساختن ساختارهای معنایی [ 6 ] کمک می‌کنند و راه را از پورتال‌های داده تطبیق کلمه کلیدی ساده به پورتال‌های دانش زمینه‌ای هدایت می‌کنند، تقویت شدند. روش‌های جستجوی هوشمند، روابط پنهان بین ساختارهای معنایی با معنای مشابه را مطابقت داده و کشف می‌کنند و محتوای خام را با داده‌ها و منابع اطلاعاتی قابل اعتماد پیوند می‌دهند [ 6 ]. چنین «سرویس‌های غنی‌سازی محتوا» [ 6 ] قادر به پیشنهاد کلمات کلیدی، استخراج موضوعات و موجودیت‌ها و انجام سایر اشکال طبقه‌بندی خودکار، مانند تجزیه و تحلیل احساسات هستند.

3. روشهای تطبیق معنایی متن

به منظور ایجاد پیوند بین منابع در یک ژئوپورتال، الگوریتم های تشابه معنایی باید اعمال شود. در ادامه تنها زیرمجموعه کوچکی از رایج ترین و برجسته ترین روش های تطبیق معنایی متن در ادبیات ارائه و ارزیابی می شود. برای مرور کامل‌تر الگوریتم‌های تطبیق متن معنایی، به اسلام و Inkpen و Mihalcea و همکاران مراجعه می‌کنیم. [ 15 ، 16 ].

3.1. بررسی اجمالی روش

مدل فضای برداری (VSM) یکی از ساده ترین روش ها برای محاسبه شباهت معنایی است. VSM به طور خودکار دانش را استخراج می کند و بنابراین، در مقایسه با سایر رویکردهای معنایی، مانند هستی شناسی، به کار دستی کمتری نیاز دارد [ 17 ]. VSM بر اساس تطابق دقیق عباراتی است که در اسناد یافت می شود. متن ها را برای اندازه گیری فواصل بین آنها به بردارهای n بعدی تبدیل می کند. به عنوان اندازه گیری فاصله، کسینوس زاویه بین دو بردار در بیشتر موارد استفاده می شود. نتیجه یک مقدار شباهت از 0 تا 1 است، که در آن 1 نشان دهنده تطابق دقیق/بالا بین عبارت ها و 0 نشان دهنده عدم وجود تطابق است. این بدان معناست که هر چه مقدار کسینوس بالاتر باشد، احتمال برابری دو جمله بیشتر است.

با این حال، این واقعیت که این روش صرفاً مبتنی بر تطابق دقیق کلمات است، مشکلاتی مانند مترادف و چند معنایی را ایجاد می کند. مترادف با کلمات مختلف با معنی یکسان سروکار دارد. به عنوان مثال، ماشین و خودرو مترادف هستند که در VSM برابر نیستند. این می تواند منجر به یادآوری ضعیف شود، به این معنی که همه منابع اطلاعاتی مرتبط کشف نمی شوند. چند معنایی به کلماتی اطلاق می شود که بیش از یک معنی متمایز داشته باشند. به عنوان مثال، اصطلاح «مدل» می‌تواند نمایشی مقیاس‌بندی شده از یک شی دنیای واقعی، شخصی که برای نمایش کالاهای لباس یا یک نوع طراحی از یک ماشین به کار می‌رود. این می تواند منجر به دقت ضعیف شود، به این معنی که “دقت” بازیابی برای کاربر کافی نیست، زیرا تعداد زیادی از نتایج جستجو را دریافت می کند که به سوالاتی که مطرح کرده مربوط نمی شود.

برای کاهش اشکالات VSM، دومایس و همکاران. [ 18 ] تجزیه و تحلیل معنایی پنهان (LSA)، یک روش مقایسه متنی آماری مبتنی بر پیکره را ارائه کرد. در سراسر ادبیات، گاهی اوقات به عنوان نمایه سازی معنایی پنهان (LSI) نیز شناخته می شود، که عمدتاً در زمینه بازیابی اطلاعات استفاده می شود، در حالی که LSA در سایر حوزه های کاربردی استفاده می شود [ 19 ]. فرآیند یادگیری کلماتی که به یکدیگر مرتبط هستند بر اساس هم‌روی آماری آن‌ها با هم در یک زمینه است [ 20 ].

LSA روشی برای تجزیه و تحلیل اسناد بدون نظارت است. بدون نظارت به این معنی است که هیچ ورودی مستقیم انسانی برای انجام تجزیه و تحلیل مورد نیاز نیست. Wiemer-Hastings [ 21 ] ادعا می کند که LSA حتی قادر به یادگیری کلمات با سرعتی مشابه انسان است. لاندوئر و همکاران [ 22 ] ثابت کرد که LSA قادر است سطح دانش دانش آموزان را با بررسی مقالات کوتاهی که آنها نوشته اند تخمین بزند. نتایج نشان می دهد که تفاوت کمی بین قضات انسانی و مدل وجود دارد. این به این واقعیت مربوط می شود که معنای متن را فقط می توان با کلمات حمل کرد [ 22]. بر خلاف انسان، LSA برای استخراج معنای اساسی ذخیره شده در اسناد نیازی به ترتیب کلمات یا نحو ندارد. اصل کلیدی LSA این است که از هیچ منبع ایجاد شده دستی مانند اصطلاحنامه یا فرهنگ لغت استفاده نمی کند. القای دانش در مورد معانی اسناد و کلمات تنها به مقادیر زیادی از متون بستگی دارد [ 23 ]. LSA فرض می کند که معنای یک متن را می توان به عنوان مجموع معنای کلمات آن استخراج کرد [ 24 ].

LSA از یک ماتریس سند مدت وزنی استفاده می کند که از مجموعه بزرگی از اسناد ایجاد می شود. برای اهداف وزن دهی یا تبدیل، می توان از چندین صورت فلکی استفاده کرد. اگرچه tf-idf (فرکانس معکوس فرکانس سند) و log-entropy رایج ترین روش ها هستند. به طور کلی. 20 ترکیب مختلف از طرح های وزن دهی محلی و جهانی وجود دارد [ 25 ]. در روش وزن‌دهی tf-idf، عباراتی که کمتر اتفاق می‌افتند، برای منعکس‌کننده اهمیت نسبی آن‌ها، وزن بالایی دارند [ 24 ]. استفاده از وزن لگ آنتروپی تأثیر کلماتی را که در طیف گسترده ای از زمینه ها رخ می دهند کاهش می دهد [ 21 ]. هدف از تحول، کشف روابط بین کلمات و استفاده از چنین روابطی برای توصیف اسناد است.

LSA از تجزیه ارزش واحد برای کاهش ابعاد استفاده می کند. در طول فشرده سازی، اطلاعات معنایی نهفته (~”پنهان”) در خود پیکره ضبط می شود. در مقابل VSM، مفاهیم را به جای کلمات استخراج می کند.

به طور خلاصه، LSA شامل چهار مرحله است: (1) ایجاد یک ماتریس سند اصطلاح از مجموعه متون، (2) استفاده از یک تبدیل (به عنوان مثال، tf-idf، log-انتروپی)، (3) کاهش ابعاد. با استفاده از تجزیه ارزش منفرد (SVD) و (4) بازیابی در فضای کاهش یافته توسط شباهت کسینوس.

اگرچه برای مجموعه های بزرگی از متون ایجاد شد، ترزی و همکاران. [ 26 ] LSA را یک معیار تشابه پیشرفته برای مقایسه متون کوتاه، مانند نظرات یا چکیده‌های کاربر، در نظر می‌گیرند که هر دوی آنها را می‌توان در ژئوپورتال‌ها نیز یافت. با این حال ترزی و همکاران. [ 26 ] فکر می کنم که LSA در مورد بررسی های کوتاه تولید شده توسط کاربر در سیستم های توصیه کننده عملکرد ضعیفی دارد. از آنجایی که LSA از هیچ اطلاعات نحوی استفاده نمی کند، برای متون طولانی تر از چکیده های بسیار کوتاه که فقط از دو یا سه جمله تشکیل شده اند مناسب تر است [ 15 ]. این به ویژه برای اطلاعات پر سر و صدا و بدون ساختار که حاوی اشتباهات املایی است صادق است [ 26]. این نقص همچنین به این واقعیت مربوط می شود که ممکن است همزمانی کلمه در متون کوتاه نادر باشد [ 27 ]. برخلاف منابع مکانی، اسناد حاوی URL فایل یک نسخه چکیده کوتاه و همچنین متن کامل سند را ارائه می دهند. بنابراین، یک چالش این است که اطلاعات با طول های مختلف با استفاده از LSA در تحقیقات ما مقایسه می شود.

در کنار LSA، اطلاعات متقابل نقطه‌ای در ترکیب با تکنیک‌های بازیابی اطلاعات (PMI-IR) [ 28 ] یک روش تطبیق متن معنایی رایج است. این یک معیار نظارت نشده است که مبتنی بر تکرار همزمان کلمات است، مانند LSA [ 16 ]. از مجموعه بزرگی از داده های آماری جمع آوری شده توسط فرآیندهای بازیابی اطلاعات (IR) از وب استفاده می کند [ 16 ، 28 ].

علاوه بر LSA و PMI-IR، گابریلوویچ و مارکوویچ [ 29 ] تحلیل معنایی صریح (ESA) را به عنوان روشی برای تحلیل شباهت در متون پیشنهاد کردند. از ویکی‌پدیا به عنوان پایگاه دانش برای استخراج مجموعه‌های از پیش تعیین‌شده مفاهیم طبیعی استفاده می‌کند [ 29 ]. ESA برای هر متن یک بردار ویژگی ایجاد می کند. هر ویژگی مربوط به یک مقاله ویکی پدیا است. میزان ارتباط هر کلمه با کلمات استفاده شده در ویکی پدیا را تعیین می کند. ESA را می توان به عنوان “صریح” در نظر گرفت، زیرا از دسته بندی های خارجی که از ویکی پدیا می آیند استفاده می کند، برخلاف LSA که از موضوعات پنهان استفاده می کند [ 30 ]. گابریلوویچ و مارکوویچ [ 29 ] بیان می کنند که مزیت ESA این است که می تواند از “دانش انسانی رمزگذاری شده در ویکی پدیا” استفاده کند.

تخصیص دیریکله پنهان (LDA) [ 31 ] فرض می کند که هر سند ترکیبی از موضوعات پنهان است [ 20 ]. L’Huillier و همکاران. [ 32 ] بیان می کند که “[…] هر موضوع به عنوان توزیع احتمال بر روی مجموعه ای از کلمات نشان داده شده توسط واژگان و هر سند به عنوان توزیع احتمال بر روی مجموعه ای از موضوعات مدل سازی می شود.” همانطور که از این بیانیه مشاهده می شود، تمرکز LDA بر مدل سازی موضوع است تا معنای کلمات [ 20 ]. برخلاف LSA، LDA از یک پس‌زمینه احتمالی به جای SVD استفاده می‌کند [ 33 ]. بلی و همکاران [ 31] LDA را یک مدل ساده و بنابراین رقیبی برای LSA در آینده در نظر بگیرید.

رویکردهای جدیدتر روش های تطبیق متن معنایی شامل STASIS، STS و OMIOTIS است. STASIS [ 27 ] اطلاعات پایگاه داده واژگانی، WordNet را به منظور محاسبه شباهت بین متون [ 26 ] می گیرد. STS [ 15 ] از شباهت رشته در ترکیب با شباهت کلمه مبتنی بر پیکره در متون کوتاهتر استفاده می کند [ 26 ]. این یک نسخه اصلاح شده از الگوریتم تطبیق رشته طولانی ترین زیر دنباله مشترک (LCS) است [ 15 ]، که با یافتن طولانی ترین زیر دنباله مشترک از دو دنباله سر و کار دارد. تفاوت اصلی با سایر رویکردها این است که اسلام و اینکپن [ 15 ] بر شباهت بین دو جمله یا پاراگراف کوتاه تمرکز دارند، اما نه متون کامل. OMIOTIS [ 34] یک معیار کلمه به کلمه را گسترش می دهد تا بتواند با متون برخورد کند و پیوندهایی بین مفاهیم از WordNet برقرار کند [ 26 ]. برای اهداف وزن دهی، از طول مسیر معنایی، عمق گره در سلسله مراتب اصطلاحنامه و انواع یال های معنایی که مسیر را تشکیل می دهند استفاده می کند [ 35 ].

3.2. مقایسه روش‌های تطبیق معنایی متن

در سرتاسر ادبیات، ما از هیچ گونه ارزیابی همه جانبه ای از همه روش های ارائه شده قبلی آگاه نیستیم. با این حال، چند مقاله علمی وجود دارد که برخی از این روش ها را در زمینه های خاص مقایسه می کند. به عنوان مثال، Ramage و همکاران. [ 36 ] توانایی یک روش فضای برداری n گرم مبتنی بر کلمه کلیدی و LSA را برای مدل‌سازی قضاوت‌های انسانی ارزیابی کرد. مدل LSA با قضاوت های انسانی با همبستگی 0.6 مطابقت داشت [ 36 ]. PMI-IR، به عنوان یکی دیگر از اعضای تکنیک های مبتنی بر پیکره، تقریباً همان نتایج LSA را ایجاد می کند [ 16 ، 37 ]. در برخی موارد، مانند آزمون انگلیسی به عنوان یک زبان خارجی (TOEFL)، PMI-IR 10 درصد نتایج بهتری نسبت به LSA به دست آورد [ 28 ].]. با این حال، Turney [ 28 ] بیان می کند که این ممکن است به دلیل این واقعیت باشد که مقادیر متفاوتی از داده ها در تجزیه و تحلیل ها استفاده شده است. تسارونیس و همکاران [ 35 ] نشان داد که روش آنها، OMIOTIS، بهترین عملکرد را با مایکروسافت Paraphrase Corpus [ 38 ] داشت. OMIOTIS [ 34 ] در مقایسه با LSA، STASIS [ 27 ] و STS [ 15 ] بالاترین همبستگی اسپیرمن (0.8905 = p ) را داشت، با LSA دارای دومین همبستگی اسپیرمن ( 0.8714 = p ) در مقایسه با انسان [ 35 ].

Mohler و Mihalcea [ 39 ] کشف کردند که یک پیکره کوچک و دامنه خاص بهتر از یک مجموعه عمومی، مانند نمونه ای که از ویکی پدیا آمده است، عمل می کند. در آن صورت، LSA ( r = 0.4628) همبستگی پیرسون را بالاتر از ESA نشان می دهد ( r = 0.4385). بنابراین، برای LSA، کیفیت متون مهمتر از کمیت آنها است [ 39 ]. برای اطلاعات مربوط به دامنه، LSA بهتر از ESA عمل می کند، در حالی که ESA برای مجموعه های عمومی مناسب تر است [ 39 ]. Cimiano و همکاران [ 33 ] نشان داد که LSA بهتر از LDA عمل می کند، مهم نیست که LSA بر روی اسناد دامنه خاص یا یک منبع عمومی مانند ویکی پدیا آموزش دیده باشد.

از آنجایی که ما عمدتاً با اطلاعات مرتبط با انرژی در EnerGEO سروکار داریم، و تمام نتایج دیگری که در ادبیات کشف کردیم نشان داد که LSA در مقایسه با انسان‌ها یکی از بهترین الگوریتم‌ها است، ما LSA را به عنوان مناسب‌ترین روش برای محاسبه شباهت معنایی متون انتخاب کردیم.

4. رویکردهای توصیه

فروشگاه‌های آنلاین، مانند Amazon.com، توصیه‌هایی را در WWW ایجاد کرده‌اند تا «اقلام» مرتبطی را ارائه دهند، که ممکن است مشتریان آنها هنگام جستجوی یک کالای خاص به آن فکر نکرده باشند. خود توصیه ها بر اساس محاسبات تعاملات کاربر در فرآیندهای پس زمینه است. به طور کلی، یک موتور توصیه، آنچه را که سایر کاربران مشاهده کرده اند، خریداری کرده یا با «ردیابی» کلیک های کاربر رتبه بندی می کنند، در نظر می گیرد. در زمینه فروشگاه های آنلاین، “اقلام” کتاب یا سی دی هستند. در حوزه SDI، ما محتوای مکانی (بردار، شطرنجی و سرویس) و همچنین محتوای غیرمکانی مانند مقالات علمی یا گزارش‌های پروژه را پیشنهاد می‌کنیم تا بخشی از یک موتور توصیه‌گر باشند و اطلاعاتی را برای پایان کاربران به منظور کمک به آنها در کسب دانش خود.

سیستم های توصیه گر از انواع مختلفی از الگوریتم ها برای محاسبه توصیه ها استفاده می کنند. برای مثال، رویکردهای فیلتر مشارکتی [ 40 ] از تعاملات قبلی کاربر با موارد برای ارائه توصیه‌هایی به کاربر استفاده می‌کنند. آنها به مقدار زیادی اطلاعات و کاربران نیاز دارند تا بتوانند ترجیحات کاربر را در مقایسه با سایر کاربران پیش بینی کنند. فیلتر مبتنی بر محتوا [ 41 ] بر اساس جلسات قبلی یک کاربر و نمایه کاربر است. بنابراین، برای ارائه توصیه های مفید به تعداد کمتری از کاربران نیاز دارد.

برای ادغام موتورهای توصیه در ژئوپورتال ها، ما یک قیاس ایجاد کردیم تا مفاهیم مختلف را به هم مرتبط کنیم. شکل 3گردش کار یک تعامل معمولی کاربر در ژئوپورتال را نشان می دهد. کاربر یک جستجو را انجام می دهد، لیستی از نتایج را بازیابی می کند و با آنها تعامل دارد. بنابراین، وظیفه “یافتن” اطلاعات و نگاه کردن به یک نتیجه واحد در یک ژئوپورتال را می توان یک اقدام “نما” در نظر گرفت، در حالی که “استفاده از” یک منبع (مانند نگاهی به پیش نمایش) با یک “مشاهده” مرتبط است. اقدام خرید» در موتور توصیه‌گر. «رتبه‌بندی» هم در دنیای SDI و هم در فروشگاه‌های آنلاین وجود دارد. یکی دیگر از جنبه‌های مهم در سیستم‌های توصیه‌گر، به اصطلاح قابلیت عقب‌نشینی است. این بدان معناست که اگر کاربر روی نتایج توصیه کلیک کند، این تعامل به موتور توصیه‌گر نیز ارسال می‌شود و نشان می‌دهد که توصیه‌های ارائه شده واقعا مفید بوده‌اند.

شکل 3. گردش کار پیشنهاد تعامل کاربر.

از آنجایی که با وضعیتی روبرو هستیم که دامنه فضایی و ژئوپورتال‌ها به اندازه فروشگاه‌های آنلاین دارای تعداد کاربران نیستند، پیشنهاد می‌کنیم مفهوم توصیه‌ها را بر اساس تعاملات کاربر با نتایج تطبیق متن معنایی به عنوان ورودی اضافی برای محاسبه توصیه‌ها گسترش دهیم. بنابراین، معماری پیشنهادی شامل دو جزء متقابل برای ارائه توصیه‌های معنادار است: (1) “ردیابی” تعاملات کاربر در ژئوپورتال و (2) “تطبیق متن معنایی” (همچنین به شکل 4 مراجعه کنید ).

شکل 4. دو مؤلفه متقابل برای ارائه توصیه ها.

5. اجرا

ما مفاهیم یکپارچه سازی ابزارهای استخراج خودکار فراداده، الگوریتم های تطبیق متن معنایی و سیستم های توصیه گر را در ژئوپورتال EnerGEO پیاده سازی کردیم. ژئوپورتال EnerGEO یک پورتال فضایی است که حاوی منابع اطلاعاتی از حوزه انرژی است. بخش های اصلی سیستم پیشنهادی در زیر ارائه شده است.

5.1. چارچوب ژئوپورتال

یک ژئوپورتال به عنوان چارچوبی برای رویکرد یکپارچه سازی ابزارهای تطبیق متن معنایی و همچنین توصیه ها عمل می کند. یک مثال برای چنین چارچوبی، سرور جغرافیایی ESRI [ 42 ] است، یک پیاده‌سازی منبع باز از یک سرویس کاتالوگ با یک رابط کاربری بسیار قابل تنظیم. پورتال ESRI مدیریت منابع فضایی و غیر مکانی و همچنین مکانیسم های اکتشاف اساسی بر اساس شاخص لوسن را امکان پذیر می کند. با استفاده از چارچوب JavaServer Faces (JSF)، ژئوپورتال ESRI امکان ادغام مکانیسم‌های کشف پیشرفته را با استفاده از جاوا اسکریپت فراهم می‌کند. طرح‌بندی سرور ژئوپورتال استاندارد را می‌توان با استفاده از چارچوب Apache Struts Tiles تطبیق داد، جایی که یک صفحه برنامه وب به قطعاتی تقسیم می‌شود که در زمان اجرا در صفحه کامل مونتاژ می‌شوند [ 43 ]]. سرور ژئوپورتال مبنای تکنولوژیکی برای ژئوپورتال EnerGEO و افزونه های بعدی است که در این مقاله ارائه شده است.

5.2. ابزار استخراج متادیتا (نیمه) خودکار

به عنوان مبنایی برای تطبیق شباهت معنایی متون، محتوای فراداده استاندارد و ساختاریافته مورد نیاز است. از آنجایی که کاربران در ژئوپورتال‌ها معمولاً تمایل داشتند تنها چند مجموعه داده یا خدمات را وارد کنند، اگر مجبور بودند ورودی‌های خود را به صورت دستی ایجاد کنند، یک ابزار استخراج ابرداده (نیمه) خودکار ایجاد شد. این ابزار اطلاعات مربوطه را نه تنها از منابع مکانی، بلکه از اسنادی مانند مقالات علمی استخراج می کند. بنابراین، داده های بدون ساختار را به عنوان مبنایی برای تولید دانش به محتوای ساختاریافته تبدیل می کند ( شکل 5 ).

شکل 5. دایره دانش.

ابزار فعلی به زبان برنامه نویسی پایتون نوشته شده است و استخراج اطلاعات از فرمت های اسناد قابل حمل (pdf)، اسناد Microsoft Word (doc، docx) و اسناد متنی (txt) را ممکن می سازد. برای پشتیبانی از اسناد pdf، از کتابخانه اضافی پایتون، gfx [ 44 ] استفاده می کنیم. برای سایر انواع اسناد، ما از ماژول های استاندارد پایتون به همراه win32com [ 45 ] استفاده می کنیم. اگر اسناد قبلاً با ابرداده (مانند نویسنده، چکیده یا تاریخ ایجاد) برچسب گذاری شده باشند، این اطلاعات استخراج شده و در یک سند XML استاندارد Dublin Core (DC) ادغام می شود.

برای منابع مکانی، از استانداردهای ابرداده زیر استفاده می شود: ISO 19110 (کاتالوگ ویژگی)، ISO 19115، ISO 19119 و ISO 19139. در حال حاضر، ابرداده از همه فرمت های داده های برداری و شطرنجی، و همچنین خدمات ESRI ArcGIS، به صورت خودکار قابل استخراج است. توسط ماژول ArcGIS Python، ArcPy. این بر اساس ابرداده مدیریت شده در ESRI ArcCatalog است. از جمله این پوشه‌ها می‌توان به پوشه‌هایی اشاره کرد که حاوی Shapefiles، کلاس‌های ویژگی (File Geodatabase، Personal Geodatabase)، کلاس‌های ویژگی SDE، فایل‌های GRID و TIFF هستند. این ابزار امکان کسر خودکار جعبه‌های محدود، فهرست‌های ویژگی ویژگی‌ها (ISO 19110)، پیوند خودکار اسناد ISO 19115 و ISO 19110، خلاصه‌ها (در صورت وجود در توضیحات مورد ArcGIS)، کلمات کلیدی (در صورت وجود) و مسیر یا پیوند به مجموعه داده یا سرویس فضایی واقعی.

پس از استخراج فراداده، اطلاعات ساختاریافته به طور خودکار در ژئوپورتال ثبت می شود (همچنین به شکل 6 مراجعه کنید ). ما از رابط استاندارد OGC CSW (Catalogue Service Web 2.0.2) برای آپلود/ثبت خودکار اطلاعات استفاده می کنیم. کل فرآیند به‌عنوان نیمه خودکار در نظر گرفته می‌شود، زیرا نمی‌تواند تمام اطلاعاتی را که برای اجرای استانداردهای ISO و همچنین نمایه فراداده کامل EnerGEO به‌طور خودکار مورد نیاز است، استخراج کند. در مورد اطلاعات با کیفیت، کاربر باید داده ها را به صورت دستی وارد کند. در مورد اطلاعات متنی غیر مکانی، برخی از محتواها (مثلاً اصطلاحات) ممکن است با مشاهده فراوانی کلمات در ترکیب با فرهنگ لغات کلمات رایج استخراج شوند. در ابزار استخراج ابرداده ژئوپورتال EnerGEO، ماژول پایتون، Topia Termextract [46 ]، بنابراین استفاده می شود.

شکل 6. گردش کار استخراج ابرداده (نیمه) خودکار.

قرار دادن منابع در قالب های استاندارد شده مزایای زیادی را ارائه می دهد. از یک طرف، محتوا را شفاف و قابل تعویض بین مجموعه های مختلف ابرداده می کند. از سوی دیگر، بخش هایی را ارائه می دهد که می توانند با یکدیگر مقایسه شوند. به عنوان مثال، چکیده اسناد را می توان با چکیده منابع مکانی یا اطلاعات کیفیت داده یک مورد با همان نوع اطلاعات مورد دیگر مطابقت داد. این می تواند برای پیوند دادن منابع مختلف استفاده شود.

5.3. ابزار تطبیق متن معنایی

برای ابزار نرم افزار تطبیق متن معنایی، ما از ماژول های پایتون gensim و simserver [ 47 ] استفاده می کنیم. دلیل انتخاب این دو ماژول عمدتاً به دلیل عملکرد رویکرد است. بیشتر محاسبات در RAM کامپیوتر انجام می شود. [ 48 ] بیان می کند که ایجاد مدل LSA برای ویکی پدیای انگلیسی کامل تقریباً چهار ساعت در مک بوک پرو (Intel Core i7 2.3 گیگاهرتز، 16 گیگابایت رم DDR3، OS X) طول کشید. بنابراین، gensim قادر است حدود 16000 سند در دقیقه (شامل تمام ورودی/خروجی) را پردازش کند [ 48 ]. شکل 7اجرای کلی روش تطبیق متن شباهت معنایی را نشان می دهد. با مجموعه ای از اسناد (به اصطلاح پیکره) شروع می شود که باید به یک نمایش برداری تبدیل شوند. اسناد هم شامل اطلاعات ساختاری (مثلاً ابرداده های مکانی برای سرویس های وب) و هم اطلاعات غیرساختار یافته (مثلاً مقالات علمی) می شوند. در کار ما، فرآیندهای بعدی که باید اعمال شوند برای همه نوع اطلاعات یکسان هستند.

شکل 7. گردش کار تطبیق شباهت معنایی متون.

قبل از این، فرآیندی به نام توکن سازی مورد نیاز است. این بدان معنی است که یک متن کامل به کلمات واحد یا مفاهیم معنی دار تقسیم می شود. همچنین برای حذف کلمات متداول مانند مقالات یا حروف اضافه با استفاده از لیستی از کلمات توقف مفید است. خود بردار از طریق تکنیک های مختلف ایجاد می شود. یکی از ساده ترین آنها روش به اصطلاح “کیف کلمات” است. از جفت پرسش و پاسخ تشکیل شده است. به عنوان مثال، سؤال: “کلمه … چند بار در سند ظاهر می شود؟” می توان با “دو بار” پاسخ داد. پس از آن، به هر کلمه یک شناسه و همچنین شمارش اختصاص داده می شود. می توان فرض کرد که اگر اعداد در دو بردار مشابه باشند، اسناد نیز احتمالاً مشابه هستند، زیرا سؤالات برای هر مدرک یکسان است.

نتیجه مرحله قبل یک فضای برداری n بعدی است. برای انتقال یک بردار به بردار دیگر، تبدیلی مانند tf-idf یا log-entropy باید اعمال شود. بر اساس مقدار اسناد در نظر گرفته شده برای محاسبه، از tf-idf یا log-entropy توسط ابزار استفاده می شود. همانطور که قبلاً بیان شد، هدف از تبدیل، کشف روابط معنایی بین کلمات و استفاده از آنها برای توصیف اسناد است. تبدیل گاهی اوقات به عنوان “آموزش اسناد” نیز شناخته می شود. برای اهداف آموزشی، می توان از اسنادی که نیاز به مقایسه با یکدیگر دارند یا مجموعه ای از اسناد رایج که مثلاً از ویکی پدیا آمده است استفاده کرد. در محدوده این کار، فقط از مدارک ثبت شده در ژئوپورتال برای آموزش استفاده شد. این به این دلیل است که منابع مورد استفاده محدود به حوزه انرژی است،33 ].

تجزیه مقدار منفرد (SVD) پس از آن فضای برداری n بعدی را به ابعاد کمتر کاهش می دهد. این امر برای کشف ساختار معنایی اسناد با بررسی الگوهای آماری هم‌روی کلمات، در مجموعه‌ای از اسناد آموزشی ضروری است [ 47 ]. این منجر به افتادن اصطلاحات مشابه در یک بعد می شود. به عنوان آخرین مرحله قبل از اعمال معیار تشابه کسینوس، اسنادی که از کاتالوگ می آیند نمایه می شوند. در نهایت، مقدار تشابه کسینوس نشان می‌دهد که آیا تطابق دقیق/بالا (1) بین دو بردار وجود دارد یا اصلاً مطابقت (0) وجود دارد، با درجات احتمالی در بین.

5.4. سیستم توصیه کننده

به عنوان یک سیستم توصیه‌کننده، ما محصول نرم‌افزار منبع باز، easyrec [ 49 ] را پیاده‌سازی کردیم. Easyrec مانند سرور جئوپورتال ESRI یک سرور جاوا است. easyrec عمدتا بر دو الگوریتم استوار است: الگوریتم Apriori R [ 50 ] و SlopeOne [ 51 ]. هر دو مبنای تحلیلگر سبد خرید به نام “Association Rule Miner (ARM)” هستند. Apriori یک الگوریتم یادگیری برای ارتباط قوانین بین موارد خاص است. SlopeOne عضوی از تکنیک های فیلتر مشارکتی مبتنی بر آیتم است. روش‌های فیلتر مشارکتی ترجیحات کاربران را بر اساس رفتار سایر کاربران پیش‌بینی می‌کنند.

easyrec بین سه روش مختلف تعامل با کاربر تمایز قائل می‌شود: «مشاهده»، «خرید» و «نرخ». در اجرای easyrec در سرور جغرافیایی ESRI، کلیک‌ها بر روی لیست نتایج جستجو مبتنی بر آپاچی لوسن (عملیات “یافتن” در دامنه SDI) به عنوان اقدامات مشاهده در نظر گرفته می‌شوند ( شکل 3 ) . نگاه دقیق‌تر به سند فراداده کامل، و همچنین هرگونه پیش‌نمایش یا دانلود («استفاده») از یک منبع، اقدام خرید در نظر گرفته می‌شود. با کلیک بر روی دکمه های “شست بالا” یا “شست پایین”، فرض می شود که اقدامات رتبه بندی هستند. شرح دقیق‌تری از الگوریتم‌های استفاده شده توسط easyrec و پیاده‌سازی آن برای ثبت کلیک‌های کاربر در قالب اقدامات «مشاهده»، «خرید» و «نرخ» در سرور ژئوپورتال ESRI در Vockner et al.[ 11 ].

مزیت اصلی استفاده از easyrec در زمینه الگوریتم های تطبیق متن معنایی این است که API را ارائه می دهد که قادر به دریافت ورودی اضافی برای تولید قانون است. مقادیر تطبیق متن دو منبع محاسبه شده توسط ابزار ما به مقادیر درصد تبدیل شده و به سرور easyrec ارسال می شود. در آنجا از آنها برای محاسبه توصیه ها استفاده می شود.

6. نتایج

نتیجه اجرای نهایی ترکیبی از دو بخش ارائه شده در فصل های قبلی است. شکل 8لیست نتایج موتور توصیه یکپارچه شده در صفحه جستجوی ژئوپورتال EnerGEO را در قالب یک چرخ فلک تصویر نشان می دهد. اگر کاربر روی یک مورد در لیست نتایج در سمت راست (1) کلیک کند، توصیه های مرتبط با این مورد در بخش زیر (2) ارائه شده است. همانطور که قبلاً ذکر شد، توصیه ها بر محاسبات تعاملات کاربر و همچنین درصد انطباق بین منابع به دست آمده از ابزار تطبیق متن معنایی متکی هستند. پیوندهای بین منابع مختلف فضایی و غیرمکانی حوزه انرژی مبتنی بر اطلاعات فراداده ساختاری است که به صورت دستی وارد شده یا به طور خودکار استخراج می شود. ابزار استخراج خودکار محتوا به مسئله داشتن حجم عظیمی از داده ها در فرم های بدون ساختار که حاوی اطلاعات ارزشمند است، می پردازد.

از آنجایی که درصد تطابق بین بخش‌های فراداده متنی (مثلاً چکیده‌ها) برای ایجاد پیوند بین منابع غیرمرتبط استفاده می‌شود، روش جدیدی برای کشف منابع به ژئوپورتال EnerGEO اضافه شد.

شکل 8. اکتشاف پیشرفته با توصیه در ژئوپورتال EnerGEO.

7. چشم انداز و بحث

فعالیت های تحقیقاتی مداوم به بهبود کشف اطلاعات در پورتال های جغرافیایی اختصاص یافته است [ 9 ، 13 ، 52 ، 53]. رویکردهای مختلف از اصطلاحنامه ها و هستی شناسی ها استفاده می کنند. در رویکرد ما، ما استفاده از الگوریتم‌های تطبیق متن معنایی را در ترکیب با سیستم‌های توصیه‌کننده برای غلبه بر مشکلات ناشی از معانی و کاربردهای مختلف اصطلاحات، به‌ویژه به دلیل پیش‌زمینه‌های علمی ناهمگون گروه‌های کاربری در حوزه انرژی، پیشنهاد می‌کنیم. ابزار تطبیق متن معنایی در ترکیب با سیستم توصیه‌کننده، easyrec، یک راه‌حل مستقل برای جایگزینی یک جستجوی کلی مبتنی بر کلیدواژه نیست، بلکه رویکردی برای ارائه نتایج مرتب‌شده اضافی بر اساس شباهت آنها و زمینه‌های دیگر کاربران است. برای اعتبارسنجی رویکرد خود، این مؤلفه‌ها را در ژئوپورتال EnerGEO پیاده‌سازی کردیم. داده های ورودی حاوی منابع انرژی در قالب های مکانی و غیر مکانی است.

تمام کارهای مرتبطی که کشف کردیم یا بر توسعه الگوریتم‌های جدید یا کاربرد این الگوریتم‌ها در سایر حوزه‌های علمی متمرکز بود. در حوزه زیرساخت‌های داده‌های مکانی و ژئوپورتال‌ها، ما هیچ پیاده‌سازی از روش تطبیق متن مبتنی بر برداری برای بهبود کشف اطلاعات نمی‌شناسیم. بنابراین، ما کارهای مرتبطی را که در رشته های مختلف علمی یافت می شود در ادامه ارائه می دهیم.

کارهای مرتبط، مانند Omiotis [ 34 ] که از حوزه کتابشناسی آمده است، از معیاری مبتنی بر اصطلاحنامه برای ارتباط متن استفاده می کند. این در درجه اول توسعه VSM با اصطلاحنامه WordNet است. با این حال، در مورد این مقاله، WordNet ممکن است VSM را چندان بهبود نبخشد، زیرا اساساً برای داده‌های مرتبط با انرژی ساخته نشده است. بنابراین، ترجیح ما LSA است.

با این وجود، ما رویکرد فعلی را با اصطلاحنامه ها یا هستی شناسی ها گسترش می دهیم. برای دومی، Ankolekar و همکاران. [ 54 ] بیان می کند که بسط معیارهای تشابه متن با هستی شناسی ها ممکن است به مسائلی منجر شود، به عنوان مثال، دانش معنایی رمزگذاری شده در هستی شناسی ها با مفاهیم مهم برای طبقه بندی متن مطابقت ندارد. سوال دیگر این است که چگونه می توان مفهوم نسبتاً دقیق هستی شناسی ها را در رویکرد تطبیق متن معنایی فازی که توسط ما استفاده می شود، ادغام کرد.

Mihalcea و همکاران [ 16 ] روشی را برای معیارهای پیکره محور و دانش محور تشابه متن معنایی ارائه می دهد. مخصوصاً برای متون کوتاه مناسب است. در مقایسه با معیارهای تشابه مبتنی بر برداری، آزمایش‌ها نشان می‌دهند که روش آن‌ها میزان خطا را تا 13 درصد کاهش می‌دهد [ 16 ]]. تمرکز این مقاله بر توسعه یا بهبود خود الگوریتم‌های تطبیق متن معنایی نیست، بلکه بر روی کاربرد الگوریتم‌ها به منظور نشان دادن امکانات تطبیق متن معنایی به عنوان ابزاری برای تولید دانش از اطلاعات از طریق پیوند دادن منابع است. بنابراین، مناسب ترین راه حل برای استفاده ما، یعنی LSA، انتخاب شد تا در ژئوپورتال EnerGEO به عنوان اولین گام پیاده سازی شود. در مراحل بعدی پیاده‌سازی، الگوریتم‌هایی که برای متون نسبتاً کوتاه مناسب‌تر هستند، استفاده و ارزیابی خواهند شد.

مزیت اصلی کاربرد LSA این است که مشکل بازیابی اطلاعات بین زبانی را که در صورتی رخ می دهد که عبارت های جستجو به زبانی متفاوت از زبان منبع باشد، برطرف می کند. از آنجایی که تمام اسناد و ترجمه‌ها به بردار تبدیل می‌شوند، می‌توان آنها را با استفاده از پسوند تخصصی به نام Cross-Language LSA (CL-LSA) مقایسه کرد [ 23 ]. Cimiano و همکاران [ 33 ] الگوریتم های تطبیق متن بین زبانی را در زبان انگلیسی و فرانسوی ارزیابی کرده اند. همانطور که قبلاً ارائه شد، نتایج آنها نشان می دهد که ESA بهتر از LSA یا LDA عمل می کند، به جز برای اسناد آموزشی خاص دامنه، مانند مورد ما [ 33 ]]. LSA به وضوح نسبت به LDA و ESA برتری دارد زمانی که بر روی خود اسناد بازیابی آموزش داده شود [ 33 ].

یک اشکال احتمالی روش پیشنهادی این است که توصیه‌ها ممکن است با انتظارات کاربران مطابقت نداشته باشند. مسائلی که باعث این امر می شود معمولاً تعداد کمی از کاربران یا مقادیر کمی از منابع ثبت شده در کاتالوگ است. اولین مسئله به این واقعیت مربوط می شود که یک سیستم توصیه گر بر اساس اقدامات کاربر برای محاسبه قوانین توصیه ها است. اگر فقط مقدار کمی از منابع وجود داشته باشد، موارد بسیار کمی برای ارائه توصیه به کاربران وجود دارد. در آن صورت، لیست توصیه ها خالی می ماند که منجر به نارضایتی کاربر می شود.

علاوه بر این، کاربران ممکن است توصیه‌های نامناسبی را دریافت کنند که از دامنه‌هایی غیر از پورتال اختصاصی دامنه ایجاد شده باشد. از آنجایی که توصیه‌ها بر اساس مواردی که سایر کاربران کلیک کرده‌اند محاسبه می‌شوند، علایق ممکن است متفاوت باشد.

مسئله دیگری ممکن است در هنگام داشتن متون با طول های مختلف ایجاد شود. در متون بسیار کوتاه تطبیق فقط بر اساس چند کلمه امکان پذیر است. هرچه متون طولانی تر باشند، الگوریتم ها بهتر می توانند برای استخراج اسناد مرتبط استفاده شوند.

برای تأیید کیفیت تطابق متن در توصیه‌ها، از مکانیسم‌های عقب‌گرد تعاملات کاربر در فهرست توصیه‌ها در نگاه اول استفاده می‌کنیم. بر اساس تجربه [ 16 ، 33 ، 35 ، 37 ، 39 ]، ما مناسب بودن الگوریتم LSA را در مورد نیازهای خاص خود برای مقایسه محتوای معنایی فراداده کشف کردیم. علاوه بر این، آزمایش‌های مختلف کاربر را برای ارزیابی کیفیت کشف و توصیه‌ها انجام دادیم. توصیه ها نتایج امیدوارکننده ای را برای گروه کارشناسان داخلی ما نشان داد. این نتیجه ما را تشویق می‌کند تا با آزمایش‌های تجربه کاربری پیشرفته به عنوان گام تحقیقاتی بعدی شروع کنیم.

از این رو، یک نظرسنجی انجام خواهد شد، که در آن تجربه کاربران با ترکیب LSA و سیستم‌های توصیه‌کننده در Geoportals به صورت کمی ارزیابی می‌شود و از ابزارهای تجزیه و تحلیل وب پیشرفته، مانند Piwik [ 55 ] و تجزیه و تحلیل ردیابی ماوس (مثلا ایجاد ماوس) استفاده می‌کند. -نقشه حرارتی اشاره گر). این آزمون با یک نظرسنجی آنلاین همراه خواهد بود که تجربه کیفی کاربران را جویا می شود.

8. نتیجه گیری

به عنوان نتیجه اصلی کار ارائه شده، ما ادغام الگوریتم‌های تطبیق متن معنایی و سیستم‌های توصیه‌کننده را برای افزایش کیفیت کشف ابرداده و تجربه کاربر در ژئوپورتال‌ها پیشنهاد می‌کنیم. بنابراین، ما ابزاری را برای استخراج ابرداده (نیمه) خودکار از محتوای مکانی و غیر مکانی برای تولید دانش آگاه از مکان توسعه دادیم. فراداده ساختاریافته و استاندارد شده به عنوان ورودی برای تطبیق متن معنایی محتوا با استفاده از LSA عمل می کند. با این رویکرد جدید، می‌توان به طور خودکار پیوندهایی بین منابعی ایجاد کرد که قبلاً به یکدیگر مرتبط نبودند. این پیوندهای ایجاد شده از نظر کمی با استفاده از توصیه هایی در مورد شباهت متنی متون ارائه شده اند. علاوه بر این، تعاملات کاربر در رابط اکتشاف geoportal تجزیه و تحلیل شده، رتبه‌بندی توصیه‌ها را بیشتر می‌کند. بدین ترتیب، ژئوپورتال FP7 اتحادیه اروپا EnerGEO نتایج تحقیقات ما را به عنوان اثبات مفهوم نشان می دهد. این نتایج کشفی را ارائه می‌کند که ذاتی خود داده نیستند، بلکه به شکل شباهت متنی و آنچه سایر کاربران مشاهده کرده‌اند، از زمینه مشتق شده‌اند.

منابع

Rouse, M. جامعه اطلاعاتی. واژه نامه استانداردهای فناوری اطلاعات و سازمان ها . در دسترس آنلاین: http://whatis.techtarget.com/definition/Information-Society (در 19 ژانویه 2013 قابل دسترسی است).
گانتز، جی. Reinsel, D. استخراج ارزش از آشوب . در دسترس آنلاین: http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf (در تاریخ 17 ژانویه 2011 قابل دسترسی است).
بلینگر، جی. مدیریت دانش – دیدگاه های نوظهور . در دسترس آنلاین: http://www.systems-thinking.org/kmgmt/kmgmt.htm (در 11 ژانویه 2013 قابل دسترسی است).
ریشتر، الف. زیرساخت‌های اطلاعات فضایی و دانش سازمانی – مفاهیم و فناوری‌ها برای تجارت نفت و گاز با استفاده از مثال OMV. پایان نامه کارشناسی ارشد، دانشگاه سالزبورگ، سالزبورگ، اتریش، 2012. [ Google Scholar ]
SAS. تجزیه و تحلیل متن – هوش متنی . در دسترس آنلاین: http://www.eu.gov.hk/sc_chi/cmps/files/cmps_20100125_1210_sas.pdf (در 1 مه 2012 قابل دسترسی است).
Croisier, S. ظهور کاربردهای معنایی آگاه. در فن آوری های معنایی در سیستم های مدیریت محتوا ; Maass, W., Kowatsch, T., Eds. Springer: برلین، آلمان، 2012; صص 23-33. [ Google Scholar ]
تانگ، دبلیو. سلوود، جی . پورتال های فضایی. دروازه های اطلاعات جغرافیایی ; ESRI Press: Redlands، CA، USA، 2005. [ Google Scholar ]
تانگ، دبلیو. سلوود، جی . پورتال های فضایی. افزودن ارزش به زیرساخت های داده های مکانی در دسترس به صورت آنلاین: http://www.isprs.org/proceedings/XXXVI/4-W6/papers/35-40WinnieTang-A022.pdf (در 21 ژوئیه 2012 قابل دسترسی است).
فوگازا، سی. لوراشی، گ. نمایه‌سازی معناشناسی منابع جغرافیایی بر اساس اصطلاحنامه‌های چندزبانه: روش‌شناسی و نتایج اولیه. بین المللی جی. اسپات. زیرساخت داده Res. 2012 ، 7 ، 16-37. [ Google Scholar ]
اسمیت، کامپیوتر; فریس کریستنسن، الف. کشف منبع در زیرساخت داده های فضایی اروپا. IEEE Trans. بدانید. مهندسی داده 2007 ، 19 ، 85-95. [ Google Scholar ] [ CrossRef ]
وکنر، بی. بلژیک، م. Mittlböck، M. افزایش کشف مبتنی بر توصیه در Geoportals. بین المللی جی. اسپات. زیرساخت داده Res. 2012 ، 7 ، 441-463. [ Google Scholar ]
Latre، MA; هوفر، بی. لاکاستا، جی. Nogueras-Iso، J. توسعه و پیوند واژگان خشکسالی در زیرساخت کاتالوگ قابل همکاری EuroGEOSS. بین المللی جی. اسپات. زیرساخت داده Res. 2012 ، 7 ، 225-248. [ Google Scholar ]
یانوویچ، ک. شوارتز، ام. Wilkes, M. پیاده‌سازی و ارزیابی یک رابط کاربری مبتنی بر معناشناسی برای روزنامه‌های وب. در مجموعه مقالات رابط های بصری به وب اجتماعی و معنایی (VISSW 2009) کارگاه در ارتباط با کنفرانس بین المللی رابط های کاربری هوشمند (IUI 2009)، جزیره Sanibel، FL، ایالات متحده، 8-11 فوریه 2009.
شولز، جی. Mittlböck، M. تجسم فضایی-زمانی نتایج شبیه‌سازی با استفاده از استعاره طراحی مبتنی بر کاشی مبتنی بر وظیفه. در نقشه برداری خدمات گرا 2012 ; جابست، ام.، اد. Jobsstmedia Management Verlag: وین، اتریش، 2012; صص 369-382. [ Google Scholar ]
اسلام، ع. Inkpen، D. شباهت متن معنایی با استفاده از شباهت کلمه مبتنی بر پیکره و شباهت رشته. ACM Trans. بدانید. کشف کنید. داده 2008 ، 2 ، 1-25. [ Google Scholar ] [ CrossRef ]
Mihalcea، R. کورلی، سی. Strapparava، C. معیارهای مبتنی بر پیکره و دانش مبتنی بر تشابه معنایی متن. در مجموعه مقالات بیست و یکمین کنفرانس ملی هوش مصنوعی، بوستون، MA، ایالات متحده آمریکا، 16-20 ژوئیه 2006; جلد 1، ص 775–780.
Turney، PD; پانتل، پ. از فرکانس تا معنا: مدل‌های فضای برداری معناشناسی. جی آرتیف. بین المللی Res. 2010 ، 37 ، 141-188. [ Google Scholar ]
دومایس، ST; Furnas، GW; Landauer، TK; دیروستر، اس. هارشمن، آر. استفاده از تحلیل معنایی پنهان برای بهبود دسترسی به اطلاعات متنی. در مجموعه مقالات کنفرانس SIGCHI در مورد عوامل انسانی در سیستم های محاسباتی، واشنگتن، دی سی، ایالات متحده آمریکا، 15-19 مه 1988; ص 281-285.
دیروستر، اس. دومایس، اس. لاندوئر، تی. فرناس، جی. هارشمن، آر. نمایه سازی با تحلیل معنایی نهفته. مربا. Soc. Inf. علمی 1990 ، 41 ، 391-407. [ Google Scholar ] [ CrossRef ]
ماس، ا. دالی، آر. فام، پی. هوانگ، دی. نگ، ا. پاتس، سی. یادگیری بردارهای کلمه برای تحلیل احساسات. در مجموعه مقالات چهل و نهمین نشست سالانه انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی، پورتلند، OR، ایالات متحده آمریکا، 19 تا 24 ژوئن 2011. صص 142-150.
Wiemer-Hastings، P. تحلیل معنایی پنهان چقدر پنهان است؟ در مجموعه مقالات شانزدهمین کنفرانس مشترک بین المللی هوش مصنوعی، استکهلم، سوئد، 31 ژوئیه تا 6 اوت 1999. جلد 2، ص 932–937.
لاندوئر، تی. لهام، دی. رهدر، بی. Schreiner, ME چقدر خوب می‌توان بدون استفاده از ترتیب کلمات، معنای گذر را استخراج کرد. در مجموعه مقالات نوزدهمین نشست سالانه انجمن علوم شناختی، پالو آلتو، کالیفرنیا، ایالات متحده آمریکا، 7 تا 10 اوت 1997.
دومایس، اس. تحلیل معنایی پنهان. آنو. Rev. Inf. علمی تکنولوژی 2004 ، 38 ، 188-230. [ Google Scholar ] [ CrossRef ]
ویسیجوسکی، جی. زیولکو، بی. استخراج دانش معنایی از ویکی پدیا. در سیستم های اطلاعاتی هوشمند: رویکردهای جدید . کلوپوتک، MA، ویرایش. انتشارات دانشگاه Podlasie: Podlasie، لهستان، 2011; ص 91-98. [ Google Scholar ]
ناکوف، پ. پوپووا، آ. Mateev، P. تاثیر توابع وزن بر عملکرد LSA. در مجموعه مقالات کنفرانس یورو پیشرفت های اخیر در پردازش زبان طبیعی (RANLP’01)، Tzigov Chark، بلغارستان، 5-7 سپتامبر 2001. ص 187-193.
ترزی، م. فراریو، M.-A. Whittle, J. متن رایگان در نظرات کاربران: نقش آنها در سیستم های توصیه کننده. در مجموعه مقالات سومین کارگاه ACM RecSys’10 در مورد سیستم های توصیه کننده و وب اجتماعی، شیکاگو، IL، ایالات متحده، 23-27 اکتبر 2011. ص 45-48.
لی، ی. مک لین، دی. بندر، ز. اوشی، جی. Crockett, K. شباهت جمله بر اساس شبکه های معنایی و آمار پیکره. IEEE Trans. بدانید. مهندسی داده 2006 ، 18 ، 1138-1150. [ Google Scholar ] [ CrossRef ]
Turney، PD Mining the Web for Synonyms: PMI-IR در مقابل LSA در تافل. در مجموعه مقالات دوازدهمین کنفرانس اروپایی در مورد یادگیری ماشین، فرایبورگ، آلمان، 5-7 سپتامبر 2001. صص 491-502.
گابریلوویچ، ای. مارکوویچ، اس. محاسبه رابطه معنایی با استفاده از تحلیل معنایی صریح مبتنی بر ویکی‌پدیا. در مجموعه مقالات بیستمین کنفرانس مشترک بین المللی در زمینه هوش مصنوعی، هیدرآباد، هند، 6 تا 12 ژانویه 2007. صفحات 1606-1611.
سورگ، پ. Cimiano، P. بازیابی اطلاعات بین زبانی با تحلیل معنایی صریح. در مجموعه مقالات یادداشت های کاری برای کارگاه آموزشی CLEF 2008، آرهوس، دانمارک، 17-19 سپتامبر 2008.
Blei، DM; Ng، AY؛ جردن، MI تخصیص دیریکله نهفته. جی. ماخ. فرا گرفتن. Res. 2003 ، 3 ، 993-1022. [ Google Scholar ]
L’Huillier، G. هیویا، ا. وبر، آر. Ríos، SA تحلیل معنایی پنهان و استخراج کلمات کلیدی برای طبقه‌بندی فیشینگ. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2010 در زمینه اطلاعات و انفورماتیک امنیتی (ISI)، ونکوور، BC، کانادا، 23-26 مه 2010. صص 129-131.
Cimiano، P. شولتز، آ. سیزوف، اس. سورگ، پ. Staab، S. مدل های مفهومی آشکار در مقابل پنهان برای بازیابی اطلاعات بین زبانی. در مجموعه مقالات بیست و یکمین کنفرانس مشترک بین المللی در زمینه هوش مصنوعی، پاسادنا، کالیفرنیا، ایالات متحده آمریکا، 11 تا 17 ژوئیه 2009; صص 1513-1518.
تساتسارونیس، جی. وارلامیس، آی. وزیرگیانیس، م. Norvag، K. Omiotis: سنجشی مبتنی بر اصطلاحنامه برای ارتباط متن. در مجموعه مقالات کنفرانس اروپایی یادگیری ماشین و کشف دانش در پایگاه‌های داده: بخش دوم، بلد، اسلوونی، 7 تا 11 سپتامبر 2009. صص 742-745.
تساتسارونیس، جی. وارلامیس، آی. وزیرگیانیس، م. ارتباط متن بر اساس اصطلاحنامه واژه. جی آرتیف. بین المللی Res. 2010 ، 37 ، 1-40. [ Google Scholar ]
لی، دکتر Pincombe، BM; ولز، MB ارزیابی تجربی مدل‌های تشابه سند متنی. در مجموعه مقالات کنفرانس سالانه XXVII انجمن علوم شناختی، Stresa، ایتالیا، 21-23 ژوئیه 2005. صص 1254-1259.
راماژ، دی. رافرتی، AN; منینگ، سی دی پیاده روی تصادفی برای تشابه معنایی متن. در مجموعه مقالات کارگاه 2009 در مورد روشهای مبتنی بر نمودار برای پردازش زبان طبیعی، Suntec، سنگاپور، 7 اوت 2009; ص 23-31.
دولان، بی. کویرک، سی. Brockett, C. ساخت و ساز بدون نظارت مجموعه های پارافراسی بزرگ: بهره برداری گسترده از منابع خبری موازی. در مجموعه مقالات بیستمین کنفرانس بین المللی زبان شناسی محاسباتی، ژنو، سوئیس، 23 تا 27 اوت 2004. پ. 350.
مولر، ام. Mihalcea, R. تشابه معنایی متن به متن برای درجه بندی خودکار پاسخ های کوتاه. در مجموعه مقالات دوازدهمین کنفرانس فصل اروپایی انجمن زبانشناسی محاسباتی، آتن، یونان، 20 مارس تا 3 آوریل 2009. صص 567-575.
رسنیک، پی. یاکوو، ن. سوچاک، م. برگستروم، پی. Riedl, J. GroupLens: یک معماری باز برای فیلتر مشارکتی نت نیوز. در مجموعه مقالات کنفرانس ACM 1994 در مورد کار تعاونی با پشتیبانی رایانه، چپل هیل، NC، ایالات متحده، 22 تا 26 اکتبر 1994. صص 175-186.
Pazzani, MJ چارچوبی برای فیلتر مشارکتی، مبتنی بر محتوا و جمعیت شناختی. آرتیف. هوشمند Rev. 1999 , 13 , 393-408. [ Google Scholar ] [ CrossRef ]
سرور ژئوپورتال ESRI . در دسترس آنلاین: http://www.esri.com/software/arcgis/geoportal (در 16 مارس 2013 قابل دسترسی است).
بنیاد نرم افزار آپاچی کاشی آپاچی در دسترس آنلاین: http://tiles.apache.org (در 20 اوت 2012 قابل دسترسی است).
gfx . در دسترس آنلاین: http://www.swftools.org/gfx_tutorial.html (دسترسی در 10 سپتامبر 2012).
Win32com . در دسترس آنلاین: http://starship.python.net/~skippy/win32/Downloads.html (در 10 سپتامبر 2012 قابل دسترسی است).
Topia Termextract . در دسترس آنلاین: http://pypi.python.org/pypi/topia.termextract/ (در 12 سپتامبر 2012 قابل دسترسی است).
ریورک، آر. Sojka، P. چارچوب نرم افزاری برای مدل سازی موضوع با شرکت های بزرگ. در مجموعه مقالات کارگاه آموزشی LREC 2010 در مورد چالش های جدید برای چارچوب های NLP، والتا، مالت، 17-23 می 2010. صص 45-50.
Rehurek, R. آزمایش‌هایی با ویکی‌پدیای انگلیسی . در دسترس آنلاین: http://radimrehurek.com/gensim/wiki.html (دسترسی در 15 فوریه 2013).
آسان رک . در دسترس آنلاین: http://www.easyrec.org (دسترسی در 15 مارس 2012).
آگراوال، آر. Srikant، R. الگوریتم های سریع برای قوانین انجمن معدن در پایگاه های داده بزرگ. در مجموعه مقالات بیستمین کنفرانس بین المللی پایگاه های داده بسیار بزرگ، سانتیاگو دی شیلی، شیلی، 12 تا 15 سپتامبر 1994. ص 487-499.
لمیر، دی. Maclachlan، A. Slope One Predictors برای فیلترینگ مشارکتی مبتنی بر رتبه بندی آنلاین. در مجموعه مقالات کنفرانس بین المللی SIAM 2005 در مورد داده کاوی (SDM’05)، نیوپورت بیچ، کالیفرنیا، ایالات متحده آمریکا، 21-23 آوریل 2007.
آبرگوز، سی. گرانل، سی. دیاز، ال. هوئرتا، جی. Beltran، A. کشف داده های جغرافیایی تولید شده توسط کاربر با استفاده از موتورهای جستجوی وب. در پیشرفت در علوم زمین و سنجش از دور ؛ Jedlovec, G., Ed. InTech: Rijeka، کرواسی، 2009. [ Google Scholar ]
پرلمن، جی. کراگلیا، ام. برتراند، اف. ناتیوی، س. گیگالاس، جی. دوبوا، جی. نیمایر، اس. فریتز، S. EuroGEOSS: یک رویکرد بین رشته ای به تحقیقات و کاربردها برای جنگلداری، تنوع زیستی و خشکسالی. در مجموعه مقالات سی و چهارمین سمپوزیوم بین المللی سنجش از دور محیط زیست، سیدنی، استرالیا، 10-15 آوریل 2011; صص 1-4.
آنکوله کار، ا. Seo, YW; Sycara، K. بررسی دانش معنایی برای یادگیری متن. در مجموعه مقالات کارگاه ACM SIGIR در وب معنایی، تورنتو، ON، کانادا، 28 ژوئیه تا 1 اوت 2003.
پیویک . در دسترس آنلاین: http://piwik.org/ (دسترسی در 10 فوریه 2013).

© 2013 توسط نویسندگان; دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (http://creativecommons.org/licenses/by/3.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب