چارچوبی برای کشف الگوهای فضایی و زمانی مرتبط با دامنه در حال تکامل در توییتر

خلاصه

در مجموعه داده‌های عظیم توییتر، توییت‌های ناشی از حوزه‌های مختلف، به عنوان مثال، ناآرامی‌های مدنی، می‌توانند استخراج شوند تا رویدادهای فضایی-زمانی توییتر را برای تشخیص الگوی توزیع مکانی-زمانی تشکیل دهند. الگوریتم‌های موجود عموماً از آمار اسکن برای شناسایی نقاط کانونی مکانی-زمانی از رویدادهای توییتر استفاده می‌کنند و فرآیند تکامل مکانی-زمانی رویدادهای توییتر را در نظر نمی‌گیرند. در این مقاله، چارچوبی برای کشف الگوهای مکانی-زمانی مرتبط با دامنه در حال تکامل از داده‌های توییتر پیشنهاد شده‌است. با توجه به یک دامنه هدف، یک بسط پرس و جو پویا برای استخراج توییت های مرتبط برای تشکیل رویدادهای فضایی-زمانی توییتر استفاده می شود. رویکرد جدید خوشه‌بندی فضایی پیشنهاد شده در اینجا مبتنی بر استفاده از مثلث‌سازی Delaunay محدود چند سطحی برای به تصویر کشیدن الگوهای توزیع فضایی رویدادهای توییتر است. سپس یک فرآیند خوشه‌بندی مکانی-زمانی اضافی برای آشکار کردن خوشه‌های مکانی-زمانی و نقاط پرت که در حال تبدیل به الگوهای توزیع مکانی هستند، انجام می‌شود. آزمایش‌های گسترده در مجموعه داده‌های توییتر مربوط به شیوع ناآرامی‌های مدنی در مکزیک، اثربخشی و عملی بودن روش جدید را نشان می‌دهد. روش پیشنهادی برای پیش‌بینی دقیق فرآیند تکامل مکانی-زمانی رویدادهای توییتر، که متعلق به یک تحلیل جغرافیایی عمیق‌تر از داده‌های بزرگ مکانی-زمانی است، مفید خواهد بود.

کلید واژه ها:

الگوهای مکانی-زمانی در حال تکامل ؛ دامنه های هدف ؛ رویدادهای فضایی-زمانی توییتر ؛ خوشه بندی فضایی ; خوشه بندی مکانی-زمانی

1. معرفی

داده های بزرگ مکانی-زمانی دارای ویژگی های حجم، تنوع، سرعت، صحت و ارزش هستند. و امروزه کشف دانش از داده‌های بزرگ مکانی-زمانی عمدتاً بر خلاصه‌سازی، نقاط پرت مبهم، تداعی‌های نادر و پیش‌بینی فرآیند مبهم متمرکز است، که گسترش داده‌کاوی سنتی مکانی-زمانی هستند. در شبکه های اجتماعی مبتنی بر مکان، توییتر از زمان راه اندازی خود در سال 2006 بیشترین تعداد کاربر را به خود جذب کرده است [ 1 ]. همانطور که تلفن‌های همراه هوشمندتر می‌شوند و پوشش شبکه بی‌سیم گسترش می‌یابد، هر کسی که تلفن همراه دارد می‌تواند تقریباً در هر کجا و در هر زمان توییت ارسال کند. در نتیجه، توییتر رشد انفجاری را در پایگاه کاربری خود تجربه کرده است [ 2]. امروزه اکثر تلفن های همراه هوشمند دارای GPS هستند، بنابراین اطلاعات موقعیت جغرافیایی اغلب به عنوان برچسب اضافی در توییت ها گنجانده می شود. همراه با حاشیه نویسی زمانی، این نوع اطلاعات مکانی-زمانی را می توان در توییت ها جاسازی کرد تا مکان و زمان پخش توییت ها را توضیح دهد. بنابراین داده‌های توییتر به نوعی داده‌های بزرگ مکانی-زمانی تبدیل شده‌اند. به دلیل آزادی و گشودگی بالای توییتر، حجم عظیمی از اطلاعات بیهوده که با رویدادهای مهمی مرتبط نیستند پخش می شود که به سادگی تعاملات مشترک بین دوستان را گزارش می دهد. علاوه بر این، توییتر را می توان به عنوان یک جعبه سیاه بزرگ در نظر گرفت که حاوی موضوعات متعددی است که رویدادهای مختلف را از حوزه های مختلف منعکس می کند، به عنوان مثال، بلایای [3 ] ، جنایات [ 4 ]، ترافیک [ 5] .] و اپیدمی ها [ 6 ]. روش‌های استخراج رویدادهای پنهان، ناشناخته و مهم از توده عظیم داده‌های توییتر به یک کانون تحقیقاتی در علوم کامپیوتر [ 7 ، 8 ]، علوم انسانی [ 9 ، 10 ] و GIS [ 11 ، 12 ، 13 ، 14 تبدیل شده است.] در سالهای اخیر. رویکردهای پژوهشی بکار گرفته شده را می‌توان تقریباً به سه دسته طبقه‌بندی کرد، بسته به اینکه کدام یک از سه زمینه فوق مورد توجه قرار می‌گیرد: (1) محققان علوم رایانه، توییت‌ها را به عنوان اطلاعات متنی در نظر می‌گیرند که در طول زمان تغییر می‌کنند، بنابراین موضوعات مرتبط با حوزه‌های مختلف را می‌توان استخراج کرد. روش های طبقه بندی متن مانند تخصیص دیریکله پنهان (LDA) و خوشه بندی. (2) در علوم انسانی، محققان معمولاً توییتر را ابزاری برای ثبت رفتارهای انسانی می دانند. به عنوان مثال، رفتارهای متحرک را می توان با تغییرات تعداد کاربران توییتر که وارد و خارج می شوند از یک منطقه خاص منعکس شود. و (3) محققان در GIS معمولاً رویدادهای مرتبط با دامنه را برای شناسایی نقاط پرت مکانی-زمانی استخراج می کنند. تحقیقی که در اینجا گزارش شده است از سومین این رویکردها برای تشخیص الگوی مکانی-زمانی از توییتر استفاده کرده است.

در مجموعه داده های رویداد مکانی-زمانی، هر موجودیت نشان دهنده رویدادی است که در مکان و زمان برچسب گذاری شده رخ داده است [ 15 ]. علاوه بر این، رویدادهای فضایی-زمانی توییتر به عنوان مجموعه‌ای از موجودیت‌های نقطه‌ای با اطلاعات مکان جغرافیایی و زمان تعبیه‌شده در توییت‌های مرتبط با دامنه تعریف می‌شوند. با در نظر گرفتن شکل 1 به عنوان مثال، این رویداد رویدادهای فضایی-زمانی توییتر مربوط به “ناآرامی های مدنی” را برای ماه ژوئیه 2012 در سراسر مکزیک نشان می دهد. برخلاف تحقیقات قبلی در این زمینه، رویکرد مکانی-زمانی پیشنهادی در اینجا به طور خاص بر تکامل الگوهای مکانی-زمانی مرتبط با دامنه در توییتر تمرکز دارد. سهم عمده این مطالعه به شرح زیر است:

توسعه یک چارچوب استخراج: یک چارچوب یکپارچه برای کشف الگوهای مکانی-زمانی مرتبط با دامنه در حال تکامل در توییتر پیشنهاد شده است. دانش قبلی در چارچوب جدید مورد نیاز نیست.
استخراج رویدادهای توییتر مرتبط با دامنه با گسترش پرس و جو پویا: برای دامنه هدف، توییت های مرتبط را می توان با استفاده از استراتژی گسترش پرس و جو پویا به دست آورد. این توییت‌هایی که با اطلاعات مکان جغرافیایی و زمان برچسب گذاری شده‌اند، رویدادهای فضایی-زمانی توییتر را تشکیل می‌دهند.
کشف الگوهای مکانی-زمانی در حال تکامل از رویدادهای توییتر: برای رویدادهای فضایی-زمانی توییتر مربوط به دامنه استخراج شده، خوشه‌های مکانی و نقاط پرت با خوشه‌بندی مکانی شناسایی می‌شوند، پس از آن الگوهای مکانی-زمانی با خوشه‌بندی مکانی-زمانی در حین تکاملشان کشف می‌شوند.
ارزیابی تجربی با استفاده از داده‌های واقعی توییتر: چارچوب پیشنهادی به‌طور گسترده برای رویدادهای فضایی-زمانی توییتر مربوط به «ناآرامی‌های مدنی» در مکزیک آزمایش شد. مزایا و اثربخشی روش جدید با مقایسه نتایج با روش های جایگزین و داده های پایه نشان داده شده است.

بقیه این مقاله به شرح زیر سازماندهی شده است. بخش 2 کار مرتبط را مرور می کند و بخش 3 انگیزه و استراتژی تحقیق ما را توضیح می دهد. بخش 4 مدل مورد استفاده برای استخراج رویدادهای توییتر مربوط به دامنه را توصیف می‌کند، پس از آن رویکرد مورد استفاده برای کشف الگوهای مکانی-زمانی در رویدادهای توییتر در حین تکامل آنها در بخش 5 ارائه می‌شود . بخش 6 در مورد آزمایش های گسترده بر روی داده های دنیای واقعی توییتر و تجزیه و تحلیل آنها گزارش می دهد و مقاله با خلاصه کردن یافته های مهم مطالعه در بخش 7 به پایان می رسد .

2. کارهای مرتبط

2.1. استخراج رویداد توییتر

روش‌های استخراج رویداد موجود توییتر عمدتاً از یادگیری ماشینی با رویکردهایی مانند LDA (تخصیص دیریکله نهفته)، SVM (ماشین بردار پشتیبانی) و HMM (مدل‌های مارکوف پنهان) ناشی می‌شوند. LDA یک الگوریتم یادگیری بدون نظارت است که در ابتدا برای طبقه بندی متون عمومی توسعه داده شد [ 16 ] اما اخیراً برای طبقه بندی داده های توییتر در موضوعات مختلف استفاده شده است [ 7 ، 8 ]. SVM یک الگوریتم یادگیری نظارت شده برای طبقه بندی است. با توجه به دامنه هدف، با الزام کاربران به برچسب گذاری بخش هایی از توییت های مربوط به دامنه به عنوان نمونه آغاز می شود، پس از آن این نمونه های آموزشی برای استخراج توییت های مرتبط استفاده می شوند [ 17 ]. چاکرابارتی و پونارا (2011) [ 18] رویکرد متفاوتی را در پیش گرفت و از یک مدل HMM اصلاح شده برای یادگیری ویژگی های نمونه توییت ها و سپس استخراج توییت های مرتبط استفاده کرد.

2.2. خوشه، Outlier و تشخیص نقطه هات

در زمینه داده کاوی مکانی-زمانی، خوشه بندی مکانی-زمانی [ 15 ، 19 ]، تشخیص پرت [ 20 ، 21 ] و تشخیص نقطه کانونی [ 22 ] همگی تکنیک های تحقیقاتی کلیدی هستند. از آنجایی که اطلاعات مکان جغرافیایی و زمان اغلب در توییت‌ها گنجانده می‌شوند، این کار داده‌کاوی مکانی-زمانی در داده‌های توییتر را تسهیل می‌کند. تحقیقات در این زمینه را می توان به دو نوع طبقه بندی کرد: (1) تشخیص الگوی توزیع مکانی-زمانی از داده های اولیه توییتر. و (2) تشخیص الگوی توزیع مکانی-زمانی از رویدادهای توییتر مربوط به دامنه.

تشخیص الگوی توزیع مکانی-زمانی از داده‌های اولیه توییتر. در اینجا، داده‌های توییتر مستقیماً برای شناسایی خوشه‌های مکانی-زمانی پنهان، نقاط پرت یا کانون‌ها بدون استخراج موضوعات مورد استفاده قرار می‌گیرند، سپس تجزیه و تحلیل عمیق‌تری روی هر الگوی شناسایی‌شده انجام می‌شود تا بررسی شود که آیا یک رویداد خاص رخ داده است یا خیر. به عنوان مثال، لی و همکاران. (2011) [ 10 ] کل منطقه تحقیقاتی را بر اساس توزیع فضایی توییت ها با خوشه بندی به زیرمنطقه ها تقسیم کرد. برای هر منطقه فرعی، مهرهای زمانی با تعداد غیرعادی زیاد توییت‌ها توسط باکس پلات شناسایی شدند. چنگ و ویکس (2014) [ 12] با استفاده از آمار اسکن فضا-زمان از توییتر، نقاط کانونی مکانی-زمانی را شناسایی کرد. موضوعات مختلف توسط LDA برای هر کانون مکانی-زمانی استخراج شد و از نسبت موضوعات برای تعیین اینکه آیا کانون مکانی-زمانی یک رویداد خاص را توصیف می‌کند استفاده شد.

تشخیص الگوی توزیع مکانی-زمانی از رویدادهای توییتر مربوط به دامنه. در این نوع رویکرد معمولاً یک دامنه هدف مشخص می‌شود و سپس الگوی کاوی مکانی-زمانی بر روی توییت‌های مرتبط با دامنه انجام می‌شود. به عنوان مثال، Chae و همکاران. (2012) [ 11 ] از LDA برای استخراج گروه هایی از موضوعات مرتبط با حوزه های مختلف استفاده کرد. برای هر دامنه، یک سری زمانی را می توان با ثبت تعداد توییت ها با موضوعات مرتبط با دامنه به مرور زمان بدست آورد. برای هر سری زمانی، پس از حذف هر گونه روند فصلی، آن مهرهای زمانی که تعداد غیرعادی زیادی توییت را ثبت می‌کردند، با استفاده از Z-core به عنوان رویدادهای غیرعادی شناسایی شدند. در یک مطالعه قبلی، ما یک بسط پرس و جو پویا برای استخراج توییت های مرتبط با دامنه از توییتر پیشنهاد کردیم [ 13]]. توییت‌های استخراج‌شده گروهی از رویدادهای فضایی را برای یک دوره زمانی معین تشکیل می‌دادند و یک اسکن مکانی مدولاریتی محلی برای شناسایی نقاط حساس فضایی ایجاد شد. باکی‌الله و همکاران (2014) [ 14 ] نمودارهای اجتماعی را در توییتر بر اساس حالت‌های تعامل مختلف ساخت و بهینه‌سازی سریع حریصانه ماژولاریت برای استخراج جوامع موضوعی مختلف به کار گرفته شد. برای دوره های زمانی مجزا، خوشه های فضایی توسط VDBSCAN [ 23 ] برای هر جامعه موضوعی از نقطه نظر فضایی شناسایی شدند .

به طور خلاصه، بیشتر کارهای قبلی در این زمینه بر تشخیص الگوهای توزیع مکانی-زمانی ثابت از توییتر متمرکز شده است. با این حال، همچنین یک رابطه در حال تکامل بین توسعه مکانی-زمانی یک رویداد توییتر و توزیع فضایی نهایی آن وجود دارد. در این مقاله، ما یک چارچوب جدید پیشنهاد می‌کنیم که گسترش پرس و جو پویا را با یک رویکرد کاوی فضایی-زمانی ترکیب می‌کند تا الگوهای فضایی-زمانی مرتبط با دامنه جدید در حال تکامل را از توییتر کشف کند.

3. انگیزه و استراتژی پیشنهادی

3.1. انگیزه

روش‌های استخراج توییت مرتبط با دامنه موجود، عمدتاً روابط پنهان بین توییت‌ها را در نظر نمی‌گیرند. به عنوان مثال، اگر در محل « الف » زلزله ای رخ دهد ، هر توییتی که حاوی عباراتی مانند « الف ، آسیب، ساختمان های فروریخته» باشد، حتی اگر به طور مشخص «زلزله» نباشد، احتمالاً به زلزله مرتبط است. بنابراین، اگر بخواهیم توییت های مرتبط با دامنه را به اندازه کافی استخراج کنیم، لازم است روابط پنهان در داده های توییتر را تجزیه و تحلیل کنیم.

علاوه بر این، تحقیقات موجود در مورد استخراج الگوهای مکانی-زمانی از رویدادهای توییتر عمدتاً بر شناسایی نقاط پرت یا کانون‌ها مستقیماً از توزیع توییت‌ها متمرکز است. در یک دوره زمانی معین، این رویدادهای فضایی-زمانی توییتر می توانند به الگوهای توزیع مکانی خاصی تبدیل شوند، به عنوان مثال، خوشه های فضایی یا نقاط پرت. با این حال، تا جایی که ما می دانیم، مطالعاتی برای کشف فرآیند تکامل مکانی-زمانی برای هر الگوی فضایی انجام نشده است. برای مثال، گروهی از توییت‌ها که مجموعه داده‌های رویداد مکانی-زمانی را با 10 مهر زمانی نشان می‌دهند در شکل 2 شبیه‌سازی شده‌اند . شکل 2 a توزیع مکانی – زمانی را نشان می دهد در حالی که شکل 2 b پیش بینی فضایی همه رویدادها را نشان می دهد. شکل 2c پیش بینی فضایی در هر مهر زمانی است. الگوهای توزیع مکانی که توسط همه رویدادهای مکانی-زمانی برای این دوره زمانی شکل می‌گیرد، در شکل 2 ب پنهان شده است که شامل چهار نوع الگو است: خوشه‌های فضایی، نقاط پرت فضایی جهانی، نقاط پرت فضایی محلی و نقاط پرت فضایی داخلی. در شکل 2 ج، وقایع در هر تمبر بر اساس الگوهای شکل 2 ب به طور متفاوتی برچسب گذاری شده اند. روند تکاملی که طی آن هر یک از سه الگوی فضایی متمایز ایجاد می شود به شرح زیر است: (1) یک خوشه متراکم از مرکز خود در T = 1 مشتق می شود و تا زمانی که کل خوشه در T = 4 تشکیل می شود گسترش می یابد، پس از آن این خوشه به تدریج کاهش می یابد. از مرکز آن و در T ناپدید می شود= 8; (2) برای یک خوشه پراکنده، به نظر می رسد رویدادها به طور تصادفی در بخش بالایی آن از T = 1 تا 4 ایجاد می شوند و تنها پس از T = 5، قسمت پایینی این خوشه به تدریج به وجود می آید. در T = 7، برخی از رویدادها در بخش بالایی دوباره ظاهر می شوند. و (3) نقاط پرت جهانی همیشه وجود دارند، اما نقاط پرت محلی فقط بین T = 3 و 7 ظاهر می شوند. نقاط پرت فضایی داخلی به تدریج از مرکز از T = 4 تا 6 تشکیل می شوند و سپس تغییر نمی کنند.

با ادغام توزیع فضایی رویدادهای توییتر در مهرهای زمانی مختلف نشان داده شده در شکل 2 ج، در این تحقیق قصد داریم آن خوشه های مکانی-زمانی یا نقاط پرت را کشف کنیم، یعنی الگوهای مکانی-زمانی در حال تکامل، که به توزیع فضایی نهایی تبدیل می شوند. الگوهای نشان داده شده در شکل 2 ب.

3.2. یک استراتژی جدید برای کشف الگوهای فضایی-زمانی مرتبط با دامنه در حال تکامل در توییتر

برای کشف و تجسم الگوهای مکانی-زمانی در حال تکامل در داده های توییتر برای یک دامنه معین، چارچوبی در اینجا پیشنهاد شده است که بر اساس یک رویکرد بسط پرس و جو پویا و روش کاوی الگوی مکانی-زمانی است، همانطور که در شکل 3 نشان داده شده است . دو بخش اصلی در چارچوب پیشنهادی ما وجود دارد که به نوبه خود در زیر توضیح داده شده است.

تشخیص رویدادهای توییتر مربوط به دامنه در این بخش، مدلی برای گسترش پرس و جو پویا ساخته شده است تا رویدادهای توییتر مربوط به دامنه را به اندازه کافی استخراج کند که شامل موارد زیر است: (1) پرس و جوی seed، جایی که برخی از دانه هایی که مستقیماً با دامنه مطابقت دارند، پرس و جو می شوند. (2) کوئری گسترش یافته، که توییت های مربوط به دامنه را با در نظر گرفتن روابط پنهان در داده های توییتر استخراج می کند. و (3) استخراج رویداد فضایی-زمانی توییتر، که در آن توییت های مربوط به دامنه با اطلاعات مکانی-زمانی رویدادهای فضایی-زمانی توییتر را تشکیل می دهند.

کشف الگوهای مکانی-زمانی در حال تکامل. در این بخش، یک رویکرد خوشه بندی مکانی-زمانی پیشنهاد شده است که شامل: (1) طرح ریزی فضایی، که در آن رویدادهای فضایی-زمانی توییتر به صورت مکانی پیش بینی می شوند تا توزیع مکانی را به دست آورند. (2) خوشه‌بندی فضایی بر اساس مثلث‌سازی دلونای چندمحدود برای تشخیص انواع مختلف الگوهای توزیع فضایی توسعه داده شده است. (3) ساختمان محله مکانی-زمانی، که هم مجاورت مکانی و هم متوالی زمانی را برای ایجاد محله های مکانی-زمانی برای هر رویداد توییتر در نظر می گیرد. و (4) خوشه‌بندی مکانی-زمانی بر اساس این همسایگی‌های مکانی-زمانی انجام می‌شود تا هر گونه الگوهای مکانی-زمانی را در حین تکامل کشف کنند.

4. تشخیص رویداد توییتر مرتبط با دامنه

در این بخش، مدلی برای بسط پرس و جو پویا ساخته شده است که می تواند رویدادهای فضایی-زمانی توییتر مربوط به دامنه را استخراج کند. در بخش 4.1 ، ما تعاریفی را برای عبارات “گراف اطلاعات توییتر”، “پرس و جوی اولیه”، “پرس و جوی گسترده” و “سنجش وزن” ارائه می کنیم. بخش 4.2 به بررسی فرآیند بسط پرس و جو پویا می پردازد، پس از آن رویدادهای فضایی-زمانی توییتر در بخش 4.3 تعریف می شوند .

4.1. تعاریف پایه

نمودار اطلاعات توییتر: با توجه به مجموعه اولیه داده های توییتر، می توان یک نمودار اطلاعاتی G = ( V , E, W , ST ) بدست آورد. در اینجا، V گره‌های G را نشان می‌دهد که از توییت‌ها و ویژگی‌ها (مثلاً کاربران، اصطلاحات، هشتگ‌ها) تشکیل شده است. E نشان دهنده لبه های بدون جهت متصل کننده گره های مرتبط در G است . به عنوان مثال، اگر یک ویژگی در برخی از توییت‌ها وجود داشته باشد، این ویژگی با این توییت‌ها مرتبط است. برای هر گره در G یک وزن تعیین می شود و همه وزن ها W را تشکیل می دهند . برای یک دامنه معین، وزن تمام گره ها ارتباط با این دامنه را نشان می دهد. در نهایت، STموقعیت جغرافیایی (مثلاً طول و عرض جغرافیایی) و اطلاعات زمان تعبیه شده در هر توییت را می دهد.

با در نظر گرفتن روابط متعدد بین توییت ها و ویژگی ها، توییت های مربوط به یک دامنه معین را می توان با نوعی گسترش پرس و جو پویا استخراج کرد. دو بخش، پرس و جو اولیه و پرس و جو گسترده، شامل می شود که می توان آنها را به شرح زیر توصیف کرد:

Seed query: با توجه به یک دامنه هدف، query seed آن کلمات کلیدی را در V استخراج می کند که از نظر معنایی با دامنه سازگار هستند. به عنوان مثال، اگر دامنه داده شده ‘ناآرامی مدنی’ باشد، دانه های مورد نظر می توانند {(‘protest’), (‘مارش’)} باشند.

جستجوی گسترده: در اینجا دانه ها گره هایی هستند که مستقیماً با دامنه داده شده مرتبط هستند. با این حال، در بیشتر موقعیت‌ها می‌توان گره‌های مرتبط بیشتری را براساس دانه‌ها جستجو کرد. به عنوان مثال، فرض کنید دانه های {(‘اعتراض’)، (‘راهپیمایی)} به دست آمده اند. همانطور که {(‘YoSoy132’)، (‘Zocal’)} اغلب در همان توییت با دانه ها ظاهر می شود، به عنوان مثال: ‘یک راهپیمایی بزرگ علیه تحمیل PRI: معترضان YoSoy132 به ال زوکالو رسیدند.’، سپس {( ‘YoSoy132’)، (‘Zocal’)} می توانند به کلمات کلیدی در یک جستجوی گسترده تبدیل شوند. سپس پرس و جو گسترش یافته می تواند آن کلمات کلیدی را در V استخراج کند که با برخی روابط پنهان به دانه ها مرتبط هستند.

اندازه‌گیری وزن: در بین تمام توییت‌ها و ویژگی‌های V ، دو نوع ارتباط اصلی وجود دارد، یعنی ویژگی‌های ↔ توییت و توییت ↔ توییت. اگر ویژگی در توییت هایی با وزن بالا برای دامنه وجود داشته باشد، این ویژگی نیز وزن بالایی خواهد داشت و بالعکس. اگر توییتی به توییت دیگری با وزن بالا پاسخ دهد، وزن بالایی نیز دریافت خواهد کرد. بنابراین، وزن ویژگی‌ها عمدتاً تحت تأثیر توییت‌های مرتبط قرار می‌گیرند، در حالی که وزن توییت‌ها هم توسط ویژگی‌های مرتبط و هم سایر توییت‌هایی که با آن‌ها روابط پاسخگویی دارند تعیین می‌شوند. این وزن ها را می توان به صورت زیر توصیف کرد:

دبلیو(اف)=منDافاف•Eاف↔تی•دبلیو(تی)

(1)

دبلیو(تی)=ω1•Eتی↔اف•دبلیو(اف)+ω2•Eتی↔تی•دبلیو(تی)

(2)

در اینجا، W ( F ) و W ( T ) به ترتیب وزن ویژگی‌ها و توییت‌ها را نشان می‌دهند. E _F_↔ T نشان دهنده ماتریسی است که رابطه بین ویژگی ها و توییت ها را توصیف می کند. اگر یک ویژگی متعلق به یک توییت باشد، مقدار مربوطه در ماتریس برابر با 1 و در غیر این صورت برابر با 0 است. E _T_↔ F انتقال E _F_↔ T است . به طور مشابه، E _T_↔ T رابطه بین توییت ها و سایر توییت ها را توصیف می کند. اگر یک توییت به توییت دیگری پاسخ دهد، مقدار مربوطه در E_T_↔ T برابر با 1 و در غیر این صورت برابر با 0 است. IDF _F ماتریس فرکانس سند معکوس برای ویژگی ها [ 24 ] است. ω₁ و ω₂ به ترتیب میزان تأثیر ویژگی ها و سایر توییت ها را بر روی توییت تجزیه و تحلیل شده نشان می دهد.

4.2. بسط پرس و جو پویا

بر اساس این تعاریف اساسی، یک بسط پرس و جو پویا را می توان به شرح زیر توصیف کرد:

مرحله اول راه‌اندازی گره‌های مرتبط با دامنه: با توجه به یک دامنه هدف، پرس و جوی seed به استخراج کلمات کلیدی می‌پردازد. در مجموعه توییت T ، توییت‌هایی که با این کلمات کلیدی مطابقت دارند، از توییت‌های مربوط به دامنه اولیه T ⁽⁰⁾ تشکیل شده‌اند . آن ویژگی های مرتبط با T ⁽⁰⁾ ویژگی های دامنه اولیه F ⁽⁰⁾ را تشکیل می دهند . وزن تمام توییت‌ها در T ⁽⁰⁾ برابر با 1 است در حالی که وزن سایر توییت‌ها، یعنی آن توییت‌ها در T – T ⁽⁰⁾ برابر با 0 است.

مرحله دوم جستجوی گسترده با تکرار: برای تکرار k ^ام ( k ≥ 2) کوئری بسط یافته، وزن ویژگی ها در F ^( k ) و توییت ها در T ^( k ) در ابتدا به صورت زیر محاسبه می شوند:

دبلیو[اف(ک)]=منDافاف•Eاف↔تی•دبلیو[تی(ک–1)]

(3)

دبلیو[تی(ک)]=ω1•Eتی↔اف•دبلیو[اف(ک)]+ω2•Eتی↔تی•دبلیو[تی(ک–1)]

(4)

سپس، برای توییت‌های T ^( k ) و T – T ^( k ) ، اگر حداکثر وزن در T – T ^( k ) بزرگ‌تر از وزن حداقل در T ^( k ) باشد ، دو توییت متناظر با هم عوض می‌شوند. این فرآیند مبادله تا حداکثر { W [ T – T ^( k ) ]} ≤min { W [ T ^( k ) ]} ادامه خواهد داشت.

مرحله سوم تولید توییت‌های مرتبط با دامنه: برای تکرار k ^th ( k ≥ 2) کوئری توسعه‌یافته، پس از به‌روزرسانی وزن‌ها برای ویژگی‌های F ^( k ) و توییت‌ها در T ^( k ) ، یک بار حداکثر { W [ T- T ^( k ) ]} ≤ min { W [ T ^(k) ]} ارضا می شود و سپس فرآیند پرس و جو گسترش یافته خاتمه می یابد. برای مجموعه نهایی ویژگی‌های مربوط به دامنه F ^( k ) ، همه ویژگی‌ها حداقل یک لبه با توییت‌های موجود دارندF ^( k ) بسیار مرتبط با دامنه هدف در نظر گرفته می شود. بنابراین همه توییت‌هایی که حاوی این ویژگی‌های مرتبط با دامنه هستند، توییت‌های مرتبط با دامنه در T در نظر گرفته می‌شوند .

پیچیدگی زمانی عمدتاً از بسط پرس و جو پویا ناشی می شود و تقریباً O { n _i [ n _F * n _TF + n _T *( n _TF + n _TT )]} است، که در آن n _i تعداد تکرارهای انجام شده، n _F و n _T به ترتیب تعداد ویژگی ها و توییت ها، n _TF تعداد اتصالات بین توییت ها و یک ویژگی و n _TT تعداد اتصالات بین دو توییت مختلف است. توجه داشته باشید کهn _TF << n _F و n _TT << n _T .

4.3. رویدادهای فضایی-زمانی توییتر

با ترکیب موقعیت جغرافیایی و اطلاعات زمانی تعبیه شده در توییت ها، رویدادهای فضایی-زمانی توییتر مربوط به دامنه را می توان به صورت زیر تعریف کرد:

رویدادهای فضایی-زمانی توییتر: با توجه به مجموعه‌ای از توییت‌های مرتبط با دامنه استخراج‌شده، هر توییت، به همراه اطلاعات مکان جغرافیایی و زمانی آن، به عنوان یک رویداد فضایی-زمانی توییتر در نظر گرفته می‌شود stte _i , stte _i = ( x _i , y _i , t _i ) و همه رویدادهای فضایی-زمانی توییتر یک مجموعه STTE = { stte ₁ , stte ₂ , …, stte _N } را تشکیل می دهند.

رویدادهای فضایی توییتر: با توجه به STTE ، رویدادهای فضایی توییتر مربوطه توزیع فضایی STTE پس از طرح ریزی فضایی هستند. با در نظر گرفتن مجموعه داده های شبیه سازی شده در شکل 2 به عنوان مثال، فرض کنید شکل 2 a رویدادهای فضایی-زمانی توییتر را برای یک دامنه هدف ارائه می دهد. سپس شکل 2 b رویدادهای فضایی توییتر مربوطه را نشان می دهد. رویدادهای فضایی توییتر از n نقطه فضایی تشکیل شده اند که به صورت STE = { ste ₁ , ste ₂ , …, ste _n } مشخص می شوند. هر رویداد فضایی توییتر ste _iشامل اطلاعات موقعیت جغرافیایی، به عنوان مثال، _ste i ₌ ( xi ، y _i )

5. کشف الگوهای مکانی-زمانی در حال تکامل

این بخش دو مرحله را که بر روی STTE انجام می‌شود شرح می‌دهد : (1) تشخیص الگوی توزیع فضایی. و (2) کشف الگوهای مکانی-زمانی در حال تکامل. بخش 5.1 رویکرد مورد استفاده برای تشخیص الگوی توزیع فضایی را بررسی می‌کند، در حالی که فرآیند کشف الگوهای مکانی-زمانی با تکامل آنها در بخش 5.2 توضیح داده شده است . در نهایت، الگوریتم‌ها در بخش 5.3 توضیح داده شده‌اند .

5.1. تشخیص الگوهای توزیع فضایی

به منظور تشخیص الگوهای توزیع فضایی از رویدادهای نقطه‌ای مکانی، تعدادی از روش‌های خوشه‌بندی فضایی [ 25 ، 26 ] و تشخیص پرت فضایی [ 27 ، 28 ] پیشنهاد شده‌اند. با این حال، این روش ها نمی توانند به طور همزمان انواع مختلف خوشه های فضایی و نقاط پرت را به طور دقیق تشخیص دهند. ثابت شده است که مثلث سازی Delaunay یک ابزار کارآمد برای ایجاد روابط مجاورت فضایی برای مجموعه داده های فضایی است و بنابراین با موفقیت در خوشه بندی فضایی استفاده شده است [ 25 ، 26 ]. متأسفانه، همانطور که در بخش 3.1 توضیح داده شد، برای رویدادهای نقطه‌ای مکانی، ممکن است چندین نوع خوشه و نقاط پرت درگیر شوند.و روش های موجود قادر به بدست آوردن دقیق این الگوهای فضایی نیستند. به عنوان مثال، شکل 4 a مثلث یابی دلونی را برای رویدادهای فضایی در شکل 2 ب نشان می دهد، با سه نوع لبه بلند ناسازگار که انواع مختلف الگوهای فضایی را به هم متصل می کند: (1) لبه های بلند I که با خطوط چین سبز تلاقی می کنند ، جایی که لبه های بلند جهانی نقاط پرت فضایی جهانی مانند نقطه و خوشه کوچک در سمت راست شکل 4 a را با الگوهای دیگر متصل کنید. (2) II- لبه های بلند متقاطع با خطوط نقطه چین آبی ، جایی که لبه های بلند محلی نقاط پرت فضایی محلی مانند نقطه و خوشه کوچک در وسط شکل 4 را به هم متصل می کنند.a با الگوهای دیگر؛ و (3) III- لبه های بلند متقاطع با خطوط چین دار قرمز ، که معمولاً به دلیل وجود مناطق بیرونی فضایی داخلی مانند خوشه کوچک متراکم در خوشه نیمه دایره ای پراکنده در شکل 4 الف، در یک خوشه نسبتاً یکنواخت قرار دارند . به منظور استخراج دقیق انواع مختلف نقاط پرت و خوشه‌های فضایی از STE ، یک استراتژی مثلث‌سازی Delaunay چند محدود، که برای حذف سه نوع لبه بلند بالا در سلسله مراتب استفاده می‌شود، پیشنهاد شده‌است. در زیر به تفصیل توضیح داده شده است.

5.1.1. شناسایی و حذف لبه های I-Long

لبه‌های I- long : با توجه به STE ، مثلث دلاوی مربوطه را می‌توان در جایی ساخت که لبه‌های I-long ، که با Long_Edges ^I ( DT ) مشخص می‌شوند، به صورت زیر تعریف می‌شوند:

Long_Eدgهسمن(Dتی)={Eمن||Eمن|≥مهآn(Dتی)+مهآn(Dتی)|Eمن|*استید(Dتی)}، Eمن∈Dتی

(5)

که در آن DT نشان دهنده مثلث Delaunay است در حالی که E _i هر یالی در DT با طول | E _i |. میانگین ( DT ) و Std ( DT ) به ترتیب میانگین طول یال ها در DT و استاندارد مربوطه را نشان می دهند.

اینجا، مهآn(Dتی)|Eمن|ضریب تنظیمی است که با طول لبه ها نسبت معکوس دارد. میانگین ( DT ) و Std ( DT ) هر دو ثابت هستند، بنابراین یک یال بلندتر با یک یال کوچکتر مطابقت دارد. مهآn(Dتی)+مهآn(Dتی)|Eمن|*استید(Dتی). در نتیجه ضریب مهآn(Dتی)|Eمن|برای شناسایی لبه های I-long کافی است . با حذف تمام یال های I-long ، یک سری نمودار فرعی برای لبه های باقی مانده می توان به دست آورد، به عنوان مثال، G ⁽¹⁾₁ ، G ⁽¹⁾₂ ، G ⁽¹⁾₃ در شکل 4 ب. در این زیر نمودارها نقاط پرت فضایی جهانی از سایر الگوها جدا شده است. II- لبه های بلند و III- لبه های بلند بیشتر در زیر به منظور جداسازی سایر الگوهای فضایی مشخص می شوند.

5.1.2. شناسایی و حذف II- لبه های بلند

II- یال های بلند : برای هر ste _i در زیر نمودار G ⁽¹⁾_k ، مجموعه ای از یال های محلی LE _i وجود دارد که ste _{i را} با رویدادهای دیگر متصل می کند . طول متوسط این لبه های محلی و استاندارد مربوطه به ترتیب با میانگین ( LE _i ) و Std ( LE _i ) نشان داده می شود. علاوه بر این، آن لبه های طولانی II ، که به عنوان Long _ Edges ^II ( G ⁽¹⁾_k ) نشان داده می شوند، به صورت تعریف می شوند.

Long_EدgهسII(جی(1)ک)={Loجآل_Eدgه(j)||Loجآل_Eدgه(j)|≥مهآn(LEمن)+مهآn(LEمن)|Loجآل_Eدgه(j)|*استید(جی(1)ک)}

wساعتهrه Loجآل_Eدgه(j)∈LEمن آnد استید(جی(1)ک)=∑من=1|جی(1)ک|استید(LEمن)|جی(1)ک|

(6)

که در آن Std ( G ⁽¹⁾_k ) نشان دهنده میانگین استاندارد LE _i در G ⁽¹⁾_k است . به همین ترتیب، مهآn(LEمن)|Loجآل_Eدgه(j)|همچنین یک ضریب تنظیم برای شناسایی کافی لبه های طول II است .

پس از حذف تمام یال های II-Long در هر G ⁽¹⁾_k ، یک سری جدید از نمودارهای فرعی را می توان به دست آورد، به عنوان مثال، G ⁽²⁾₁ ، G ⁽²⁾₂ ، …، G ⁽²⁾₆ در شکل 4. ج آن نقاط پرت فضایی محلی بیشتر از هم جدا می شوند. با این حال، برخی از لبه‌های نسبتاً طولانی در ناحیه بزرگ‌نمایی شده در شکل 4c باقی می‌مانند ، بنابراین لبه‌های بلند III که منجر به ناحیه بیرونی فضایی داخلی می‌شوند را نمی‌توان بیشتر تقسیم کرد. این لبه های بلند III باید شناسایی و با آنها برخورد شود.

5.1.3. شناسایی و حذف لبه های بلند III

شکل 4 ج نشان می دهد که لبه های بلند III معمولاً در مناطق بسیار ناهموار محلی قرار دارند که بنابراین ابتدا باید شناسایی شوند. این مشکل را می توان به یافتن رویدادهایی ترجمه کرد که لبه های محلی آنها دارای استاندارد طول بسیار زیاد است.

مناطق بسیار ناهموار محلی: برای هر ste _i در G ⁽²⁾_k ، تمام رویدادهای مرتبط با ste _i توسط یال های محلی LE _i از ste _i به عنوان Con _stei نشان داده می شوند . برای یال های محلی LE _j رویدادها در Con _stei ، میانگین و مقدار استاندارد همه Std ( LE _j ) به عنوان میانگین _Std ( Con _stei ) و Std _Std ( Con _stei) نشان داده می شود.، به ترتیب، در کجا

(7)

سپس هر منطقه محلی بسیار ناهموار LEUR ( G ⁽²⁾_k ) را می توان به صورت زیر تعریف کرد:

LEUآر(جی(2)ک)={ستیهمن|استید(LEمن)≥مهآnاستید(سیonستیهمن)+2مهآnاستید(سیonستیهمن)استید(LEمن)∗استیداستید(جی(2)ک)}، ستیهمن∈جی(2)ک

wساعتهrه استیداستید(جی(2)ک)=∑من=1|جی(2)ک|استیداستید(سیonستیهمن)|جی(2)ک|

(8)

III- یال‌های بلند : برای هر G ⁽²⁾_k ، آن یال‌های بلند III که با لبه‌های بلند ^III ( G ⁽²⁾_k ) مشخص می‌شوند، به‌صورت زیر تعریف می‌شوند:

Long_EدgهسIII(جی(2)ک)={Loجآل_Eدgه(j)||Loجآل_Eدgه(j)|≥مهآn(LEمن)+2مهآn(LEمن)|Loجآل_Eدgه(j)|*استید(جی(1)ک)}

wساعتهrه Loجآل_Eدgه(j)∈LEمن آnد LEمن ∈LEUآر(جی(2)ک)

(9)

معادله (9) نشان می‌دهد که لبه‌های بلند III باید در LEUR ( G ⁽²⁾_k ) قرار داشته باشند و طول آنها باید بزرگ‌تر از شاخصی باشد که شبیه به مشخص کننده لبه‌های بلند II است . در نهایت، همه انواع الگوهای فضایی، به عنوان مثال، G ⁽³⁾₁ ، G ⁽³⁾₂ ، …، G ⁽³⁾₇ در شکل 4 d، پس از حذف لبه های بلند III از هم جدا می شوند . برای تعیین اینکه این زیرگراف ها کدام نوع الگوهای فضایی هستند، در ادامه شاخصی تعریف می شود که حجم این نمودارهای فرعی را در نظر می گیرد.

لازم به ذکر است که مثلث سازی Delaunay چند محدودیتی قبلی عمدتاً برای تشخیص انواع مختلف خوشه های فضایی با اشکال و چگالی های مختلف طراحی شده است [ 25 ، 26 ]. مثلث‌سازی دلونی چند محدودیتی پیشنهادی در این مطالعه می‌تواند تجزیه و تحلیل دقیق‌تری از ویژگی‌های لبه‌ها از سطوح مختلف ارائه دهد، که توسط آن خوشه‌های فضایی مختلف و نقاط پرت را می‌توان به طور همزمان تشخیص داد. به عنوان مثال، لبه های بلند III در شکل 4 c معمولاً در مناطق بسیار ناهموار محلی قرار دارند، رویکرد پیشنهادی در این مقاله قادر به شناسایی این مناطق ناهموار و سپس استخراج و حذف لبه های طولانی III پنهان است .. این تفاوت اصلی با مثلث سازی Delaunay چند محدود است که قبلاً استفاده می شد.

5.1.4. تعیین الگوهای فضایی

نقاط پرت فضایی معمولاً حاوی تعداد بسیار کمی ste _i هستند و بنابراین به عنوان آن دسته از نمودارهای فرعی نسبتاً کوچک پس از حذف لبه های بلند در مثلث Delaunay [ 29 ] تعریف می شوند. علاوه بر این، آن ساختارهای انباشته به جز نقاط پرت فضایی به عنوان خوشه های فضایی در این مطالعه تعریف شده اند. بنابراین، به دنبال مثال شناسایی لبه های بلند در بخش 5.1.1 ، بخش 5.1.2 و بخش 5.1.3 ، از حجم هر زیرگراف متصل برای تعریف شاخصی برای شناسایی نقاط پرت و خوشه های فضایی استفاده می شود.

خوشه‌های فضایی و نقاط پرت فضایی: برای هر زیرگراف G ⁽³⁾_k ، حجم G ⁽³⁾_k که با Vol ( G ⁽³⁾_k ) نشان داده می‌شود به‌عنوان تعداد رویدادها در G ⁽³⁾_k تعریف می‌شود . میانگین حجم همه نمودارهای فرعی برای جداسازی آن نمودارهای فرعی کوچک استفاده می شود، بنابراین مقادیر زیر نمودارهای بسیار کوچک (مثلاً با حجم 1) ممکن است به طور جدی مانع تعیین سایر نمودارهای فرعی نسبتاً کوچک شوند. بنابراین، اعضای نماینده rvol _i به عنوان آن دسته از مجلداتی انتخاب می شوند که با یکدیگر برابر نیستند و دور هم جمع می شوند تا مجموعه جدیدی را تشکیل دهند.RVol _ به عنوان مثال، اگر RVol = {1، 1، 1، 5، 5، 35، 40، 45، 55}، این مجموعه جدید RVol را می توان به دست آورد و به صورت Rvol = {1، 5، 35، 40، 45، 55 بیان کرد. }. سپس، خوشه های فضایی SC و فضایی پرت SA به ترتیب به صورت زیر تعریف می شوند:

اسسی={جی(3)ک|Voل(جی(3)ک)>مهآn(آرVoل)–Voل(جی(3)ک)مهآn(آرVoل)*استید(آرVoل)}

اسO={جی(3)ک|Voل(جی(3)ک)≤مهآn(آرVoل)–Voل(جی(3)ک)مهآn(آرVoل)*استید(آرVoل)}

(10)

که در آن میانگین ( RVol ) و Std ( RVol ) به ترتیب نشان دهنده مقدار متوسط و استاندارد مجموعه RVol هستند . برای یک نمودار فرعی کوچکتر، عبارت سمت راست نماد “≤” در معادله (10) مقدار بیشتری خواهد داشت و بنابراین می تواند برای شناسایی نقاط پرت فضایی استفاده شود. شکل 5 a,b به ترتیب نقاط و نواحی پرت فضایی را نشان می دهد در حالی که شکل 5 c خوشه های فضایی را نشان می دهد.

5.2. کشف الگوهای در حال تکامل مکانی-زمانی

الگوهای توزیع مکانی-زمانی برای دوره زمانی معین، منعکس کننده فرآیند تکاملی است که توسط آن الگوهای توزیع مکانی نهایی شکل می گیرند، یعنی الگوهای مکانی-زمانی در حال تحول. در این بخش، اینها بر اساس خوشه بندی مکانی-زمانی با استفاده از روش های زیر کشف خواهند شد.

همسایگی فضایی STE : با توجه به الگوهای فضایی به‌دست‌آمده از STE ، هر الگو نموداری است که از یک سری رویدادهای فضایی توییتر و یال‌های باقی‌مانده در مثلث دلونی تشکیل شده است. برای هر ste _i ، تمام رویدادهای دیگر ste _j که با ste _i مرتبط هستند ، همسایگی های فضایی ste _i را تشکیل می دهند که با SN ^δ ( ste _i ) مشخص می شود ، که δ یک آستانه است که تعداد یال ها را در کوتاه ترین مسیر بین ste _i و ste _j نشان می دهد. . با توجه به δ، SN ^δ ( ste _i ) شامل تمام رویدادهای فضایی توییتر است که با ste _i کمتر یا معادل یال δ در کوتاه ترین مسیر مرتبط هستند. به عنوان مثال، شکل 6 a الگوهای فضایی به دست آمده در بخش 5.1 را نشان می دهد . در شکل، ste ₁ به طور مستقیم با ste ₂ ، ste ₃ ، …، ste ₅ متصل است ، بنابراین ste ₂ ، ste ₃ ، …، ste _{5 از}SN ¹ تشکیل می شود ( ste _i). و ste ₆ , …, ste ₁₃ همه متعلق به SN ² ( ste _i ) هستند.

بسط موقت STE: برای تعیین مهر زمانی که هر رویداد فضایی توییتر در آن رخ داده است، یک بسط موقت در STE انجام می شود . به طور خاص، پس از گسترش زمانی، هر عضو ste _i در STE دارای m ویژگی های بیشتری است IsOccur_T _t ، که m تعداد مهرهای زمانی در STTE است ، که نشان می دهد آیا یک رویداد فضایی توییتر در یک مهر زمانی خاص رخ داده است یا خیر. اگر یک رویداد فضایی-زمانی توییتر در T = t در ste _i رخ دهد ، آنگاه مقدار ویژگی IsOccur_T _t برای ste_i که با ste _i مشخص می شود· IsOccur_T _t برابر است با 1 و در غیر این صورت 0 است. برای مثال، شکل 6 b–d توزیع رویدادهای فضایی-زمانی توییتر را به ترتیب در T = 5، 6 و 7 نشان می دهد. برای ste _i در شکل 6 a، می توان به دست آورد که ste _i · IsOccur_T ₅ = 1، ste _i · IsOccur_T ₆ = 1 و ste _i · IsOccur_T ₇ = 0.

همسایگی فضایی STTE : با توجه به STTE و STE ، برای هر stte _i واقع در ste _i’ در زمان t ، اگر رویدادهای فضایی توییتر در SN ^δ ( ste _i’ ) با IsOccur_T _t = 1 وجود داشته باشد ، آن رویدادهای فضایی-زمانی توییتر وجود دارد. همسایگی های فضایی stte _i را تشکیل می دهند که با SN ^δ ( stte _i ) مشخص می شوند. بنابراین شکل 6 b-d همسایگی های فضایی STTE در T را نشان می دهد= به ترتیب 5، 6 و 7. در اینجا، فرض می‌کنیم δ = 1 و دو رویداد فضایی-زمانی توییتر که توسط یک لبه به هم متصل شده‌اند، در یک همسایگی فضایی با یکدیگر هستند.

همسایگی های زمانی STTE : با توجه به هر stte _i واقع در ste _i’ در زمان t و در یک پنجره زمانی TW ^ε = [ t – ε , t – ε +1,…, t -1, t +1,…, t + ε -1، t + ε ]، دیگر رویدادهای فضایی-زمانی توییتر که در ste _i’ در زمان tw _i نیز رخ می دهند ( tw _i ∈ TW ^ε) اعضای همسایگی زمانی مشابه stte _i هستند که با TN ^ε ( stte _i ) نشان داده می شوند. در اینجا ε آستانه ای است که محدوده آن همسایگی زمانی را تعیین می کند.

همسایگی‌های مکانی-زمانی STTE : _با توجه به هر stte _i و TW ^ε ، همسایگی‌های مکانی-زمانی sttei که با STN δ,ε (stte i) مشخص می‌شوند ، ^از موارد زیر _مشتق می‌شوند:

(من): همه رویدادهای فضایی-زمانی توییتر متعلق به SN ^δ ( stte _i );
(II): همه رویدادهای فضایی-زمانی توییتر متعلق به TN ^ε ( stte _i ); و
(iii): همه رویدادهای فضایی- زمانی توییتر مربوط به رویدادهای فضایی توییتر در SN ^δ ( ste _i’ ) با IsOccur _ T _twi ( tw _i∈ TW ^ε )=1، که در آن ste _i’ رویداد فضایی توییتر stte _i است .

شکل 7 a رویدادهای فضایی-زمانی توییتر را نشان می دهد که در T = 5-7 رخ می دهند. مناطق احاطه شده توسط دایره های قرمز توسط فرآیند تقویت تولید می شوند. با توجه به TW ¹ = [ t -1، t + 1]، نقاط قرمز، آبی و سبز به ترتیب نشان دهنده سه درمان فوق STN ^1،1 ( stte _i ) هستند.

نمودارهای متصل فضایی-زمانی STTE : برای هر sttei در STTE ، می توان یک سری یال برای اتصال stte _i_و رویدادها در STN ^δ,ε ( stte _i ) رسم کرد. یک نمودار می تواند از تمام رویدادهای فضایی-زمانی توییتر و این لبه ها ساخته شود. تمام نمودارهای فرعی متصل به عنوان نمودارهای متصل فضایی-زمانی STTE در نظر گرفته می شوند که با STCG = { stcg ₁ , stcg ₂ , …, stcg _n } مشخص می شوند. شکل 7 ب نمودارهای متصل مکانی-زمانی را نشان می دهد.stcg _i که توسط بیضی قرمز احاطه شده است، نمونه ای از یک نمودار متصل مکانی-زمانی است.

الگوهای مکانی-زمانی در حال تکامل: با توجه به تمام stcg _i STTE و حجم هر stcg _i ، خوشه های مکانی- زمانی ( STC )، نقاط پرت مکانی- زمانی ( STOP ) و مناطق پرت مکانی- زمانی ( STOR ) را می توان با استفاده از نشانگر شناسایی هر یک از الگوهای فضایی فوق. سپس، همه STC ، STOP و STOR از الگوهای مکانی-زمانی در حال تکامل ( STEP ) STTE تشکیل شده‌اند . به عبارت دیگر، STEPتوصیف کنید که چه نوع الگوهای مکانی-زمانی در هر یک از الگوهای توزیع مکانی تکامل می یابند. شکل 8 الگوهای مکانی-زمانی در حال تکامل کشف شده را نشان می دهد، جایی که STOP ، STOR و STC به ترتیب در شکل 8 a,b نشان داده شده اند و شکل 8 c الگوهای توزیع فضایی STE را نشان می دهد . این نشان دهنده چندین نتیجه جالب است که می توان گرفت. به عنوان مثال، در شکل 8 c SO ₄ ، واقع در گوشه پایین سمت راست، متعلق به یک منطقه پرت فضایی است، اما از یک STC مشتق شده است ، به عنوان مثال، خوشه مکانی-زمانی نشان داده شده توسط مربع های سبز درشکل 8 ب. علاوه بر این، خوشه فضایی بزرگ SC ₁ هر دو STC و STO را در خود جای داده است .

5.3. الگوریتم_تحول_الگوی_کشف

بر اساس تعاریف مرتبط معرفی شده در بخش 5.1 و بخش 5.2 ، الگوریتم پیشنهادی برای کشف الگوهای مکانی-زمانی در حال تحول از رویدادهای توییتر را می توان به شرح زیر توصیف کرد:

ورودی: رویدادهای فضایی-زمانی توییتر STTE ، رویدادهای فضایی توییتر پیش بینی شده STE ، آستانه δ و ε
خروجی: الگوهای مکانی-زمانی در حال تکامل

مرحله اول تشخیص الگوی توزیع فضایی از STE :

(من): مثلث Delaunay را برای STE بسازید تا نمودار مجاورت فضایی اولیه را بدست آورید.
(II): لبه‌های بلند ناسازگار، یعنی لبه‌های بلند I، لبه‌های بلند II و لبه‌های بلند III را از مثلث دلونی شناسایی و حذف کنید.
(iii): نمودارهای فرعی متصل را استخراج کنید و خوشه های فضایی و نقاط پرت را بر اساس حجم هر زیرگراف متصل شناسایی کنید.

مرحله دوم کشف الگوهای مکانی-زمانی در حال تکامل از STTE :

(من): همسایگی های فضایی هر رویداد فضایی توییتر و همسایگی های مکانی هر رویداد فضایی-زمانی توییتر را بر اساس δ ;
(II): پنجره های زمانی را بر اساس ε بسازید و همسایگی های زمانی هر رویداد فضایی-زمانی توییتر را تعیین کنید.
(iii): محله های مکانی-زمانی هر رویداد فضایی-زمانی توییتر را تعیین کنید. و
(IV): نمودارهای متصل مکانی-زمانی را بر اساس روابط مجاورت مکانی-زمانی استخراج کنید و خوشه های مکانی-زمانی و نقاط پرت را بر اساس حجم هر نمودار متصل مکانی-زمانی شناسایی کنید.

در این الگوریتم، ساخت مثلث دلونی به O ( N log N ) نیاز دارد، که در آن N تعداد رویدادهای فضایی توییتر است. حذف یال های I-Long و به روز رسانی نمودار به O ( N ₁ + N ) نیاز دارد، که در آن N ₁ تعداد یال های مثلث Delaunay است. به طور مشابه، پیچیدگی زمانی حذف یال های طولانی II و به روز رسانی نمودار حدود O ( N ₂ + N ) است که در آن N ₂تعداد لبه های باقی مانده پس از حذف لبه های I-long است . مرحله بعدی، که شامل یافتن نواحی بسیار ناهموار، حذف یال های طولانی III و به روز رسانی مجدد نمودار است، به حدود O ( N ₃ + 2 N ) نیاز دارد، که در آن N ₃ تعداد یال های واقع در مناطق بسیار ناهموار است. در نهایت، تعیین همسایگی‌های مکانی-زمانی رویدادهای فضایی-زمانی توییتر و خوشه‌بندی نمودارهای متصل مکانی-زمانی به O ( N ‘) نیاز دارد، که در آن N تعداد رویدادهای فضایی-زمانی توییتر است.

6. ارزیابی تجربی و تجزیه و تحلیل با تجسم

این بخش اثربخشی و عملی بودن چارچوب جدید ارائه شده در اینجا را با آزمایش آزمایشی آن بر روی یک مجموعه داده واقعی ارزیابی می‌کند. در بخش 6.1 ، مجموعه داده‌ها و برچسب‌های مورد استفاده در آزمایش‌ها به تفصیل توضیح داده شده است، پس از آن تجزیه و تحلیل تجربی در بخش 6.2 ارائه می‌شود . در نهایت، بخش 6.3 نتایج تجزیه و تحلیل الگوهای مکانی-زمانی در حال تحول را بررسی می کند.

6.1. مجموعه داده ها و برچسب ها

مجموعه داده توییتر از www.datasift.com خریداری شده استپس از پردازش کاهش داده ها این شامل 10٪ از تمام توییت های ارسال شده از 21 ژوئن 2012 تا 31 مه 2013 در 10 کشور آمریکای لاتین بود و دامنه هدف “ناآرامی های مدنی” را پوشش می داد. توییت‌های 21 ژوئن 2012 تا 1 سپتامبر 2012 در یک کشور، مکزیک، برای ایجاد مطالعه موردی انتخاب شد. باید توجه داشت که خطاهای موجود در داده‌های توییتر بر نتایج تشخیص تأثیر می‌گذارند، بنابراین توییت‌هایی که دارای خطاهای قابل توجهی هستند، مثلاً آنهایی که در اقیانوس منتشر شده‌اند، قبل از انجام آزمایش‌ها حذف شده‌اند. این مطالعه موردی یک آزمون تجربی مناسب برای اعتبار سنجی چارچوب ارائه می دهد زیرا داده های حقیقت زمین برای این سناریو در دسترس است. در اینجا حقیقت اصلی شامل گروهی از رویدادهای مهم است که توسط گزارش استاندارد طلایی (GSR) ارائه شده توسطhttp://www.mitre.org/ . به طور خاص، از میان 100 روزنامه برتر آمریکای لاتین ارائه شده توسط رسانه ها و روزنامه های بین المللی، 3 روزنامه برتر مکزیک، یعنی La Jornada، Reforma و Milenio، برای جمع آوری اخبار مربوط به “ناآرامی های مدنی” با ورودی هر دو انتخاب شدند. تاثیرگذارترین خبرگزاری های بین المللی و کارشناسان موضوعی. رویدادهایی که در اخبار گزارش شده توسط دو روش فوق به عنوان رویدادهای درگیری تعریف می شوند. خبرگزاری ها و کارشناسان معتبر تضمین می کنند که رویدادهای GSR قابل اعتماد هستند.

برای پرس و جوی seed، 10 توییت مربوط به ناآرامی های مدنی توسط کاربران بر اساس راهنمایی کارشناسان دامنه برای شروع فرآیند انتخاب شد [ 13 ]. همه عبارت‌ها در 10 توییت به ترتیب نزولی بر اساس مقادیر DFIDF مربوطه رتبه‌بندی شدند [ 24 ]. 5 ترم برتر به عنوان عبارات اولیه انتخاب شدند و شامل «اعتراض» و «راهپیمایی» بودند. بر اساس این 5 اصطلاح اولیه، یک بسط پرس و جو پویا برای استخراج رویدادهای فضایی-زمانی توییتر و رویدادهای فضایی توییتر پیش بینی شده انجام شد. رویدادهای مهمی از GSR نیز بر اساس برچسب‌های مکانی و زمانی در مکعب مکانی-زمانی پیش‌بینی شد. شکل 9a,b توزیع مکانی-زمانی و پیش‌بینی فضایی رویدادهای توییتر مربوط به دامنه استخراج شده (نشان داده شده با نقاط سیاه) و رویدادهای مهم (نشان داده شده توسط مثلث‌های قرمز) را به ترتیب توسط GSR نشان می‌دهد.

6.2. مقایسه های تجربی

در مطالعه قبلی ما نشان دادیم که بسط پرس و جو پویا یک ابزار موثر برای استخراج رویدادهای توییتر مربوط به دامنه است [ 13 ]. بنابراین، با توجه به رویدادهای توییتر مربوط به دامنه استخراج‌شده، دو روش خوشه‌بندی رویدادهای نقطه‌ای مکانی-زمانی، یعنی ST-DBSCAN [ 19 ] و STSNN [ 15 ]، در اینجا برای مقایسه مورد استفاده قرار می‌گیرند. در تمام نتایج تجربی، نماد “×” نشان دهنده نقاط پرت مکانی و مکانی – زمانی است. برای خوشه های مکانی/مکانی-زمانی و مناطق دورتر، آنها با نمادهایی با اشکال و رنگ های مختلف نشان داده می شوند.

6.2.1. نتایج به دست آمده با روش جدید

شکل 10 الگوهای توزیع فضایی برای STE تولید شده با روش جدید ما را نشان می دهد، که در آن شکل 10 a خوشه های فضایی و شکل 10 b هر دو نقاط و نواحی پرت فضایی را نشان می دهد. شکل 10 الف نشان می دهد که 8 خوشه فضایی با شکل ها و تراکم های مختلف به دست آمده است و می توان آنها را بیشتر به سه ناحیه اصلی، R 1، R 2 و R 3 تقسیم کرد. R 1 و R 3 به ترتیب از SC5 و SC7 تشکیل شده اند. در حالی که R2 تمام 6 خوشه باقیمانده را پوشش می دهد. با مقایسه این نتایج با رویدادهای مهم گزارش شده در GSR، این رویدادها عمدتاً در R2 ، به ویژه در SC1 توزیع می‌شوند. نقاط و نواحی پرت فضایی در شکل 10b عمدتاً در ناحیه اطراف R2 و در شمال مکزیک توزیع شده اند. می توان مشاهده کرد که بخش هایی از نقاط پرت فضایی تمام رویدادهای مهم باقی مانده را به جز آنهایی که توسط خوشه های فضایی پوشش داده شده اند، پوشش می دهند. این نشان می دهد که نقاط پرت فضایی فقط نویز بی فایده نیستند، بلکه می توانند رویدادهای مهم و همچنین خوشه های فضایی را نشان دهند.

بر اساس این الگوهای توزیع فضایی، الگوهای مکانی-زمانی در حال تکامل را می‌توان پس از تنظیم آستانه‌های δ و ε کشف کرد . برای مشاهده اینکه چگونه نتایج برای پارامترهای مختلف متفاوت است، δ و ε مقادیر 1، 2 و 3 را برای تولید مجموعا 9 جفت پارامتر اختصاص می‌دهند. شکل 11 تمام الگوهای مکانی-زمانی در حال تکامل را برای هر جفت پارامتر نشان می‌دهد، جایی که STOP ، STOR و STC به ترتیب از چپ به راست نشان داده شده‌اند. شکل نشان می دهد که با افزایش δ و ε ، STOP کاهش می یابد در حالی که هر دو STORو STC محدوده مکانی-زمانی خود را افزایش می دهند. وقتی δ و ε به عنوان بی‌نهایت تنظیم می‌شوند، رویدادهای فضایی-زمانی توییتر که پیش‌بینی‌های مکانی آن‌ها به همان الگوی توزیع فضایی تعلق دارند، با هم خوشه‌بندی می‌شوند. توجه داشته باشید که از آنجایی که STOP ، STOR و STC به الگوهای توزیع فضایی متناظر خود تکامل می‌یابند، هر STOP ، STOR یا STC فقط شامل آن رویدادهای فضایی-زمانی توییتر است که در همان الگوی توزیع مکانی قرار دارند. روش پیشنهادی همچنین آن دسته از خوشه‌های مکانی-زمانی را استخراج می‌کند (به عنوان مثال، آن مناطقی که با بیضی‌ها در شکل 11 مشخص شده‌اند.) که مناطق پرت فضایی را تشکیل می دهند. بارزترین ویژگی این نوع خوشه مکانی-زمانی این است که به صورت موضعی در بعد مکانی تجمع می یابد و در بعد زمانی پیوسته است.

6.2.2. نتایج بدست آمده توسط ST-DBSCAN

برای ST-DBSCAN، آستانه Eps به ترتیب 70 کیلومتر، 85 کیلومتر و 100 کیلومتر، و MinPts به عنوان 5، 10 و 15 تنظیم می شود. آزمایش های مکرر نشان داد که نتایج خوشه بندی عمدتاً تحت تأثیر Eps و MinPts قرار می گیرد . Δ T در سرتاسر 2 روز تنظیم شده است. نتایج برای 9 مجموعه از پارامترها در شکل 12 نشان داده شده است ، که به وضوح نشان می دهد که یک Eps بزرگتر و یک MinPs کوچکتر با خوشه های مکانی-زمانی بزرگتر مطابقت دارند. در شکل 12 الف، دو ناحیه مکانی-زمانی با دو بیضی سیاه نشان داده شده است که STR 1 و STR 2 نامگذاری شده اند. به عنوان Epsافزایش می یابد و MinPts کاهش می یابد، خوشه مکانی-زمانی در STR 1 به طور قابل توجهی گسترش می یابد در حالی که STR 2 توسط مجموعه ای از خوشه های کوچک همیشه تشکیل می شود. ST-DBSCAN فقط خوشه‌های متراکم را در STR 1 شناسایی می‌کند و نمی‌تواند خوشه‌هایی را با محدوده‌های مکانی کوچک اما محدوده زمانی بزرگ مانند موارد STR 2 کشف کند. با این حال، وقتی Eps 100 کیلومتر است و MinPts 5 است، خوشه مکانی-زمانی در STR است. 1 شامل رویدادهای فضایی-زمانی توییتر است که در الگوهای توزیع مکانی مختلف قرار دارند، همانطور که در شکل 12 ج نشان داده شده است.

6.2.3. نتایج بدست آمده توسط STSNN

برای STSNN، آستانه k به صورت 6، 10، 16 و 20 و بر اساس پیشنهاد لیو و همکاران تعیین شده است. (2014)، k _T و MinPts هر دو روی 0.5 k تنظیم شده اند . آستانه Δ T دوباره 2 روز تعیین می شود. نتایج خوشه بندی برای هر گروه از پارامترها در شکل 13 نشان داده شده است . در اینجا، تنها تعدادی از خوشه‌های کوچک گسسته برای k = 6 و 10 به دست می‌آیند، اما وقتی k به صورت 16 تنظیم می‌شود، یک خوشه کروی بزرگ در STR 1 ظاهر می‌شود، همانطور که در شکل 13 نشان داده شده است.ج. با این حال، این رویکرد از همان مشکل ST-DBSCAN رنج می برد، زیرا هر دو الگوهای توزیع فضایی نهایی رویدادهای توییتر را نادیده می گیرند. علاوه بر این، هیچ کدام قادر به شناسایی دقیق آن خوشه‌ها با محدوده‌های مکانی کوچک و محدوده زمانی بزرگ، مانند آنچه در STR 2 است، نیست. در نظر گرفتن هر دو مکان و زمان نشان می دهد که این رویدادها به طور مداوم در یک دوره زمانی طولانی اتفاق می افتد. بنابراین به یک خوشه مکانی-زمانی مهم تعلق دارد که در حال تبدیل شدن به یک منطقه پرت مکانی است. برای k = 20، خوشه مکانی-زمانی قابل توجه تری به دست می آید که با STR 3 و STR 4 درشکل 13 د. با این حال، خوشه در STR 2 از شکل 13 c هنوز به طور کامل شناسایی نشده است، برای مثال توسط STR 5 در شکل 13 d.

6.3. تجزیه و تحلیل الگوهای مکانی-زمانی در حال تحول

یک تحلیل خاص از الگوهای مکانی-زمانی در حال تکامل نشان می‌دهد که برای نتایج به‌دست‌آمده با روش جدید و گزارش‌شده در بخش 6.2 ، تأکید بر تجزیه و تحلیل این است که چگونه خوشه‌های مکانی-زمانی که با تغییر پارامترها به تشکیل خوشه‌های مکانی تغییر می‌کنند. علاوه بر این، با تمرکز بر یک مجموعه واحد از این نتایج، می توان تحلیل دقیق تری از تکامل الگوهای مکانی-زمانی به دست آورد و نتایج را با رویدادهای مهم شناسایی شده از GSR مقایسه کرد.

6.3.1. تجزیه و تحلیل خوشه های مکانی- زمانی با روش ما

همانطور که در شکل 14 نشان داده شده است، می توان جزئیات خوشه های مکانی-زمانی را که به خوشه های مکانی تبدیل می شوند، تجسم کرد . برای هر گروه از نتایج، توزیع مکانی-زمانی، مکان‌های مکانی و بازه‌های زمانی (مشخص شده با ‘ ↔‘) از خوشه های مکانی-زمانی از چپ به راست نشان داده شده است. خوشه های مکانی-زمانی با ( δ ، ε ) = (1، 1 روز) دارای محدوده مکانی و زمانی کوچکی هستند، همانطور که در شکل 14 a نشان داده شده است، و عمدتاً در خوشه های مکانی پراکنده توزیع شده اند، بدون اینکه خوشه های مکانی-زمانی قابل توجهی تشکیل شوند. SC 5 و SC 8). علاوه بر این، اینها عمدتاً در 2 مجموعه تاریخ [2012.6.21، 2012.7.28] و [2012.8.16، 2012.9.01] و در یک دوره زمانی کوتاه اتفاق می‌افتند. همانطور که با مقایسه شکل 14 d,g با شکل 14 مشاهده می شود، همانطور که δ افزایش می یابد و ε ثابت می ماند، محدوده فضایی این خوشه های مکانی-زمانی به طور قابل توجهی گسترش می یابد.آ. به طور مشابه، همانطور که در شکل 14 b,c نشان داده شده است، همانطور که ε افزایش می‌یابد و δ ثابت می‌ماند، هر خوشه مکانی-زمانی در دوره زمانی طولانی‌تری گسترش می‌یابد . δ همچنین می تواند بر دوره های زمانی خوشه های مکانی-زمانی تأثیر بگذارد. به عنوان مثال، در شکل 14 d، برای ( δ , ε ) = (2، 1 روز) نه تنها محدوده فضایی STC 1 در SC 1 گسترش می یابد، بلکه دوره زمانی از [2012.6.21، 2012.7.28] به طول می انجامد. [2012.6.21, 2012.8.02]. در همان زمان، ε همچنین می‌تواند بر محدوده‌های فضایی خوشه‌های مکانی-زمانی تأثیر بگذارد. وقتی δ ثابت می ماند و εبه 2 یا 3 روز افزایش می یابد، شکل 14 b,c نشان می دهد که یک خوشه مکانی- زمانی جدید STC 5 در SC 5 ظاهر می شود که در شکل 14 a قابل مشاهده نیست .

برای الگوهای مکانی-زمانی در حال تکامل به دست آمده، δ و ε می توانند تا حد زیادی درجه شیوع STTE را منعکس کنند . به عنوان مثال، خوشه های مکانی-زمانی با δ و ε کوچک به معنای آنهایی هستند که STTE فقط در یک فاصله کوتاه در بعد مکانی و به طور مداوم در بعد زمانی گسترش می یابند، اما با افزایش δ و ε ، اعضای جدیدی که علاوه بر فضای اولیه ظاهر می شوند. خوشه های زمانی نشان دهنده روند گسترش گسترده و ناپیوسته است.

علاوه بر این، تجزیه و تحلیل دقیق تر نشان می دهد که چگونه آن رویدادهای فضایی-زمانی توییتر با انتخاب ( δ ، ε ) = (2، 2 روز) به دلیل ماهیت التقاطی به الگوهای توزیع فضایی نهایی تبدیل می شوند . شکل 15 a,c نقاط دورافتاده مکانی-زمانی به دست آمده، مناطق و خوشه های مکانی-زمانی را به ترتیب از چپ به راست نشان می دهد، در حالی که مکان های مکانی و دوره های زمانی مربوطه در شکل 15 b,d نشان داده شده است . این ارقام 12 خوشه مکانی-زمانی را نشان می دهد که در حال تبدیل شدن به نقاط پرت مکانی هستند که عمدتاً در مرکز و شمال مکزیک قرار دارند. در شکل 15 ب، STC 1- STC11 از اواخر ژوئن تا اواسط و اواخر ژوئیه وجود دارد، در حالی که STC 12 برای اولین بار در 20 آگوست 2012 ظاهر شد و تا 1 سپتامبر 2012 ادامه دارد. تعدادی از نقاط پرت مکانی – زمانی و مناطق نیز نقاط پرت مکانی را تشکیل می دهند. خوشه های فضایی به طور کلی توسط خوشه های مکانی-زمانی تکامل یافته اند، همانطور که در شکل 15 c,d نشان داده شده است، و بیشتر آنها بین اواخر ژوئن تا اواخر ژوئیه و اوایل آگوست رخ می دهند، با چهار نهایی از اواسط اوت تا حدود 31 اوت 2012 طول می کشد. نقاط و نواحی پرت فضایی-زمانی نیز در تکامل خوشه های فضایی، به ویژه آن دسته از خوشه های واقع در مرکز مکزیک نقش دارند.

6.3.2. مقایسه با برچسب ها

برای مقایسه نتایج ما با رویدادهای مهم شناسایی شده توسط GSR، سه شهر معمولی که در آن تعداد قابل توجهی از رویدادها گزارش شده است، یعنی Ciudad de México، Pachuca de Soto و Monterrey، برای تجزیه و تحلیل بیشتر انتخاب شده‌اند. شکل 16 a موقعیت مکانی این سه شهر را نشان می دهد و تاریخ های گزارش شده رویدادهای مهم در شکل 16 ب ذکر شده است. با ترکیب شکل 16 a با شکل 15 b,d، می توان دریافت که Ciudad de México و Pachuca de Soto هر دو در محدوده SC 1 قرار دارند . Ciudad de México همچنین در STC 3 و STC 15 قرار دارد در حالی که Pachuca de Soto در STC3. علاوه بر این، مونتری در STC 1 و STC 12 است، که هر دو نقاط پرت فضایی را تشکیل می دهند و با ‘ نشان داده می شوند. ▲در شکل 15 ب. شکل 16 ب نشان می دهد که رویدادهای مهمی در سیوداد د مکزیکو تقریباً هر روز در طول ژوئیه و آگوست گزارش شده است، در حالی که Pachuca de Soto گزارش شده است که رویدادهای مهمی در اواسط ژوئیه، اواخر ژوئیه و در 13 اوت 2012 داشته است. STC 3 و STC 15 در شکل 15 d به ترتیب در طول دوره های [2012.6.21، 2012.8.15] و [2012.8.16، 2012.9.01] وجود دارد. برای مونتری، رویدادهای مهمی در اوایل ژوئیه، اواسط ژوئیه و اواخر اوت گزارش شد. STC1 و STC12 در شکل 16b به ترتیب در طول دوره های [2012.6.21، 2012.8.02] و [2012.8.20، 2012.9.01] وجود دارد. بنابراین، الگوهای مکانی-زمانی در حال تکامل به‌دست‌آمده با استفاده از روش جدید بسیار با رویدادهای مهم گزارش‌شده سازگار است.

7. نتیجه گیری

این مقاله چارچوبی را برای کشف الگوهای مکانی-زمانی مرتبط با دامنه در حال تکامل از داده‌های توییتر پیشنهاد می‌کند. در چارچوب جدید ما، یک بسط پرس و جو پویا برای استخراج رویدادهای فضایی-زمانی توییتر از داده های اولیه توییتر برای یک دامنه هدف معین استفاده می شود، پس از آن یک رویکرد مکانی-زمانی که به طور خاص برای کشف الگوهای مکانی-زمانی در حال تکامل توسعه یافته است. رویدادهای توییتر مربوط به دامنه اعمال می شود. با استفاده از مجموعه داده‌های توییتر در مکزیک برای حوزه ناآرامی‌های مدنی، یک مقایسه تجربی با ST-DBSCAN و STSNN برای نشان دادن اثربخشی روش پیشنهادی ما و عملی بودن آن با مقایسه نتایج به‌دست‌آمده از روش ما با رویدادهای مهم شناسایی‌شده در نشان داده شد، انجام شد. گزارش استاندارد طلا

به طور خلاصه، GSR فقط آن تاریخ‌هایی را جمع‌آوری می‌کرد که رویدادها به اوج خود می‌رسیدند، اما این رویدادها معمولاً با دوره‌ای پیش می‌آمدند که در طی آن درگیری‌های جزئی تشدید می‌شد و پیامدهای بعدی رویداد به دنبال داشت. الگوهای مکانی-زمانی در حال تحول برای رویدادهای توییتر می‌تواند ویژگی رویدادهای گزارش‌شده را بر اساس واکنش‌های ناظران و شرکت‌کنندگان انسانی منعکس کند. بنابراین، اصلاح بیشتر این رویکرد به منظور پیش‌بینی دقیق فرآیند تکامل برای انواع مختلف رویدادها در هر منطقه نماینده (یعنی آن خوشه‌های فضایی و نقاط پرت) مفید خواهد بود. با این حال، برای انجام موثر تجزیه و تحلیل جغرافیایی داده های بزرگ، مانند داده های رسانه های اجتماعی که در این مطالعه متمرکز شده اند، کیفیت داده ها را نمی توان نادیده گرفت زیرا بسیار رایج است که احتمالاً خطاهای متعددی در داده های اولیه وجود دارد. همچنین، داده‌های رسانه‌های اجتماعی معمولاً از سوی جمعیت سوگیری می‌کنند، بنابراین این یک چالش است که این سوگیری باید برطرف شود تا داده‌ها الگوهای مکانی-زمانی را به درستی منعکس کنند.30 ]. بنابراین، کار آینده ما بر تجزیه و تحلیل کیفیت، ناقص بودن و عدم قطعیت داده‌های توییتر و اصلاح بیشتر روش‌های پیشنهادی ما متمرکز خواهد بود. مسئله واحد زمانی قابل تغییر (MTUP) می تواند بر نتایج تشخیص تأثیر بگذارد، بنابراین نحوه انتخاب عرض بهینه پنجره زمانی با در نظر گرفتن مسئله MTUP و کاربردهای عملی خاص نیز در آینده بررسی خواهد شد [31 ، 32 ] . با توجه به تنوع داده‌های بزرگ مکانی-زمانی، چالش استخراج الگوهای مکانی-زمانی بالقوه از مجموعه داده‌های متعدد در دامنه‌های مختلف با نمایش‌ها، توزیع‌ها، مقیاس‌ها، تراکم‌ها و غیره متفاوت وجود دارد [33 ، 34 ]]. علاوه بر این، روش های تجسم جغرافیایی باید توسعه یابد تا نتایج تجزیه و تحلیل پیچیده را به طور واضح و قابل درک به کاربران ارائه دهد.

منابع

جاوا، A. آهنگ، X. فینین، تی. Tseng، B. چرا ما توییتر می کنیم: درک استفاده از میکروبلاگینگ و جوامع. در مجموعه مقالات نهمین WebKDD و اولین کارگاه SNAKDD 2007 در مورد وب کاوی و تجزیه و تحلیل شبکه های اجتماعی، سن خوزه، کالیفرنیا، ایالات متحده آمریکا، 12 تا 15 اوت 2007. صص 56-65.
چنگ، ا. مارک، ای. هارشدی، اس. داخل توییتر: نگاهی عمیق به دنیای توییتر . SYSOMOS: تورنتو، ON، کانادا، ژوئن 2009. [ Google Scholar ]
دی آلبوکرک، جی پی; هرفورت، بی. برنینگ، آ. Zipf، A. یک رویکرد جغرافیایی برای ترکیب رسانه های اجتماعی و داده های معتبر به منظور شناسایی اطلاعات مفید برای مدیریت بلایا. بین المللی جی. جئوگر. Inf. علمی 2015 . [ Google Scholar ] [ CrossRef ]
هیورین، تی. Zach, L. میکروبلاگینگ برای ارتباطات بحران: بررسی استفاده از توییتر در پاسخ به یک بحران خشونت آمیز در سال 2009 در سیاتل-تاکوما، منطقه واشنگتن. در مجموعه مقالات هفتمین کنفرانس بین المللی ISCRAM، سیاتل، WA، ایالات متحده آمریکا، 2-5 مه 2010.
پان، بی. ژنگ، ی. ویلکی، دی. شهابی، ج. سنجش جمعیت از ناهنجاری های ترافیکی بر اساس تحرک انسان و رسانه های اجتماعی. در مجموعه مقالات بیست و یکمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، اورلاندو، فلوریدا، ایالات متحده آمریکا، 5 تا 8 نوامبر 2013. صص 334-343.
جویدن، سی. آیزنباخ، جی. همه‌گیری‌ها در عصر توییتر: تحلیل محتوای توییت‌ها در طول شیوع H1N1 در سال 2009. PLoS ONE 2009 ، 5 ، e14118. [ Google Scholar ] [ CrossRef ] [ PubMed ]
راماژ، دی. دومایس، اس. Liebling، D. مشخص کردن میکروبلاگ ها با مدل های موضوعی. در مجموعه مقالات چهارمین کنفرانس بین المللی AAAI در وبلاگ ها و رسانه های اجتماعی، واشنگتن، دی سی، ایالات متحده آمریکا، 23 تا 26 مه 2010. صص 130-137.
Markman, V. کشف بدون نظارت خوشه‌های موضوعی ریز در پست‌های توییتر. پاپ AAAI کارگاه مقعدی. Microtext 2011 ، WS-11-05 ، 32-37. [ Google Scholar ]
فوجیساکا، تی. لی، آر. Sumiya, K. تشخیص مکان های غیرمعمول شلوغ از طریق سایت های میکروبلاگینگ. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی IEEE 2010 در کارگاه های آموزشی شبکه های اطلاعاتی پیشرفته و برنامه های کاربردی، پرت، استرالیا، 20-23 آوریل 2010. صص 467-472.
لی، آر. واکامیا، س. سومیا، ک. کشف فعالیت‌های اجتماعی غیرمعمول منطقه‌ای با استفاده از میکروبلاگ‌های دارای برچسب جغرافیایی. وب جهانی 2011 ، 14 ، 321-349. [ Google Scholar ] [ CrossRef ]
چای، جی. تام، دی. بوش، اچ. جانگ، ی. Maciejewski، R. تجزیه و تحلیل رسانه های اجتماعی فضایی-زمانی برای تشخیص رویداد غیرعادی یک بررسی با استفاده از تجزیه فصلی روند. در مجموعه مقالات کنفرانس IEEE 2012 در علم و فناوری تجزیه و تحلیل بصری (VAST)، سیاتل، WA، ایالات متحده آمریکا، 14-19 اکتبر 2012. صص 143-152.
چنگ، تی. Wicks, T. تشخیص رویداد با استفاده از توییتر: یک رویکرد مکانی-زمانی. PLoS ONE 2014 ، 9 ، e97807. [ Google Scholar ] [ CrossRef ] [ PubMed ]
ژائو، ال. چن، اف. دای، جی. هوآ، تی. لو، سی.-تی. راماکریشنان، ن. تشخیص رویداد فضایی بدون نظارت در حوزه های هدفمند با برنامه های کاربردی برای مدل سازی ناآرامی های مدنی. PLoS ONE 2014 ، 9 ، e110206. [ Google Scholar ] [ CrossRef ] [ PubMed ]
باکی‌الله، م. لی، RY; Liang، SH شناسایی جامعه جغرافیایی در توییتر با بهینه‌سازی سریع ماژولاریته: مطالعه موردی طوفان Haiyan. بین المللی جی. جئوگر. Inf. علمی 2014 . [ Google Scholar ] [ CrossRef ]
لیو، کیو. دنگ، م. بی، جی. یانگ، دبلیو. روشی جدید برای کشف خوشه‌های مکانی-زمانی با اندازه‌ها، شکل‌ها و چگالی‌های مختلف در حضور نویز. بین المللی جی دیجیت. زمین 2014 ، 7 ، 138-157. [ Google Scholar ] [ CrossRef ]
بلی، دی. نگ، ا. جردن، M. تخصیص دیریکله نهفته. جی. ماخ. فرا گرفتن. Res. 2003 ، 3 ، 993-1022. [ Google Scholar ]
سیگنورینی، آ. Segre, AM; Polgreen, PM استفاده از توییتر برای ردیابی سطوح فعالیت بیماری و نگرانی عمومی در ایالات متحده در طول همه‌گیری آنفولانزای H1N1. PLoS ONE 2011 ، 6 ، e19467. [ Google Scholar ] [ CrossRef ] [ PubMed ]
چاکرابارتی، دی. Punera، K. خلاصه‌سازی رویداد با استفاده از توییت‌ها. در مجموعه مقالات پنجمین کنفرانس بین المللی AAAI در وبلاگ ها و رسانه های اجتماعی، بارسلون، اسپانیا، 17 تا 21 ژوئیه 2011. صص 66-73.
وانگ، ام. وانگ، آ. Li، A. استخراج خوشه های مکانی-زمانی از پایگاه داده های جغرافیایی. لکت. یادداشت ها Artif. هوشمند 2006 ، 4093 ، 263-270. [ Google Scholar ]
چنگ، تی. Li، Z. یک رویکرد چند مقیاسی برای تشخیص نقاط پرت مکانی-زمانی. ترانس. GIS 2006 ، 10 ، 253-263. [ Google Scholar ] [ CrossRef ]
وو، ای. لیو، دبلیو. Chawla، S. تشخیص پرت مکانی-زمانی در داده های بارش. دانستن کشف کنید. Sens. Data 2010 ، 5840 ، 115-133. [ Google Scholar ]
کولدورف، ام. هفرنان، آر. هارتمن، جی. آسونسائو، آر. مستشاری، ف. آمار اسکن جایگشت فضا-زمان برای تشخیص شیوع بیماری. PLoS Med. 2005 ، 2 ، e59. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
لیو، پی. ژو، دی. Wu, N. VDBSCAN: خوشه بندی فضایی مبتنی بر چگالی متنوع کاربرد با نویز. در مجموعه مقالات کنفرانس بین المللی 2007 در سیستم های خدمات و مدیریت خدمات، چنگدو، چین، 9-11 ژوئن 2007. صص 528-531.
ونگ، جی. لی، BS تشخیص رویداد در توییتر. در مجموعه مقالات پنجمین کنفرانس بین المللی AAAI در وبلاگ ها و رسانه های اجتماعی، بارسلون، اسپانیا، 17 تا 21 ژوئیه 2011. ص 401-408.
استیویل کاسترو، وی. Lee, I. خوشه‌بندی بدون استدلال برای مجموعه داده‌های نقطه‌ای مکانی بزرگ. محاسبه کنید. محیط زیست سیستم شهری 2002 ، 26 ، 315-334. [ Google Scholar ] [ CrossRef ]
دنگ، م. لیو، کیو. چنگ، تی. Shi, Y. یک الگوریتم خوشه‌بندی فضایی تطبیقی مبتنی بر مثلث‌سازی دلونی. محاسبه کنید. محیط زیست سیستم شهری 2011 ، 35 ، 320-332. [ Google Scholar ] [ CrossRef ]
جیانگ، M.-F. Tseng، S.-S.; سو، سی.-ام. فرآیند خوشه بندی دو فازی برای تشخیص نقاط پرت. تشخیص الگو Lett. 2001 ، 22 ، 691-700. [ Google Scholar ] [ CrossRef ]
الذوبی، م.ب. الدهود، ع.ا. یحیی، ع. روش جدید تشخیص پرت مبتنی بر خوشه بندی فازی. WSEAS Trans. Inf. علمی Appl. 2010 ، 7 ، 681-690. [ Google Scholar ]
شی، ی. دنگ، م. یانگ، ایکس. لیو، کیو. تشخیص تطبیقی نقاط پرت رویداد نقطه فضایی با استفاده از مثلث بندی دلونی محدود شده چند سطحی. محاسبه کنید. محیط زیست سیستم شهری 2016 . [ Google Scholar ] [ CrossRef ]
وانگ، جی. Ge، Y. لی، ال. منگ، بی. وو، جی. پسر.؛ دو، اس. لیائو، ی. هو، م. Xu, C. تجزیه و تحلیل داده های فضایی و زمانی در جغرافیا. Acta Geogr. گناه 2014 ، 69 ، 1326-1345. [ Google Scholar ]
چنگ، تی. Adepeju، M. مسئله واحد زمانی قابل تغییر (MTUP) و تأثیر آن بر تشخیص خوشه فضا-زمان. PLoS ONE 2014 ، 9 ، e100465. [ Google Scholar ] [ CrossRef ] [ PubMed ]
هوانگ، Q. Wong، DWS مدل‌سازی و تجسم الگوهای حرکتی منظم انسان با عدم قطعیت: مثالی با استفاده از داده‌های توییتر. ان دانشیار صبح. Geogr. 2015 ، 105 ، 1179-1197. [ Google Scholar ] [ CrossRef ]
ژنگ، ی. روش‌های ادغام داده‌های متقابل دامنه: یک مرور کلی. IEEE Trans. کلان داده 2015 ، 1 ، 16-34. [ Google Scholar ] [ CrossRef ]
ژنگ، ی. ژانگ، اچ. Yu, Y. تشخیص ناهنجاری های جمعی از مجموعه داده های مکانی-زمانی متعدد در دامنه های مختلف. در مجموعه مقالات بیست و سومین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، Bellevue، WA، ایالات متحده، 3-6 نوامبر 2015. صص 1-10.

شکل 1. یک نمونه واقعی از رویدادهای فضایی-زمانی توییتر.

شکل 2. یک مجموعه داده شبیه سازی شده از رویدادهای نقطه ای مکانی- زمانی با 10 مهر زمانی. ( الف ) توزیع مکانی-زمانی مجموعه داده از چهار منظر مختلف مشاهده شده است. ( ب ) پیش‌بینی فضایی رویدادهای نقطه‌ای مکانی-زمانی برای تمام مهرهای زمانی. ( ج ) طرح ریزی فضایی رویدادهای نقطه ای مکانی-زمانی برای مهرهای زمانی فردی.

شکل 3. چارچوب پیشنهادی برای کشف الگوهای در حال تکامل در رویدادهای توییتر دارای برچسب جغرافیایی.

شکل 4. فرآیند اعمال محدودیت های چندگانه بر مثلث سازی دلون. ( الف ) مثلث اولیه دلونی. ( ب ) نتیجه اعمال محدودیت در سطح کلان. ( ج ) نتیجه اعمال محدودیت در سطح متوسط. ( د ) نتیجه اعمال محدودیت در سطح خرد.

شکل 5. فرآیند شناسایی خوشه های فضایی و نقاط پرت فضایی. ( الف ) نقاط پرت فضایی؛ ( ب ) مناطق پرت فضایی. ( ج ) خوشه های پرت فضایی.

شکل 6. ساخت روابط مجاورت فضایی. ( الف ) رویدادهای فضایی توییتر که کل دوره زمانی را پوشش می دهد. ( ب – د ) رویدادهای فضایی توییتر به ترتیب در T = 5، T = 6 و T = 7.

شکل 7. ساخت روابط مجاورت فضایی. ( الف ) رویدادهای فضایی-زمانی توییتر از T = 5 تا T = 7. ( ب ) نمودارهای اتصال مکانی-زمانی.

شکل 8. الگوهای مکانی-زمانی در حال تکامل STTE و الگوهای توزیع فضایی STE . ( الف ) نقاط پرت مکانی-زمانی؛ ( ب ) خوشه های مکانی- زمانی. ( ج ) الگوهای توزیع فضایی STE . در هر شکل، نمادهای مختلف نشان دهنده STO یا STC مختلف به جز نقاط سیاه هستند.

شکل 9. STTE مربوط به ناآرامی های مدنی در مکزیک از 21 ژوئن تا 1 سپتامبر است . ( ب ) STE مربوطه به دست آمده با طرح ریزی فضایی رویدادهای فضایی-زمانی توییتر.

شکل 10. الگوهای توزیع فضایی برای STE . ( الف ) خوشه های فضایی؛ ( ب ) نقاط پرت فضایی. SOP و SOR به ترتیب نقاط و مناطق پرت فضایی را نشان می دهند.

شکل 11. الگوهای مکانی-زمانی در حال تکامل STTE کشف شده با روش پیشنهادی. ( الف ) δ = 1، ε = 1; ( ب ) δ = 1، ε = 2; ( ج ) δ = 1، ε = 3; ( d ) δ = 2، ε = 1; ( e ) δ = 2، ε = 2; ( f ) δ = 2، ε = 3; ( g ) δ = 3، ε = 1; ( h ) δ= 3، ε = 2; ( i ) δ = 3، ε = 3.

شکل 12. خوشه های مکانی-زمانی کشف شده توسط ST-DBSCAN. ( a ) Eps = 70، MinPts = 5، Δ T = 2. ( ب ) Eps = 85، MinPts = 5، Δ T = 2; ( ج ) Eps = 100، MinPts = 5، Δ T = 2; ( d ) Eps = 70، MinPts = 10، Δ T = 2; ( e ) Eps = 85، MinPts = 10، Δ T = 2; ( f ) Eps = 100،MinPts = 10، Δ T = 2; ( g ) Eps = 70، MinPts = 15، Δ T = 2; ( h ) Eps = 85، MinPts = 15، Δ T = 2; ( i ) Eps = 100، MinPts = 15، Δ T = 2.

شکل 13. خوشه های مکانی-زمانی کشف شده توسط STSNN. ( a ) k = 6، k _T = 3، MinPts = 3، Δ T = 2. ( ب ) k = 10، k _T = 5، MinPts = 5، Δ T = 2. ( ج ) k = 16، k _T = 8، MinPts = 8، Δ T = 2. ( d ) k = 20، k _T = 10، MinPts = 10، ΔT = 2.

شکل 14. خوشه های مکانی-زمانی در STTE که خوشه های فضایی در STE و مکان های مکانی و دوره های زمانی آنها را تشکیل می دهند. ( الف ) δ = 1، ε = 1; ( ب ) δ = 1، ε = 2; ( ج ) δ = 1، ε = 3; ( d ) δ = 2، ε = 1; ( e ) δ = 2، ε = 2; ( f ) δ = 2، ε = 3; ( g ) δ = 3،ε = 1; ( h ) δ = 3، ε = 2; ( i ) δ = 3، ε = 3.

شکل 15. الگوهای مکانی-زمانی در حال تکامل کشف شده برای STTE با پارامترهای δ = 2, ε = 2. ( a , b ) الگوهای مکانی-زمانی در حال تکامل نقاط پرت مکانی و مکان‌های مکانی و محدوده زمانی آنها. ( ج ، د ) الگوهای مکانی-زمانی در حال تحول خوشه‌های فضایی و مکان‌های مکانی و محدوده زمانی آنها.

شکل 16. سه شهر که رویدادهای مهم متعددی را گزارش می کنند. ( الف ) موقعیت جغرافیایی سه شهر؛ ( ب ) تاریخ های گزارش رویدادهای مهم برای سه شهر.

© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب