ردیابی تکامل مکانی- زمانی رویدادها بر اساس داده های رسانه های اجتماعی

خلاصه

داده های رسانه های اجتماعی فرصتی عالی برای بررسی جریان رویدادها در شهرها فراهم می کند. علی‌رغم مزایای داده‌های رسانه‌های اجتماعی در این تحقیقات، ناهمگونی داده‌ها و اندازه کلان داده‌ها چالش‌هایی را برای محققانی که به دنبال شناسایی اطلاعات مفید درباره رویدادها از داده‌های خام هستند، ایجاد می‌کند. علاوه بر این، مطالعات کمی از پست‌های رسانه‌های اجتماعی برای ثبت چگونگی توسعه رویدادها در فضا و زمان استفاده کرده‌اند. این مقاله یک رویکرد کارآمد مبتنی بر یادگیری ماشین و تجسم جغرافیایی برای شناسایی رویدادها و ردیابی توسعه این رویدادها در زمان واقعی را نشان می‌دهد. ما یک مطالعه تجربی برای ترسیم تکامل زمانی و مکانی یک رویداد طبیعی (بارش شدید) و یک رویداد اجتماعی (بازدید پاپ فرانسیس از ایالات متحده) در مناطق شهر نیویورک-واشنگتن، دی سی انجام دادیم.

کلید واژه ها:

داده های رسانه های اجتماعی ؛ سیستم های اطلاعات جغرافیایی ; رویداد فضا-زمان ؛ تحلیل فضایی

1. معرفی

توسعه سریع فناوری اطلاعات و ارتباطات (ICT) منجر به گسترش مجموعه‌ای از داده‌های تحرک بسیار شخصی شده استخراج شده از پست‌های رسانه‌های اجتماعی شده است. سرویس‌های رسانه‌های اجتماعی، به‌ویژه پلتفرم‌های میکروبلاگینگ مانند توییتر، اشتراک‌گذاری افکار خود در مورد رویدادهای لحظه‌ای را برای افراد آسان‌تر می‌کنند و اطلاعاتی را ارائه می‌دهند که می‌تواند توسط محققان برای اهداف مختلف استخراج و استفاده شود. از سال 2007 تا 2013، تعداد کل توییت های روزانه از پنج هزار به 500 میلیون در سراسر جهان افزایش یافت .]. افزایش تعداد توییت ها و محتوای جغرافیایی فراوانی که در توییت ها تعبیه شده است، توییتر را به منبعی عالی برای مطالعات تحرک جغرافیایی تبدیل کرده است. داده‌های توییتر برای محققان جغرافیایی که برای جمع‌آوری اطلاعات رویدادهای جغرافیایی تلاش می‌کنند که می‌تواند زودگذر و پویا باشد، نعمت بزرگی بوده است.

چندین ویژگی کلیدی توییتر آن را در نظارت بر چگونگی پیشرفت رویدادها ارزشمند می کند. ابتدا، پلتفرم توییتر به کاربران امکان می دهد در هر زمان و در هر مکانی درباره آنچه اتفاق می افتد توییت کنند. دوم، کاربرانی که به‌عنوان حسگرهای اجتماعی عمل می‌کنند، دائماً اطلاعات بلادرنگ یا نزدیک به زمان واقعی را به عموم گزارش می‌دهند. ویژگی ریتوییت (پست مجدد توییت شخص دیگری) به انتشار اطلاعات بیشتر و سریعتر کمک می کند. ثالثاً، توییت‌های ارجاع‌شده جغرافیایی نیز توصیف‌های صریح زمانی-مکانی رویدادها را ارائه می‌کنند. چهارم، پایگاه کاربران بزرگ (اعم از افراد و سازمان ها) و توزیع جغرافیایی گسترده کاربران، پوشش گسترده ای از رویدادها را در سراسر جهان ارائه می دهد. این ویژگی ها تعداد فزاینده ای از محققین را جذب کرده است که از داده های توییتر برای بررسی فعالیت های انسانی شهری و الگوهای تحرک استفاده می کنند [ 2]، 3 ، 4 ].

علیرغم مزایای توییتر در تحقیقات جغرافیایی، ناهمگونی داده ها و اندازه کلان داده استخراج اطلاعات مفید از داده های توییتر را چالش برانگیز می کند [ 5 ]. پیام‌های کاربران به موضوعات و احساسات، علایق شخصی و فعالیت‌های مختلف می‌پردازد. توییت ها همچنین از اختصارات و عبارات یا کلمات غیر معمول استفاده می کنند. استخراج اطلاعات ثابت در مورد رویدادها به دلیل محتوای فراوان و متنوع دشوار است. برخی رویدادهای مهم می‌توانند تعداد زیادی پست را در مدت زمان بسیار کوتاهی ایجاد کنند و مدیریت کارآمد حجم داده‌های بزرگ در برنامه‌های حساس به زمان را دشوار می‌کنند. در سال‌های اخیر، سیستم‌ها و الگوریتم‌های زیادی برای رسیدگی به این چالش‌ها توسعه یافته‌اند [ 6]، از جمله رویکردهایی که توزیع فضایی توییت‌های دارای برچسب جغرافیایی را تحلیل می‌کنند، مانند خوشه‌بندی جغرافیایی یا اسکن‌های زمانی- مکانی [ 7 ]. بیشتر مطالعات قبلی بر روی توسعه الگوریتم هایی برای تشخیص رویداد تمرکز دارند. توجه کمتری به تجزیه و تحلیل تکامل مکانی-زمانی رویدادهای شناسایی شده شده است. یافتن الگوها و توالی رویدادها در وضعیت شار رویداد پیوسته ضروری می شود [ 8 ]. پرسش‌هایی مانند زمان و مکان شکل‌گیری رویدادها و اینکه رویدادها چگونه تکامل توییت‌ها را در مکان و زمان دیکته می‌کنند، کمتر مستند شده‌اند.

در این مقاله، ما یک رویکرد سیستماتیک برای برداشت، پردازش و تجزیه و تحلیل داده‌های رسانه‌های اجتماعی به منظور ترسیم تکامل مکانی و زمانی رویدادها ارائه می‌کنیم.

رویکرد ما سه کمک منحصر به فرد به ادبیات ارائه می دهد. اول، این مطالعه از جریان داده های توییتر در زمان واقعی استفاده می کند. برخلاف روش‌هایی مانند اسکن‌های مکانی-زمانی که عمدتاً برای فرآیندهای دسته‌ای استفاده می‌شوند، این مطالعه از دو پنجره متحرک برای شناسایی مؤثر رویدادهای زمان واقعی بالقوه در منطقه مورد مطالعه استفاده می‌کند. دوم، رویکرد پیشنهادی همچنین رویدادهای منطقه‌ای و محلی را بر اساس ویژگی‌هایی از ابعاد مختلف توییت‌ها به طور همزمان کشف می‌کند. سوم، ما همچنین تکامل مکانی-زمانی و پویایی رویدادهای طبیعی و اجتماعی را بررسی می کنیم.

در این مطالعه، ما یک رویکرد کارآمد مبتنی بر یادگیری ماشین و تجسم جغرافیایی را با استفاده از ابعاد مختلف توییت‌ها (اطلاعات پیام، نویسنده، زمان و مکان)، برای شناسایی تکامل رویدادها، از جمله رویدادهای برنامه‌ریزی‌شده (مانند جشنواره‌ها یا ورزش) توسعه می‌دهیم. و حوادث اتفاقی (مثلاً بلایا یا حوادث). ما مسیر رویدادها را در فضا و زمان دنبال می کنیم. ما این روش را با دو مطالعه موردی نشان می‌دهیم که الگوهای حرکت زمانی رویدادها را در شهر نیویورک-واشنگتن، منطقه دی سی تحلیل می‌کنند. با ترکیب ابعاد چندگانه داده‌های توییتر، این مقاله روشی را برای ایجاد مسیرهای مکانی و زمانی رویدادها با استخراج داده‌های داوطلبانه از پلتفرم‌های رسانه‌های اجتماعی ارائه می‌کند.

2. کارهای مرتبط

تجزیه و تحلیل داده های رسانه های اجتماعی برای به دست آوردن اطلاعات مکانی و دانش مربوط به رویداد توجه فزاینده ای را به خود جلب کرده است [ 9 ، 10 ، 11 ]. داده های رسانه های اجتماعی یک فرصت بی سابقه برای مطالعه پویایی های زمانی در زمان واقعی و در مقیاس های چندگانه ارائه می دهد [ 8 ]. با این حال، به دلیل ماهیت پر سر و صدا و پیچیده پیام‌های رسانه‌های اجتماعی، استخراج اطلاعات معنادار بی‌اهمیت است. به عنوان مثال، بیش از 200 میلیون توییت در سال 2011 هر روز پست می شد [ 12 ]. اطلاعات مهم شهری اغلب در مخزن بزرگی از داده های نامربوط دفن می شوند. استخراج اطلاعات معنی دار بدون تجزیه و تحلیل متن هوشمند و استراتژی های کارآمد عملا غیرممکن است [ 12].

برای تسهیل استخراج چنین داده‌هایی، مطالعات اخیر روش‌هایی را برای ثبت الگوهای مکانی-زمانی فعالیت‌های انسانی و رویدادهای شهری از داده‌های توییتر توسعه داده‌اند [ 6 ، 13 ]. روش های تشخیص رویداد در این مطالعات را می توان تا حد زیادی به عنوان هدفمند یا عمومی طبقه بندی کرد. تشخیص رویداد هدفمند معمولاً بر روی انواع خاصی از رویدادها بر اساس مجموعه ای از کلمات یا هشتگ ها تمرکز می کند، مانند زلزله [ 14 ]، اپیدمی های آنفولانزا [ 15 ] و بازی های ورزشی [ 16 ، 17]]. توییت‌هایی که حاوی کلمات کلیدی یا هشتگ‌های خاصی هستند، مانند «زلزله» یا «NFL» می‌توانند برای شناسایی دقیق رویدادهای مرتبط با موضوع مورد علاقه استفاده شوند. با این حال، مجموعه کلمات کلیدی ممکن است ذهنی باشد و بسیاری از توییت های دیگر مرتبط با رویدادها را حذف کند. همچنین ممکن است برای انتخاب کلمات مناسب برای ردیابی به تجربه قبلی رویداد نیاز باشد [ 7 ]. برخی از مطالعات اخیر الگوریتم هایی را برای مقابله با این موضوع ایجاد کرده اند. سیستم TEDAS برای کشف جرم و حوادث مرتبط با فاجعه (CDE) توسعه یافته است. این مطالعه به صورت دستی مجموعه ای از کلمات کلیدی مرتبط با CDE را به عنوان دانه تنظیم کرد و سپس یک الگوریتم اصلاح شده تکراری را برای استخراج کلمات کلیدی مرتبط جدید اعمال کرد [ 4 ]. لیلوی و همکاران (2017) میزان ارتباط پیام های توییتر را با یک رویداد خاص مورد علاقه ارزیابی کرد [18 ]. وانگ و همکاران (2012) از یک رویکرد برچسب گذاری نقش معنایی برای هدف قرار دادن توییت های مرتبط با جرم استفاده کرد [ 19 ].

در مقابل، تشخیص رویداد عمومی بر موضوعات نوظهوری تمرکز می‌کند که توجه جمعیت زیادی را به خود جلب می‌کند (مثلاً یک طوفان یا جشنواره ملی) یا حوادث محلی که به سرعت در زمان و در مکان متراکم اتفاق می‌افتند (مثلاً تصادفات رانندگی یا رژه). روش های مختلفی برای تشخیص این رویدادهای عمومی استفاده شده است. روش‌های تشخیص مبتنی بر محتوا از تکنیک‌های محوری سند یا محور محوری استفاده می‌کنند [ 20 ، 21]. Document-pivots معمولاً از تکنیک های خوشه بندی برای یک ماتریس سند-ترم برای شناسایی یک موضوع در یک مجموعه بزرگ استفاده می کند. تکنیک‌های محور محوری بر روی ویژگی‌های n-gram کار می‌کنند، با هدف شناسایی عبارات نماینده برای رویداد مورد نظر. بسیاری از تکنیک‌های داده کاوی در این دو رویکرد استفاده شده‌اند، از جمله تکنیک‌های خوشه‌بندی سلسله مراتبی مبتنی بر فواصل زوجی [ 21 ]، تجزیه و تحلیل موجک فرکانس‌های کلمه برای به دست آوردن ویژگی‌هایی برای هر کلمه [ 22 ]، و هش حساس محلی (LSH) برای کشف رویدادهای احتمالی. [ 23 ]. برای تشخیص مبتنی بر مختصات، مجاورت فضایی به طور گسترده ای برای آماده سازی توییت های نامزد برای رویدادهای محلی استفاده شده است [ 3 ، 24]]. DBSCAN همچنین برای کشف خوشه هایی با شکل دلخواه استفاده شده است [ 25 ]. نقاط داغ شناسایی شده احتمالاً با رویدادهای خاصی مرتبط هستند.

آمار اسکن فضا-زمان برای جستجوی دسته‌هایی از توییت‌ها در فضا و زمان، صرف نظر از محتوای توییت، استفاده شده است. این روش می تواند رویدادهای مختلف را حتی در مدت زمان نسبتاً کوتاهی از جمع آوری داده ها شناسایی کند [ 7 ]. از الگوهای زمانی توییت ها نیز می توان برای تشخیص رویدادها استفاده کرد. رویدادها معمولاً انبوهی از ویژگی‌ها را در جریان‌های توییتر نشان می‌دهند، مانند افزایش ناگهانی کلمات کلیدی خاص [ 20 ]. لی از تکنیک پنجره کشویی برای تشخیص تغییرات زمینه استفاده کرد و جریان های پیام را بر این اساس وزن کرد [ 26 ]. بوچر و لی از تکنیک‌های خوشه‌بندی مبتنی بر چگالی در توییت‌هایی که در یک بازه زمانی کشویی گرفته شده‌اند برای شناسایی رویدادهای احتمالی استفاده کردند [ 24 ].

بسیاری از روش‌های مورد استفاده برای استخراج رویدادها، مانند روش اسکن فضا-زمان، مبتنی بر تکنیک‌های خوشه‌بندی مکان هستند. این تکنیک ها در زمینه تشخیص رویداد گذشته نگر (RED) موثر هستند، زیرا مجموعه داده های تاریخی معمولاً حاوی مختصات نقطه غنی هستند. با این حال، ما به رویکردهایی برای مقابله با چالش تشخیص رویداد جدید (NED) از جریان‌های زمان واقعی نیاز داریم. روش‌های قبلی که با NED مقابله می‌کنند، مانند خوشه‌بندی سلسله مراتبی، از نظر محاسباتی فشرده و کند هستند. روش‌های سبک و کارآمد برای پردازش داده‌های توییت بلادرنگ مورد نیاز است.

بسیاری از مطالعات بر روی تکنیک‌های تشخیص رویداد تمرکز دارند، اما تعداد کمتری از آنها به بررسی تکامل مکانی-زمانی این رویدادها می‌پردازند. داده های رسانه های اجتماعی ممکن است معنای معنایی، اطلاعات پس زمینه و احساسات را در محتوا جاسازی کنند. گاهی اوقات این محتوا به صورت مکان دقیق از جایی که این توییت‌ها پست شده‌اند یا به عنوان نام‌های این مکان‌ها دارای برچسب جغرافیایی می‌شوند [ 9 ]. مطالعات گزارش کرده‌اند که درصد توئیت‌های دارای برچسب جغرافیایی دقیق ممکن است بسته به رویداد، زمان و مکان متفاوت باشد و تقریباً از 0.5٪ تا 5.0٪ از کل مجموعه داده‌ها متغیر باشد [9 ، 27 ، 28 ]]. اگرچه درصد کلی توییت‌های برچسب‌گذاری‌شده جغرافیایی زیاد نیست، اما هنوز هم می‌توان رویدادهای برچسب‌گذاری‌شده جغرافیایی را از توییت‌ها در سطح جمع‌آوری، به‌ویژه در مقیاس منطقه‌ای تشخیص داد. اطلاعات معنایی و مکانی در مقیاس های منطقه ای فرصت خوبی برای تجزیه و تحلیل تحول مکانی- زمانی رویدادها فراهم می کند. احساسات تعبیه شده در توییت‌ها همچنین می‌تواند نگرش‌ها و احساسات عمومی را در حین توسعه رویداد دنبال کند. چند مطالعه جغرافیایی پیشرفت رویدادها را با برداشت و تجزیه و تحلیل اطلاعات مکانی از محتوای رسانه‌های اجتماعی بررسی کرده‌اند. این مطالعات پیشرفت بلایای طبیعی مانند آتش سوزی [ 29 ] و زلزله [ 30] را بررسی کرده اند.]. تجزیه و تحلیل فضایی و زمانی محتوای توییتر نیز برای ردیابی شیوع و توزیع بیماری استفاده شده است [ 31 ، 32 ].

هدف این مطالعه ابتدا ایجاد یک رویکرد کارآمد برای اسکن سریع ابعاد چندگانه توییت‌ها برای ثبت رویدادهای زمان واقعی و منطقه‌ای، از جمله رویدادهای برنامه‌ریزی‌شده (مانند جشنواره‌ها یا ورزش) و تصادفی (مثلاً بلایا یا حوادث) و فرمول‌بندی تصاویر موضوعی این رویدادها است. در نقاط مبدأ خود دوم، ما مسیرهای مکانی و زمانی رویدادهای فرموله شده را ردیابی می کنیم تا ویژگی های مکانی-زمانی آن رویدادهای منطقه ای شناسایی شده را بررسی کنیم و واکنش مردم به این رویدادها را بررسی کنیم.

3. روش ها

شکل 1 جریان کلی فرآیند داده را نشان می دهد. داده‌های توییتر بلادرنگ منتشر شده از طریق رابط برنامه‌نویسی جریانی (API) به عنوان اسناد MongoDB جمع‌آوری و تجزیه می‌شوند. سپس، اطلاعات مکانی-زمانی از سند MongoDB برای فرآیند تشخیص الگو خوانده می شود. مدل محاسباتی برای تشخیص الگو به زبان R ساخته شد. برای تجسم نتایج از برگه و R استفاده شد.

3.1. جمع آوری داده ها

داده های مورد استفاده در این مطالعه از طریق API جریان توییتر در زمان واقعی به سیستم ما منتقل شد. Geo API توییتر به کاربران این امکان را می‌دهد که پست‌های توییتی را که در یک منطقه جغرافیایی تعریف شده توسط یک کادر محدود قرار دارند، جمع‌آوری کنند. در این مطالعه، ما یک کادر مرزی ترسیم می کنیم که مناطق شهری از نیویورک تا واشنگتن دی سی را پوشش می دهد. این منطقه نه تنها یکی از مناطقی است که بیشترین جمعیت کاربر توییتر را دارد، بلکه دارای شهرهایی با موقعیت اجتماعی-اقتصادی متمایز و برجسته است. واشنگتن دی سی پایتخت ایالات متحده است و شهر نیویورک یک شهر جهانی با نقش تعیین کننده در اقتصاد جهانی است. داده ها با استفاده از یک ساختار ارزش کلیدی استاندارد منتشر می شوند. اطلاعات جغرافیایی بسیار ارزشمندی را می توان با استفاده از این ساختار استخراج کرد، مانند پروفایل های کاربر و موقعیت جغرافیایی توییت ها. توییت‌های جمع‌آوری‌شده از Geo API حداقل یک نوع داده مکان دارند، مانند محتوای مکان، مناطق زمانی، نام مکان‌ها و اندازه‌گیری‌های سیستم موقعیت‌یابی جهانی (GPS). اطلاعات GPS دقیق ترین اطلاعات نقطه ای را از جایی که یک توییت پست شده است، ارائه می دهد. میانه خطای افقی تخمین زده شده برای GPS در تلفن های هوشمند حدود 5-8.5 متر است.33]. از آنجایی که اکثر توییت ها از GPS برای نشان دادن مکان خود استفاده می کردند، ما فقط از توییت هایی با اطلاعات GPS استفاده می کردیم. در این مطالعه، پیام توییت واقعی، مکان ارسال و زمان پست تجزیه و تحلیل شد. هر توییت تجزیه‌شده را می‌توان با عبارت زیر نشان داد: tw = (id; uid; twtxt; twtime; twloc) که در آن id شناسه توییت است، uid شناسه کاربر، twtxt پیام توییت، twtime مهر زمانی و twloc مکان جغرافیایی است. اطلاعات هر توییت تجزیه شده به عنوان یک سند MongoDB ذخیره شد. MongoDB از پرس و جوهای متنی (غیر مکانی) و همچنین پرس و جوهای فضایی پشتیبانی می کند. به منظور بهبود عملکرد پرس و جو MongoDB، دو شاخص ایجاد شده است، یکی برای شناسه غیرمکانی و دیگری شاخص فضایی برای twloc فضایی. برای شاخص فضایی، روابط جغرافیایی نسبی توییت ها را می توان برای نشان دادن توییت های نزدیک ایجاد کرد.

3.2. پیش پردازش داده ها

در این مرحله، توییت‌ها با حذف توییت‌های غیر انگلیسی، کاراکترهای خاص، کلمات توقف، جایگزینی حروف بزرگ با حروف کوچک و توکن کردن هر توییت به کلمات جداگانه، پاک و فیلتر شدند. کلمات توقف از لیست SMART در بسته R tm بازیابی شد. ما همچنین کلمات محبوب دیگری را در منطقه مورد مطالعه بر اساس توییت‌های تاریخی شناسایی کردیم، مانند «احساس»، «ساعت» و «دوست» که در بسته‌های کلمات توقف گنجانده نشده‌اند. این کلمات در فرآیند تشخیص کاربرد کمتری دارند و از این رو از مجموعه حذف شدند. ما از جعبه ابزار MC برای توکن کردن یک سند در فضای برداری استفاده کردیم. MC toolkit یک برنامه مبتنی بر C++ است که مدل‌های فضای برداری را از اسناد متنی با استفاده از پیاده‌سازی چند رشته‌ای ایجاد می‌کند که می‌تواند به طور موثر مجموعه‌های اسناد بسیار بزرگ را پردازش کند [ 34 ]. فرض کنید

t_{i}

داده های توییت در حال پردازش است، و

c_{i}

محتوای آن است

t_{i}

. نتیجه پیش پردازش تقسیم می شود

c_{i}

در اطراف فضاهای خالی برای ایجاد مجموعه ای از کلمات

W_{i}

. عبارت

c_{i} = “ S o t h i s i s h a p p e n i n g . u f c 205 ”

تبدیل خواهد شد به

W_{i} = {“ happening ”, “ u f c 205 ”}

3.3. ماژول ساخت لایه

بر اساس مهرهای زمانی، توییت‌ها در یک بازه زمانی یک ساعته ابتدا استخراج و به سازنده لایه ارسال شدند. سازنده هر توییت t را به شماره توکن، شماره کاربر و شماره مختصات خود، یعنی یک تاپل شماره توکن _Pwn = ( w , n )، یک توکن کاربر تاپل P _wu = ( w , u ) و یک توکن نگاشت کرد. تاپل مختصات P _wc = ( w , C )، که در آن n تعداد هر توکن w است ، u تعداد کاربرانی است که توکن w را ذکر کرده اند.و C لیستی از جفت مختصات ( lat ، lon ) در ناحیه مورد مطالعه مرتبط با w است . سازنده همچنین فرکانس f(w) هر نشانه و فرکانس کاربر f(u) را برای هر نشانه w در پیکره محاسبه کرد. توکن هایی با فرکانس کمتر از سه

w^{'} \in T {f (w) < 3}

و نشانه هایی که فقط توسط یک کاربر ذکر شده است

w^{″} \in T {f (u) < 2}

مستثنی شدند. این کلمات بخش بزرگی از کل کلمات را تشکیل می دهند، اما به احتمال زیاد نویز هستند و به ندرت با رویدادهای احتمالی مرتبط هستند. بنابراین ما این نشانه‌ها را دور می‌اندازیم و بقیه توکن‌ها را در جداول هش کلید-مقدار کپسوله می‌کنیم. کلیدها نشانه هستند، مقادیر فرکانس نشانه، شماره کاربر و لیست مختصات مرتبط با هر نشانه هستند. نتایج این مرحله شامل سه مجموعه هش است که کلیدها توکن های حاصل هستند

w

در حالی که مقادیر مربوط به P _wu ، P _wn و P _wc برای هستند

w

. یک لایه لیستی است که از سه مجموعه هش تشکیل شده است.

برای یافتن نشانه‌هایی که به طور بالقوه به رویدادها مرتبط هستند، از تکنیک‌های تشخیص کلمات انفجاری استفاده کردیم. کلمات انفجاری نوک‌هایی در فرکانس توییت‌ها در طول طیف زمانی هستند. تشخیص رویداد بر اساس کلمات انفجاری شبیه به تشخیص روند است [ 24 ]. به‌جای استفاده از روش‌های سنتی برای تشخیص کلمات انفجاری، ما دو جفت پنجره زمانی شناور برای آشکارسازی بهتر رویدادها طراحی کردیم. اولین جفت پنجره نشانه هایی را که در یک ساعت اخیر رخ داده اند مقایسه می کند

W_{h}^{d}

با همان نشانه هایی که در چهار ساعت گذشته رخ داد

W_{h - 4}^{d}

به

W_{h - 1}^{d}

. جفت پنجره دوم نشانه هایی را که در یک ساعت اخیر رخ داده اند مقایسه می کند

W_{h}^{d}

با همان نشانه هایی که یک هفته پیش در همان زمان رخ داد

W_{h}^{d - 7}

. سیستم دو صف برای ذخیره داده ها در دو جفت پنجره زمانی نگه می دارد. هر صف شامل پنج جزء مربوط به پنج جدول برای هر ساعت است ( شکل 2 ). هنگامی که سیستم برای اولین بار راه اندازی می شود، ده جزء به یکباره محاسبه می شوند (که با بلوک های رنگی در شکل 2 نشان داده شده اند ). در ساعات بعدی، تنها دو جزء (آخرین ساعت و ساعت مشابه یک هفته پیش) به ترتیب به صف‌های پنجره زمانی فشار داده می‌شوند. قدیمی ترین مولفه ها از صف ها بیرون می آیند. بقیه در صف نگه داشته می شوند (که با رنگ b/w در شکل 2 نشان داده شده است ). طراحی پنجره متحرک تا حد زیادی تقاضای محاسباتی را کاهش می دهد. تنها دو مؤلفه از هر ده مؤلفه باید هر ساعت به روز شود. توکن‌ها در یک ساعت اخیر

W_{h}^{d}

به عنوان لایه مرجع RL مشخص می شوند . ویژگی های طبقه بندی بر اساس لایه مرجع تهیه می شود. ویژگی طبقه بندی در بخش بعدی معرفی خواهد شد.

3.4. ماژول آماده سازی ویژگی

هنگامی که ده لایه ساخته شد، ویژگی های طبقه بندی برای شناسایی رویدادهای منطقه ای و محلی آماده می شود. توکن ها

W_{R F}

در لایه مرجع RL به عنوان مشاهدات استفاده می شود. به عبارت دیگر، ویژگی‌ها فقط برای توکن‌های موجود در RL محاسبه می‌شوند . توکن هایی که در لایه های دیگر وجود دارند اما در RL نیستند محاسبه نمی شوند.

توکن های مربوط به رویدادها معمولاً چهار ویژگی دارند. اول، کلمات مرتبط با رویدادهای مهم تمایل دارند که افزایش ناگهانی بیشتری در فراوانی داشته باشند. دوم، توکن هایی که توسط بسیاری از افراد توییت می شوند، تمایل دارند رویدادهای منطقه ای را نشان دهند. سوم، رویدادهای منطقه ای تمایل دارند با افزایش ناگهانی توکن ها از یک منطقه جغرافیایی گسترده همراه باشند. چهارم، توکن‌هایی که در یک منطقه کوچک در مدت زمان کوتاهی متمرکز می‌شوند ممکن است حاکی از رویدادهای محلی باشند.

برای ثبت اولین مشخصه، فرکانس را محاسبه کردیم

F_{w}

برای هر نشانه

w_{i}

∈

W_{R F}

در ده لایه برای تنظیم تعداد کل توییت ها در زمان های مختلف، توکن را تقسیم کردیم

F_{w}

با تعداد کل توییت در پنجره زمان برای دریافت فرکانس رمز تنظیم شده زمان.

این احتمال وجود دارد که توییت های مشابه تنها توسط یک فرد یا ماشین بارها در مدت زمان کوتاهی توییت شود. سهم کلمات کلیدی در چنین توییت هایی باید کاهش یابد. به همین دلیل، مانند فرکانس توکن، اعداد کاربران را محاسبه کردیم

F_{u}

برای ده لایه نیز. اعداد کاربر نشان دهنده محبوبیت کلمات کلیدی در بین کاربران مختلف است.

برای محاسبه ویژگی سوم، تعداد مختصات را محاسبه کردیم

F_{c}

که با توکن مرتبط هستند

w_{i}

∈

W_{R F}

در ده لایه توکن هایی که به طور گسترده ذکر می شوند به احتمال زیاد با یک رویداد منطقه ای مرتبط هستند.

رویدادهای محلی ممکن است حاوی پیام‌هایی باشد که به شدت گزارش شده است. ما از تکنیک DBSCAN برای محاسبه خوشه های محلی استفاده کردیم. DBSCAN یک الگوریتم خوشه بندی است که نقاط نزدیک به هم را گروه بندی می کند. DBSCAN برای محاسبه به دو پارامتر نیاز دارد: حداقل تعداد نقاط و حداکثر شعاع در اطراف یکی از اعضای خود (seed). نقاطی در شعاع یک نقطه داده شده، که شرایط دانه را برآورده می کنند، به صورت بازگشتی به عنوان اعضای خوشه انتخاب می شوند [ 35]. ما از بسته “fpc” در R برای انجام تجزیه و تحلیل DBSCAN استفاده کردیم. ما توکن ها را با مختصات جغرافیایی اسکن کردیم و با مشاهده اندازه و میانگین نقاط برای رویدادهای محلی، دو پارامتر را تعیین کردیم. ما از شعاع جستجو eps = 0.0007 و حداقل امتیاز MinPts = 3 در این مطالعه استفاده کردیم. تعداد خوشه ها و تعداد کل نقاط در خوشه ها به عنوان ویژگی استفاده شد.

رویدادها معمولاً زمانی رخ می‌دهند که تعداد کاربران، پوشش جغرافیایی و تعداد توکن‌ها تغییر ناگهانی داشته باشند. ما نسبت ویژگی ها (یعنی ویژگی ها) را محاسبه کردیم

F_{w}

F_{u}

F_{c}

محاسبه شده در بالا) برای ثبت تغییر ناگهانی. ما دو گروه از نسبت ها را محاسبه کردیم: (1) نسبت ویژگی ها بین آخرین ساعت h _i و یک هفته قبل و (2) نسبت ویژگی ها بین پنج ساعت گذشته h _i – h _i-₄ و یک هفته پیش. نسبت بالاتر نشان دهنده شانس بالاتری است که کلمه کلیدی به یک رویداد مرتبط است.

مواردی وجود دارد که علامت خاصی w در لایه مرجع ( L _R ) ظاهر می شود اما هفت روز زودتر در لایه رخ نمی دهد ( L _d-₇ ). برای محاسبه نسبت برای این مورد، مسئله «تقسیم بر صفر» را خواهیم داشت. توکن ها در این موارد را می توان بیشتر به سناریوهای S ₁ و S ₂ تقسیم کرد . S ₁ حاوی کلمات تصادفی (مثلاً کلمات خاص یا کلمات غلط املایی) در L _R است اما در L _d-₇ نیست . این کلمات در L _R بسامد پایینی دارند و بعید است که با رویدادها مرتبط باشند.S _{2 حاوی کلمات انفجاری است که در}L _d-₇ وجود ندارند ، اما اغلب در L _R وجود دارند . این کلمات به احتمال زیاد کلمات مرتبط با رویداد هستند. ما صدک 60 تا 80 را آزمایش کردیم و نتایج تفاوت قابل توجهی نداشت. بنابراین ما از صدک 70 فراوانی کلمه به عنوان برش برای تشخیص این دو سناریو استفاده کردیم. به کلمات در S ₁ نسبت صفر اختصاص داده می شود و نسبت کلمات در S ₂ متناسب با فراوانی کلمه در L _R خواهد بود که در معادله زیر نشان داده شده است:

R = 0 i f (w \in L آر) \cap (w \notin L د - 7) \cap (F (w) < q تو یکم (_____L آر, 0.7))

R\propto F_(w) i f (w \in L آر) \cap (w \notin L د - 7) \cap (F (w) \geq q تو یکم (_____L آر, 0.7))

که در آن R نسبت وقوع کلمه بین لایه مرجع ( LR ) و لایه هفت روز پیش ( L _d-₇ ) را نشان می دهد، و $F (w)$ فرکانس کلمه w را محاسبه می کند. تابع چندک، چندک های نمونه مربوط به احتمالات داده شده را 0.7 محاسبه می کند.

3.5. ماژول طبقه بندی

برای تهیه مجموعه داده آموزشی، ما به صورت دستی 8167 توکن را در روزهای متوالی در آگوست 2015 نمونه برداری و کدگذاری کردیم. بر اساس پیش آزمون الگوریتم های مختلف از جمله kNN، SVM، Naive Bayes، و جنگل تصادفی (RF)، الگوریتم RF را پیدا کردیم. بالاترین دقت را در عملکرد طبقه بندی ایجاد کرد. طبقه‌بندی‌کننده RF چندین درخت تصمیم را در فرآیند آموزش برای پیش‌بینی یک متغیر نتیجه تولید می‌کند. برای طبقه بندی یک مشاهده جدید، جنگل تصادفی متغیرها را در هر یک از درختان جنگل قرار می دهد. هر درخت یک نتیجه طبقه بندی تولید می کند. سپس جنگل رده بندی را با بیشترین رای به عنوان طبقه بندی نهایی انتخاب می کند. ما از بسته “randomForest” در R برای انجام تجزیه و تحلیل RF استفاده کردیم. در مدل ما، 200 درخت را رشد دادیم تا متغیرهای ورودی را طبقه بندی کنیم.h _i و h _i تا h _i-₄ به ترتیب (4 ویژگی)، فرکانس کاربر تنظیم شده با زمان و نسبت فرکانس کاربر در بازه زمانی h _i و h _i تا h _i-₄ به ترتیب (4 ویژگی)، مختصات تنظیم شده زمان فرکانس و نسبت فرکانس مختصات در بازه زمانی h _i تا h _i-₄به ترتیب (4 ویژگی)، و تعداد خوشه ها و تعداد کل نقاط در خوشه ها (2 ویژگی). نتایج مدل کلاس‌های دوتایی بود که نشان می‌داد آیا یک نشانه به یک کلاس رویداد تعلق دارد یا خیر. این مدل همچنین یک امتیاز احتمال ایجاد می‌کند که نشان می‌دهد چقدر احتمال دارد که نشانه با یک رویداد مرتبط باشد. ما توکن هایی با امتیاز احتمالی بیشتر از 90 درصد را به عنوان نامزدهای مرتبط با رویداد انتخاب کردیم.

بر اساس مدل آموزش دیده، هر نشانه در مجموعه هش به عنوان مرتبط با رویداد یا غیر مرتبط با رویداد برچسب گذاری شد. ما یک رویداد بالقوه را به‌عنوان یک کلید-مقدار PE = (Ke , Ve) تعریف می‌کنیم که در آن Ke مجموعه‌ای از توکن‌هایی است که به‌عنوان مرتبط با رویداد طبقه‌بندی می‌شوند و V مجموعه‌ای از توییت‌ها است. ما از یک شاخص ارتباط بین نشانه‌ها در یک ماتریس سند اصطلاح برای یافتن نشانه‌هایی استفاده کردیم که به یک رویداد در مجموعه Ke مرتبط هستند.. شاخص ارتباط نشان دهنده همبستگی بین یک جفت عبارت در بین تمام توییت‌های موجود در اسناد است. یک شاخص ارتباط بالا نشان دهنده احتمال زیاد وجود دو کلمه در توییت ها است. به عنوان مثال، اگر نشانه‌های مرتبط با کلمه «NYFW» (هفته مد نیویورک) را با شاخص ارتباطی بیشتر از 0.4 پیدا کنیم، می‌توانیم کلمه کلیدی «مد» را تشخیص دهیم. تمام توییت های مرتبط با این کلمات کلیدی در مجموعه Ve قرار می گیرند . توییت هایی که حاوی مختصات جغرافیایی هستند برای تجزیه و تحلیل الگوی بیشتر در یک Shapefile آماده و ذخیره می شوند.

3.6. تکامل مکانی- زمانی رویدادها

در ماژول تجزیه و تحلیل رویداد، ما عمدتا به ویژگی های زمانی، مکانی و احساسی یک رویداد نگاه می کنیم. برای ویژگی‌های زمانی، ما طیف زمانی را برای یک رویداد منحصربه‌فرد تحلیل کردیم و تشخیص دادیم که این رویداد چه زمانی شروع می‌شود، به پایان می‌رسد یا به زمان اصلی می‌رسد. برای ویژگی‌های فضایی، تکامل الگوی فضایی در طول رویداد مورد بررسی قرار گرفت. خطوط کانتور برای نمایش تراکم توییت ها ایجاد شد. از آنجا که مراکز شهرها معمولاً مکان‌هایی هستند که بیشتر توییت‌ها متمرکز می‌شوند، ما از حوضه آبریز شناور (FCA) برای کاهش وزن توییت‌ها در مناطق پراکنده استفاده کردیم. به طور خاص، ما یک بافر با 0.05 درجه در اطراف هر توییت مرتبط ترسیم کردیم تا یک پنجره فیلتر تعریف کنیم. وزن هر توییت مربوط به رویداد با تمام توییت‌های داخل پنجره فیلتر رابطه معکوس دارد. ما چگالی هسته را بر اساس وزن هر توییت در منطقه مورد مطالعه محاسبه کردیم. فضاهای تراکم هسته با گذشت زمان مورد بررسی قرار گرفت. برای ویژگی‌های معنایی، عبارات رایج را تجزیه و تحلیل کردیم و ابرهای کلمه مرتبط با هر رویداد را ایجاد کردیم. منابع واژگانی انگلیسی SentiWordNet 3.0 برای استنتاج احساسات توییت‌های مربوط به رویداد استفاده شد. SentiWordNet به صورت عمومی برای پشتیبانی از طبقه بندی احساسات و برنامه های کاربردی نظر کاوی در دسترس است [36 ]. پایگاه داده پس‌زمینه WordNet شامل مجموعه‌ای غنی از اسم‌ها، افعال، صفت‌ها و قیدها در مفاهیم مختلف شناختی و امتیازات احساسی است. ما احساسات هر توییت را محاسبه کردیم و آنها را در یک پنجره ساعتی جمع کردیم. نمرات مثبت یا منفی به ترتیب نشان دهنده احساسات مثبت یا منفی هستند. نمره صفر به معنای احساس خنثی است. شکل 3 روش های مورد استفاده در این مطالعه را خلاصه می کند.

4. نتایج

در بخش‌های بعدی، دو رویداد (طبیعی و اجتماعی) را انتخاب می‌کنیم که با روش ارائه‌شده شناسایی شده‌اند تا ابعاد مکانی، زمانی و احساسی رویدادها را نشان دهیم.

4.1. بارش شدید

وقتی توییت‌هایی را در سیستم پخش کردیم و تجزیه و تحلیل رویدادها را در حدود 9 تا 10 سپتامبر انجام دادیم، متوجه شدیم که تعدادی از توییت‌ها به هوای بارانی اشاره کرده‌اند. پس از جمع‌آوری داده‌ها برای یک ماه کامل، به گذشته نگاه کردیم و در 10 سپتامبر در توییت‌های مربوط به بارندگی افزایش چشمگیری پیدا کردیم ( شکل 4 ). ما از تابع ارتباط برای جستجوی کلمات کلیدی استفاده کردیم که به شدت با “باران” مرتبط هستند. کلیدواژه‌های «تر»، «ریختن»، «سیل» و «چتر» شناسایی شدند.

ما توزیع فضایی کلمات کلیدی در مورد باران و نقشه ابر زمان واقعی را در منطقه مورد مطالعه مقایسه کردیم. تخمین چگالی هسته بر اساس وزن توییت‌های مرتبط با باران تنظیم شده توسط تعداد کل توییت‌ها، یک الگوی فضایی معقول را نشان داد. ما توییت‌ها را به مدت چهار ساعت جمع‌آوری کردیم تا تعداد توییت‌ها را با مختصات جغرافیایی برای تجسم افزایش دهیم. اگرچه مقداری اختلاف وجود داشت، نقشه چگالی هسته توییت‌های مربوط به باران با نقشه ابری مطابقت داشت. به عنوان مثال، در ساعت 5 صبح، توزیع و جهت توئیت های مربوط به باران تا حد زیادی از توزیع ابر پیروی می کند. مناطق با تراکم هسته قوی در شکل 5 تا حد زیادی با مناطقی که ابرهای سنگین توزیع شده اند مطابقت دارد.

به طور موقت، توییت هایی درباره باران در نیمه شب 10 سپتامبر منتشر شد. توییت‌های مربوط به باران حوالی ساعت 4 صبح افزایش یافت و در حدود ساعت 8 صبح به بالاترین حد خود رسید. دومین اوج در حدود ساعت 12 بعد از ظهر تا 1 بعد از ظهر رخ داد و سپس میزان توئیت‌های مرتبط با باران کاهش یافت. حوالی ساعت 5 تا 8 بعدازظهر، یک موج کوچک دیگر در توییت‌های مرتبط با باران وجود داشت تا اینکه رویداد باران در ساعت 8 صبح، 11 سپتامبر به پایان رسید. ما همچنین سطوح بارندگی را در سه شهر بزرگ (فیلادلفیا، واشنگتن دی سی و شهر نیویورک) در منطقه مورد مطالعه رسم کردیم. ما دریافتیم که شدت توییت‌های مرتبط با باران با منحنی بارش مطابقت ندارد. توییت‌های بیشتری در زمان‌هایی که نیاز به حمل‌ونقل بیشتر در فضای باز بود (ساعت اوج حمل‌ونقل صبح، ظهر و بعدازظهر) پست می‌شد.شکل 6 ).

شکل 7 کلمه ابر رویداد باران را نشان می دهد. ما امتیازات احساسات را برای هر توییت مرتبط با باران در 10 سپتامبر محاسبه کردیم. توزیع امتیاز توسط نمودار پراکندگی هموار نشان داده شد. خط بنفش نشان دهنده احساسات کاملاً خنثی است در حالی که منحنی سبز نشان دهنده احساسات میانه در هر ساعت است. دو منحنی آبی که به دور منحنی سبز پیچیده شده‌اند، چارک پایین‌تر و ربع بالاتر احساسات هستند. به طور کلی، میانگین نمرات احساسات کمی زیر صفر بود که نشان دهنده یک احساسات منفی خفیف است. با این حال، منحنی‌های چارک‌های پایین‌تر و بالاتر در دو طرف احساس خنثی تقسیم می‌شوند که نشان‌دهنده احساسات متفاوتی درباره باران است. نگاه دقیق تر به توییت ها احساسات متناقضی را نشان می دهد: “من عاشق باران هستم!!!!! من عاشق چکمه های بارانی هستم!!!!!!!” در مقابل “این باران فقط آزاردهنده است.”

4.2. دیدار پاپ فرانسیس

پاپ فرانسیس برای اولین بار از 22 سپتامبر 2015 تا 27 سپتامبر 2015 از ایالات متحده بازدید کرد. این یک رویداد اجتماعی مهم بود که توییت های زیادی را به خود جلب کرد. پاپ فرانسیس عمدتاً به سه شهر در ایالات متحده سفر کرد: واشنگتن، دی سی، شهر نیویورک و فیلادلفیا. ما نقاط داغ توییت را در طول بازدید او تجزیه و تحلیل کردیم. قبل از سفر پاپ به ایالات متحده، توییت‌های بسیاری از دی‌سی و فیلادلفیا نشان می‌داد که مردم درباره رویداد آینده بحث می‌کنند. در 22 تا 23 سپتامبر، توییت‌های مربوط به پاپ در دی سی، جایی که پاپ برای اولین بار از آنجا بازدید کرد، متمرکز شد. نقطه کانونی توییت در 24 ام به نیویورک منتقل شد، زیرا پاپ به آنجا پرواز کرد. نقطه داغ دوباره در 26th به فیلادلفیا مهاجرت کرد و در 27th هنگامی که پاپ سفر خود به ایالات متحده را به پایان رساند به اوج خود رسید. حرکت توییت ها تا حد زیادی با برنامه سفر پاپ مطابقت داشت (شکل 8 ).

به طور موقت، دیدار پاپ الگوی جالبی را نشان داد. بحث در مورد سفر پاپ فرانسیس در 21 سپتامبر آغاز شد. دو اوج عمده در توییت ها در طول این بازدید وجود داشت. اولین اوج بزرگ در 22 سپتامبر حول و حوش ساعت 4 بعد از ظهر، زمانی که پاپ وارد دی سی شد، رخ داد. دومین اوج در 24 سپتامبر در ساعت 10 صبح هنگام سخنرانی پاپ در مجلس سنا و مجلس نمایندگان رخ داد. در طول بازدید شش روزه، بحث در توییتر در مورد این رویداد در صبح فشرده تر بود اما در اوایل بعدازظهر کمتر فشرده بود. این واقعیت همچنین با برنامه های فعالیت پاپ مطابقت دارد. بحث در مورد بازدیدها در حدود 27 سپتامبر در ساعت 11 شب پایان یافت ( شکل 9 ).

شکل 10 کلیدواژه های اصلی توییت های مردم در مورد دیدار پاپ را نشان می دهد. تحلیل احساسات نیز برای این رویداد اعمال شد. برخلاف رویداد باران، میانگین کلی نمرات احساسات بالای صفر بود در حالی که چارک پایین احساس نزدیک به صفر بود. این توزیع نشان دهنده یک روند کلی مثبت است. این رقم نیز نشان دهنده مدت زمان این رویداد است. پس از 28 سپتامبر، توئیت های مربوط به این رویداد بسیار کمتر از روزهای گذشته بود.

5. بحث و نتیجه گیری

پارکس و تریفت (1980) استدلال می کنند که زندگی شهری دارای یک الگوی ریتمیک است که توسط توزیع فضایی امکانات و رویدادها و در دسترس بودن زمانی آنها شکل می گیرد [ 37 ، 38 ]. اکنون محققان می توانند از داده های توییتر برای قابل مشاهده کردن این الگوهای ریتمیک نامرئی استفاده کنند. با نمایش داده های چند روزه، الگوی ریتمیک حتی بیشتر قابل مشاهده می شود. ما نشان می‌دهیم که چگونه از حداکثر داده‌های توییت برای شناسایی رویدادهای مهم و شروع به شناسایی جزر و مد زندگی شهری استفاده کنیم. داده‌های توییتر پنجره‌ای منحصربه‌فرد به الگوهای مکانی و زمانی منحصربه‌فرد شهری ارائه می‌دهند.

در این مطالعه، ما یک رویکرد نوآورانه برای شناسایی توییت‌های مرتبط با رویداد با تجزیه و تحلیل داده‌های پخش زنده توییتر پیشنهاد می‌کنیم. این رویکرد به ما امکان می‌دهد توییت‌های جریانی را که تقریباً یک ساعت قبل از جمع‌آوری پست شده‌اند، تجزیه و تحلیل کنیم. ویژگی بارز این رویکرد این است که هیچ دانش قبلی در مورد رویدادها را فرض نمی کند. درعوض، دانشی را در مورد مکان ها به عنوان پروفایل های ریتمیک ایجاد می کند. هیچ کلمه کلیدی قبلی برای محدود کردن دامنه رویدادها استفاده نشده است. این سیستم فقط به جریان توییت ها متکی است. برای استنتاج رویدادها به دانش دیگری مانند اخبار یا داده های GIS نیازی نیست. از این رو، اگرچه مطالعه موردی در منطقه واشنگتن دی سی-نیویورک انجام شد، اما می‌توان آن را در سایر مناطق جغرافیایی اعمال کرد. با استخراج ویژگی های آموزشی از توییت ها (پیام ها، کاربران، مُهرهای زمانی، مختصات جغرافیایی)، این سیستم می تواند توسعه مکانی – زمانی رویدادهای منطقه ای را در زمان واقعی کشف کند. از آنجا که ما از ساختارهای پنجره کشویی و هش استفاده کردیم، آنها می توانند به سرعت کلمات کلیدی مرتبط با رویدادهای احتمالی را استخراج کنند. از کلمات کلیدی به عنوان واحد تحلیل استفاده شد. با اعمال توابع ارتباط، می‌توانیم مجموعه‌ای از کلمات کلیدی را پیدا کنیم که ارتباط نزدیکی با یک رویداد دارند و سپس توییت‌های مرتبط را از مجموعه استخراج کنیم.

ما نشان می‌دهیم که چگونه این رویکرد می‌تواند الگوهای مکانی-زمانی دو رویداد را شناسایی کند: یک رویداد طبیعی و یک رویداد اجتماعی. این دو رویداد دارای مدت زمان و پوشش جغرافیایی متفاوتی هستند. این رویداد بارانی یک روز طول کشید، در حالی که رویداد دیدار پاپ یک هفته طول کشید. ما به راحتی توانستیم شروع، پایان و اوج این رویدادها را تشخیص دهیم. هنگامی که به الگوهای زمانی-مکانی نگاه می کنیم، توزیع توییت های مربوط به باران به طور کلی با نقشه ابر ماهواره ای مطابقت دارد در حالی که توییت های رویدادهای مربوط به پاپ، برنامه سفر را منعکس می کند. علاوه بر این، این تجزیه و تحلیل احساسات مردم را نسبت به رویدادها منعکس می کند. چنین تحلیلی با افزودن ادراکات انسانی به داده های GIS سنتی، اطلاعات جغرافیایی را غنی می کند.

با استفاده از ویژگی‌ها از هر دو بعد زمانی و مکانی، روش پیشنهادی می‌تواند رویدادهای منطقه‌ای و محلی را به تصویر بکشد. تعداد و نسبت‌های کاربران، توکن‌ها و همچنین پوشش جغرافیایی توکن‌ها سرنخ‌هایی را ارائه می‌دهند که رویداد منطقه‌ای است، در حالی که اندازه و اعداد خوشه نشانه‌هایی از محلی بودن رویدادها را ارائه می‌دهند. تجزیه و تحلیل به کشف اطلاعات جغرافیایی در مقیاس های مختلف کمک می کند. شکل 11تصاویری از رویدادهای منطقه ای و محلی استخراج شده و توزیع فضایی آنها را نشان می دهد. به عنوان مثال، ما فهمیدیم که 29 سپتامبر روز ملی قهوه است. توییت‌ها حاوی نشانه‌هایی «قهوه» بودند که در منطقه مورد مطالعه پخش شده بودند. بسیاری از مردم به قهوه رایگان از Dunkin Donuts اشاره کردند (به عنوان مثال، “هیچ چیز من را شادتر از قهوه رایگان @DunkinDonuts #CoffeeDay نمی کند”). ما همچنین توانستیم رویدادهای محلی را شناسایی کنیم، مانند کنفرانس ایالات متحده در مورد ایدز (USCA) در 10 سپتامبر در واشنگتن دی سی، مسابقات قهرمانی تنیس آزاد ایالات متحده (USOPEN) در استادیوم آرتور اش در 2 سپتامبر 2015، هفته مد نیویورک در 10 سپتامبر 2015، و رویداد هنرهای رزمی ترکیبی UFC 205 در 12 نوامبر 2016. نشانه‌های خوشه‌ای و انفجاری برای این رویدادهای محلی مشاهده شد.

این یک مطالعه اکتشافی است که رویدادها را از توییت های منتشر شده در یک پنجره یک ساعته اخیر استخراج می کند. ما چندین محدودیت را در این مطالعه تصدیق می کنیم. اول، به دلیل نسبت پایین توییت‌های دارای برچسب جغرافیایی، حتی اگر می‌توانیم رویدادهای محلی معنی‌دار را استخراج کنیم، فقط رویدادهای محلی اصلی را می‌توان آشکار کرد، به خصوص در زمان واقعی. دوم، ما از تک تک کلمات به عنوان واحد تحلیل استفاده کردیم. رویدادهایی که با عبارات توصیف می شوند ممکن است با استفاده از این رویکرد به خوبی ثبت نشوند. در مطالعات آینده، ما قصد داریم رویدادهای استخراج شده را با اطلاعات گزارش شده از رسانه های سنتی مقایسه کنیم و ارتباط رویدادهای کشف شده از توییت ها را ارزیابی کنیم. همچنین قصد داریم این مطالعه را به دو صورت گسترش دهیم. در این مطالعه ما فقط توکن‌های فردی را در نظر می‌گیریم و مدل بر اساس این توکن‌ها آموزش داده شد. ما قصد داریم یک دنباله پیوسته از n مورد (n-گرم) را برای نمایش بهتر عبارات طولانی تر ترکیب کنیم. دوم، کلمات کلیدی مرتبط با رویداد شناسایی شده هیچ ویژگی اضافی در رویکرد فعلی ندارند. ما از اهمیت نسبی اطلاعات استخراج شده از توییت ها اطلاعی نداریم. ما قصد داریم رتبه بندی اهمیت رویدادهای شناسایی شده و همچنین نوع رویداد (به عنوان مثال، ورزش) را در کار آینده خود کشف کنیم.

منابع

آمار TU. آمار استفاده از توییتر و در دسترس آنلاین: http://www.internetlivestats.com/twitter-statistics (در 18 اکتبر 2015 قابل دسترسی است).
حسن، س. ژان، ایکس. Ukkusuri، SV (Eds.) درک فعالیت های انسانی شهری و الگوهای تحرک با استفاده از داده های مبتنی بر مکان در مقیاس بزرگ از رسانه های اجتماعی آنلاین. در مجموعه مقالات دومین کارگاه بین المللی ACM SIGKDD در محاسبات شهری، شیکاگو، IL، ایالات متحده آمریکا، 11-14 اوت 2013. ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2013.
والتر، ام. Kaisser, M. (Eds.) تشخیص رویداد جغرافیایی فضایی در جریان توییتر. در مجموعه مقالات کنفرانس اروپایی در مورد بازیابی اطلاعات، مسکو، روسیه، 24-27 مارس 2013. Springer: برلین، آلمان، 2013.
لی، آر. لی، KH; خدیوالا، ر. چانگ، KC-C. (ویرایش) تداس: یک سیستم تشخیص و تجزیه و تحلیل رویداد مبتنی بر توییتر. در مجموعه مقالات بیست و هشتمین کنفرانس بین المللی مهندسی داده IEEE 2012، آرلینگتون، VA، ایالات متحده آمریکا، 1 تا 5 آوریل 2012.
ملادیانوس، پ. نیکولنتزوس، جی. روسو، اف. استاوراکاس، ی. وزیرگیانیس، ام. در مجموعه مقالات نهمین کنفرانس بین المللی AAAI در وب و رسانه های اجتماعی، آکسفورد، انگلستان، 26-29 مه 2015.
استایگر، ای. آلبوکرک، جی پی; Zipf، A. مروری بر ادبیات سیستماتیک پیشرفته در مورد تجزیه و تحلیل مکانی-زمانی داده های توییتر. ترانس. GIS 2015 ، 19 ، 809-834. [ Google Scholar ] [ CrossRef ]
چنگ، تی. Wicks, T. تشخیص رویداد با استفاده از توییتر: یک رویکرد مکانی-زمانی. PLoS ONE 2014 ، 9 ، e97807. [ Google Scholar ] [ CrossRef ] [ PubMed ]
Peuquet, DJ; رابینسون، AC; استهله، اس. هاردیستی، FA; Luo, W. روشی برای کشف و تجزیه و تحلیل الگوهای زمانی در داده های رویداد پیچیده. بین المللی جی. جئوگر. Inf. علمی 2015 ، 29 ، 1588-1611. [ Google Scholar ] [ CrossRef ]
پانتراس، جی. حکیم، اس. لو، ایکس. کرویتورو، آ. کروکس، آ. Stefanidis، A. مثلث بندی محتوای چند رسانه ای اجتماعی برای محلی سازی رویداد با استفاده از فلیکر و توییتر. ترانس. GIS 2015 ، 19 ، 694-715. [ Google Scholar ] [ CrossRef ]
کوردیرو، ام. Gama, J. شناسایی رویداد شبکه های اجتماعی آنلاین: یک نظرسنجی. در حل چالش ها و الگوریتم های وظایف یادگیری در مقیاس بزرگ ; Springer: برلین، آلمان، 2016; صص 1-41. [ Google Scholar ]
چریچی، س. Faiz, R. تجزیه و تحلیل داده های بزرگ برای تشخیص رویداد در میکروبلاگ ها. تحولات اخیر در سیستم های اطلاعاتی و پایگاه داده هوشمند ; Springer: برلین، آلمان، 2016; صص 309-319. [ Google Scholar ]
چای، جی. تام، دی. بوش، اچ. جانگ، ی. ماسیجوسکی، آر. ایبرت، دی.اس. Ertl, T. (Eds.) تجزیه و تحلیل رسانه های اجتماعی فضایی-زمانی برای تشخیص و بررسی رویدادهای غیرعادی با استفاده از تجزیه روند فصلی. در مجموعه مقالات کنفرانس IEEE 2012 در علم و فناوری تجزیه و تحلیل بصری (VAST)، سیاتل، WA، ایالات متحده آمریکا، 14-19 اکتبر 2012.
لیو، ی. لیو، ایکس. گائو، اس. گونگ، ال. کانگ، سی. ژی، ی. چی، جی. شی، ال. حس اجتماعی: رویکردی جدید برای درک محیط های اجتماعی-اقتصادی ما. ان دانشیار صبح. Geogr. 2015 ، 105 ، 512-530. [ Google Scholar ] [ CrossRef ]
Earle، PS; باودن، دی سی؛ گای، ام. تشخیص زلزله توییتر: پایش زلزله در دنیای اجتماعی. ان ژئوفیز. 2012 ، 54 ، 708-715. [ Google Scholar ]
آرامکی، ای. مسکاوا، س. موریتا، ام. (ویراستار.) توییتر آنفولانزا را گرفتار می کند: تشخیص اپیدمی های آنفولانزا با استفاده از توییتر. در مجموعه مقالات کنفرانس روشهای تجربی در پردازش زبان طبیعی، ادینبورگ، انگلستان، 27-31 ژوئیه 2011; انجمن زبان شناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2011.
ژائو، اس. ژونگ، ال. ویکراماسوریا، ج. Vasudevan، V. انسان به عنوان حسگرهای زمان واقعی رویدادهای اجتماعی و فیزیکی: مطالعه موردی توییتر و بازی های ورزشی. arXiv , 2011; arXiv:11064300. [ Google Scholar ]
کورنی، دی. مارتین، سی. Göker, A. (ویراستار) Spot the ball: تشخیص رویدادهای ورزشی در توییتر. در مجموعه مقالات کنفرانس اروپایی در مورد بازیابی اطلاعات، آمستردام، هلند، 13-17 آوریل 2014. Springer: برلین، آلمان، 2014.
لیلوی، ف. رجبی فرد، ع. کلانتری، م. ارزیابی ارتباط با رویداد پیام‌های توییتر برای واکنش اضطراری. Inf. روند. مدیریت 2017 ، 53 ، 266-280. [ Google Scholar ] [ CrossRef ]
وانگ، ایکس. گربر، ام اس; Brown, DE (Eds.) پیش‌بینی خودکار جرم با استفاده از رویدادهای استخراج شده از پست‌های توییتر. در مجموعه مقالات کنفرانس بین‌المللی محاسبات اجتماعی، مدل‌سازی رفتاری-فرهنگی و پیش‌بینی، کالج پارک، MD، ایالات متحده آمریکا، 3 تا 5 آوریل 2012. Springer: برلین، آلمان، 2012.
عاطفه، ف. Khreich، W. بررسی تکنیک‌های تشخیص رویداد در توییتر. محاسبه کنید. هوشمند 2015 ، 31 ، 132-164. [ Google Scholar ] [ CrossRef ]
ایفریم، جی. شی، بی. Brigadir, I. (Eds.) تشخیص رویداد در توییتر با استفاده از فیلتر تهاجمی و خوشه‌بندی توییت سلسله مراتبی. در مجموعه مقالات دومین کارگاه درباره اخبار اجتماعی در وب (SNOW)، سئول، کره، 8 آوریل 2014; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2014.
ونگ، جی. لی، بی.-اس. تشخیص رویداد در توییتر ICWSM 2011 ، 11 ، 401-408. [ Google Scholar ]
Kaleel، SB; ابهری، ع. خوشه-کشف پیام های توییتر برای تشخیص رویداد و روند. جی. کامپیوتر. علمی 2015 ، 6 ، 47-57. [ Google Scholar ] [ CrossRef ]
بوچر، ا. Lee, D. (Eds.) Eventradar: یک طرح تشخیص رویداد محلی در زمان واقعی با استفاده از جریان توییتر. در مجموعه مقالات کنفرانس بین المللی IEEE 2012 در محاسبات و ارتباطات سبز (GreenCom)، بزانسون، فرانسه، 20-23 نوامبر 2012.
گومید، جی. ولوسو، ا. میرا، دبلیو، جونیور؛ آلمیدا، وی. Benevenuto، F. فراز، ف. Teixeira، M. (Eds.) نظارت بر دنگی بر اساس یک مدل محاسباتی از مکان مکانی-زمانی توییتر. در مجموعه مقالات سومین کنفرانس بین المللی علوم وب، کوبلنتس، آلمان، 14 تا 17 ژوئن 2011; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2011.
لی، سی.-اچ. استخراج اطلاعات مکانی-زمانی در جریان های میکروبلاگینگ با استفاده از روش خوشه بندی آنلاین مبتنی بر چگالی. سیستم خبره Appl. 2012 ، 39 ، 9623-9641. [ Google Scholar ] [ CrossRef ]
محمود، ج. نیکولز، جی. دروز، سی. این توییت از کجاست؟ استنباط مکان خانه کاربران توییتر. ICWSM 2012 ، 12 ، 511-514. [ Google Scholar ]
استفانیدیس، ا. کاتنوآر، ا. کرویتورو، آ. کروکس، آ. برنج، م. رادزیکوفسکی، جی. تعیین مرزهای جدید: نگاشت جوامع چند مرکزی مجازی از طریق محتوای رسانه های اجتماعی. کارتوگر. Geogr. Inf. علمی 2013 ، 40 ، 116-129. [ Google Scholar ] [ CrossRef ]
دی لونگویل، بی. اسمیت، آر.اس. Luraschi, G. (ویراستار) Omg، از اینجا، من می توانم شعله های آتش را ببینم!: یک مورد استفاده از شبکه های اجتماعی مبتنی بر مکان معدن برای به دست آوردن داده های مکانی-زمانی در مورد آتش سوزی های جنگلی. در مجموعه مقالات کارگاه بین المللی 2009 در مورد شبکه های اجتماعی مبتنی بر مکان، سیاتل، WA، ایالات متحده آمریکا، 3 نوامبر 2009; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2009.
کروکس، آ. کرویتورو، آ. استفانیدیس، ا. Radzikowski، J. # زلزله: توییتر به عنوان یک سیستم حسگر توزیع شده. ترانس. GIS 2013 ، 17 ، 124-147. [ Google Scholar ]
آلن، سی. تسو، M.-H. اسلم، ع. ناگل، ا. گاورون، جی.-ام. استفاده از GIS و روش‌های یادگیری ماشین در داده‌های توییتر برای نظارت چند مقیاسی آنفلوآنزا. PLoS ONE 2016 , 11 , e0157734. [ Google Scholar ] [ CrossRef ] [ PubMed ]
سیگنورینی، آ. Segre, AM; Polgreen, PM استفاده از توییتر برای ردیابی سطوح فعالیت بیماری و نگرانی عمومی در ایالات متحده در طول همه‌گیری آنفولانزای H1N1. PLoS ONE 2011 ، 6 ، e19467. [ Google Scholar ] [ CrossRef ] [ PubMed ]
زندبرگن، PA; Barbeau, SJ دقت موقعیتی داده‌های GPS کمکی از تلفن‌های همراه با حساسیت بالای GPS. جی. ناویگ. 2011 ، 64 ، 381-399. [ Google Scholar ] [ CrossRef ]
Dhillon، IS; Modha، DS برای داده های متنی پراکنده بزرگ با استفاده از خوشه بندی تجزیه می شود. ماخ فرا گرفتن. 2001 ، 42 ، 143-175. [ Google Scholar ] [ CrossRef ]
استر، ام. کریگل، اچ.-پی. ساندر، جی. Xu, X. (Eds.) A الگوریتم مبتنی بر چگالی برای کشف خوشه ها در پایگاه های داده فضایی بزرگ با نویز . Kdd: پورتلند، OR، ایالات متحده آمریکا، 1996.
باکیانلا، اس. اسولی، ع. سباستینی، F. SentiWordNet 3.0: یک منبع واژگانی پیشرفته برای تحلیل احساسات و نظر کاوی. در دسترس آنلاین: http://nmis.isti.cnr.it/sebastiani/Publications/LREC10.pdf (در 17 مارس 2017 قابل دسترسی است).
پارکز، دی. Thrift, NJ Times, Spaces, and Places: A Chronogeographic Perspective ; جان وایلی: نیویورک، نیویورک، ایالات متحده آمریکا، 1980. [ Google Scholar ]
لفور، اچ. انقلاب شهری . انتشارات دانشگاه مینه‌سوتا: مینیاپولیس، MN، ایالات متحده آمریکا، 2003. [ Google Scholar ]

شکل 1. جریان کلی فرآیند داده.

شکل 2. دو ساختار صف برای ذخیره سه مجموعه هش. نوبت دهی و صف در ابتدای هر ساعت اتفاق می افتد. فوق اسکریپت واحد روز را نشان می دهد در حالی که زیرنویس واحد ساعت را نشان می دهد. RL نشان دهنده لایه مرجع است.

شکل 3. جریان تجزیه و تحلیل داده های این مطالعه.

شکل 4. طیف زمانی توئیت های مربوط به باران بین 8 اوت و 27 سپتامبر. Ratio1 نشان دهنده نسبت فاصله یک ساعته است در حالی که Ratio2 نشان دهنده نسبت فاصله پنج ساعته است.

شکل 5. توزیع فضایی کلمات کلیدی در مورد باران و نقشه ابر زمان واقعی در منطقه مورد مطالعه.

شکل 6. ( الف ) طیف زمانی توئیت های مربوط به باران بین 0 تا 24 10 سپتامبر. ( ب ) بارندگی واقعی بر حسب اینچ در سه شهر در یک روز.

شکل 7. ( الف ) نمودار پراکندگی برای احساس توییت های مربوط به رویداد باران. خط بنفش نشان دهنده احساسات خنثی است. دو منحنی آبی که به دور منحنی سبز پیچیده شده‌اند، احساسات چارک پایین‌تر و چارک بالاتر هستند. رنگ تیره تر نشان دهنده تراکم زمانی بیشتر توییت است. ( ب ) ابر کلمه رویداد باران.

شکل 8. حرکت فضایی نقاط مهم توییت در زمان سفر پاپ فرانسیس به ایالات متحده.

شکل 9. طیف زمانی توئیت های مربوط به بازدید پاپ بین 21 تا 29 سپتامبر.

شکل 10. ( الف ) نمودار پراکندگی احساسات حاصل از توییت‌های مربوط به دیدار پاپ را نشان می‌دهد. خط بنفش نشان دهنده یک احساس خنثی است. زیر خط بنفش نشان دهنده احساسات منفی و بالای خط بنفش نشان دهنده احساسات مثبت است. دو منحنی آبی که به دور منحنی سبز پیچیده شده‌اند، چارک پایین‌تر و چارک بالاتر هستند. رنگ تیره تر نشان دهنده تراکم زمانی بیشتر توییت است. ( ب ) ابر کلمات کلیدی از توییت‌های مربوط به دیدار پاپ.

شکل 11. تصاویری از رویداد منطقه ای و محلی استخراج شده در منطقه مورد مطالعه. ( الف ) روز ملی قهوه. ( ب ) قهرمانی تنیس آزاد ایالات متحده (USOPEN) در ورزشگاه آرتور اش. ( ج ) کنفرانس ایالات متحده در مورد ایدز (USCA) در واشنگتن دی سی. ( د ) هفته مد نیویورک. ( ه ) رویداد هنرهای رزمی UFC 205.

© 2017 توسط نویسندگان. دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC BY) ( http://creativecommons.org/licenses/by/4.0/ ) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب