کلانشهرها در حوزه توییتر: بررسی اطلاعاتی جریان ها و شبکه های اطلاعاتی

خلاصه

جریان های اطلاعاتی در پلتفرم های رسانه های اجتماعی می توانند گرایش ها و علایق کاربران و همچنین ارتباطات بین کاربران را نشان دهند. در این مقاله، روشی برای تجزیه و تحلیل شبکه‌های مرتبط با شهر در پلتفرم رسانه اجتماعی توییتر بر اساس محتوای کاربر ارائه می‌کنیم. چهل میلیون توییت از طریق دانلود شده استREST API توییتر (رابط برنامه نویسی برنامه) و API استریم توییتر. این تحقیق بر دو جنبه متمرکز است: اولاً، تشخیص روند برای تجزیه و تحلیل 31 شهر اطلاعاتی جهان، با توجه به فعالیت کاربر، محبوبیت وب‌سایت‌های اشتراک‌گذاری شده و موضوعات تعریف شده توسط هشتگ انجام شده است. ثانیاً، با ایجاد یک شبکه خوشه‌بندی شده بر اساس تعداد اتصالات بین جفت‌های شهر مختلف، اشاره‌ای به ارتباط شهرهای اطلاعاتی به یکدیگر داده می‌شود. توکیو، نیویورک، لندن و پاریس به وضوح در رتبه بندی فعال ترین شهرها در مقایسه با تعداد کل توییت ها پیشرو هستند. بررسی ها نشان می دهد که توییتر اغلب برای به اشتراک گذاری محتوا از سرویس های دیگر مانند اینستاگرام یا یوتیوب استفاده می شود. محبوب ترین موضوعات در توییت ها تفاوت های زیادی را بین شهرها نشان می دهد. در نتیجه، تحقیقات نشان می‌دهد که سرویس‌های رسانه‌های اجتماعی مانند توییتر نیز می‌توانند آینه‌ای از جامعه‌ای باشند که در آن استفاده می‌شوند و جریان‌های اطلاعاتی شهرهای متصل را در یک شبکه جهانی آشکار کنند. روش ارائه شده را می توان در تحقیقات بیشتر برای تجزیه و تحلیل جریان اطلاعات در مورد موضوعات خاص و/یا مکان های جغرافیایی به کار برد.

کلید واژه ها:

رسانه های اجتماعی ؛ میکروبلاگینگ ; توییتر ؛ شهر اطلاعاتی ; کلان داده ؛ تجزیه و تحلیل شبکه

چکیده گرافیکی

1. معرفی

شبکه های اجتماعی به یک موضوع اصلی در جامعه امروزی تبدیل شده است. زندگی روزمره بسیاری از مردم و همچنین خود اینترنت را تغییر داد. پلتفرم های آنلاین مانند فیس بوک یا توییتر به یک جنبه مهم در علم اطلاعات تبدیل شده اند زیرا فرصت های جدیدی برای تولید و به اشتراک گذاری اطلاعات ایجاد می شود. رسانه های اجتماعی نه تنها یک پدیده منطقه ای هستند بلکه بر نحوه ارتباط در جهان و جامعه تأثیر می گذارند. طبق نظر کاستلز [ 1 ] ما به “جامعه شبکه ای” اشاره می کنیم که عمدتاً در به اصطلاح “شهرهای اطلاعاتی” نشان داده شده است [ 2 ، 3 ، 4 ].

منطق فضایی جدید، مشخصه شهر اطلاعاتی، با برتری فضای جریان ها بر فضای مکان ها تعیین می شود. با فضای جریان، من به سیستم مبادله اطلاعات، سرمایه و قدرت اشاره می‌کنم که فرآیندهای اساسی جوامع، اقتصادها و دولت‌ها را بین مکان‌های مختلف، بدون توجه به محلی‌سازی، ساختار می‌دهد .

((ص 136)، [ 5 ])

علاوه بر این، جریان اطلاعات اغلب نقشی را در تحلیل های شهر جهانی ایفا می کند [ 6 ]. شهرهای جهان با اتصالات خود بر فاصله ها غلبه می کنند. این ارتباطات می تواند فیزیکی باشد، مانند فرودگاه هایی که پروازها را از و به همه مقصدهای شهردار در جهان ارائه می دهند، یا دیجیتال، مانند ایمیل یا مکاتبات تلفنی. با مراجعه به سهام [ 3 ]، امروزه ممکن است «شهرهای اطلاعاتی» را پیدا کنیم که در سلسله مراتب شهر جهانی نقشی جهانی دارند. آن شهرها در یک شبکه جهانی [ 2 ] با توجه به فضای جریان خود، هاب هستند. به گفته ماینکا و همکاران. [ 7]، آن شهرها را «شهرهای جهان اطلاعاتی» می نامیم. تعریف آنها از “شهرهای جهان اطلاعاتی” و 31 شهری که آنها شناسایی کردند، اساس این مقاله را تشکیل می دهد.

این سوال مطرح می شود که چگونه می توان جریان اطلاعات را اندازه گیری کرد. در سطح شهر، می‌توانیم ارتباطی را که بین بازیگران مستقر در شهرهای مختلف رخ می‌دهد، اندازه‌گیری کنیم. جریان اطلاعات از طریق ارتباطات الکترونیکی بین کارکنان در شرکت ها منبع در دسترس محققان نیست [ 8]، اما، از طریق ارتباطات جمعی در کانال های رسانه های اجتماعی، ما قادر به تجزیه و تحلیل ارتباطات بین کاربران مستقر در شهرها یا انتشار اطلاعات در مورد شهرها هستیم. ما کاربران را در سطوح سلسله مراتبی، به عنوان مثال، افراد مشهور و کاربران معمولی از هم جدا نمی کنیم، بلکه ارتباطات بین آنها را عمودی می دانیم. برای تجزیه و تحلیل اتصالات عمودی، از رویکرد علم سنجی استفاده خواهیم کرد. در اینجا، جریان اطلاعات به عنوان مثال، با انتشارات علمی و شهرت یا نویسندگی مشترک آنها اندازه گیری می شود [ 9 ]. این جریان ها را می توان در سطح کشور یا شهر نیز اندازه گیری کرد. به عنوان مثال، هاستین و همکاران. [ 10] میزان استناد و همکاری بین محققان منطقه آسیا و اقیانوسیه را در سطح کشور مورد مطالعه قرار داد. بنابراین، می توان دید که اطلاعات از کجا می آید، به عنوان مثال، یک جریان اطلاعاتی از چین به اندونزی ارائه می شود که محققی از اندونزی به یک مقاله تحقیقاتی که توسط یک محقق چینی نوشته شده است استناد می کند. علاوه بر این، در صورتی نزدیکی هر دو محقق توسط محقق ثالث ذکر شده باشد. ما ایده این مطالعه را با توجه به بررسی اطلاعاتی از اتصال میکروبلاگینگ 31 شهر اطلاعاتی جهان در توییتر تطبیق خواهیم داد. با توجه به این موضوع، یک جریان اطلاعات در توییتر در سطح ابرداده ارائه می‌شود، (1) زمانی که یک کاربر واقع در شهر A به یک توییت از یک کاربر واقع در شهر B پاسخ می‌دهد، یا (2) محتوای یک توییت به موارد بیشتری اشاره می‌کند. بیش از یک شهر11 ]. اصطلاح گسترده تری که همه این روش های اندازه گیری را ترکیب می کند هنوز اطلاعاتی است [ 12 ]. بنابراین، ما اندازه گیری می کنیم که آیا جریان اطلاعات از طریق شهرها وجود دارد یا خیر و آیا شهرها در حوزه Twitter به هم متصل هستند یا خیر. Twittersphere شامل تمام پست‌ها ( به عنوان مثال ، توییت‌ها) است که در توییتر ایجاد می‌شود و بنابراین فقط به کاربران این میکروبلاگ اشاره می‌کند. از این رو، اینها محدودیت های این تحلیل است. توییتر در همه شهرهای جهان به یک اندازه پخش نشده است. علاوه بر این، توییتر در چین مسدود شده است [ 13 ] و بنابراین فقط بازدیدکنندگان یا شهروندانی که می دانند چگونه از این مانع عبور کنند در این تحلیل گنجانده شده است.

توییتر که در سال 2006 با تعداد کل حدود یک میلیارد کاربر ثبت نام شده و 241 میلیون کاربر فعال ماهانه راه اندازی شد که تا 3 اکتبر 2013 300 میلیارد توییت ایجاد کردند و روزانه 500 میلیون توییت جدید ارسال کردند [14]، توییتر یکی از بزرگترین شبکه های اجتماعی و میکروبلاگینگ است . خدمات موجود توییتر نمونه‌ای از پلتفرم میکروبلاگینگ است که مبتنی بر تولید به‌روزرسانی‌های بلادرنگ است [ 15]. هر پست به 140 کاراکتر محدود شده است. کاربران را می توان با ذکر نام های کاربر (به عنوان مثال، @ladygaga) و توییت ها را می توان با استفاده از هشتگ ها (به عنوان مثال، #tweetsandthecity) در دسته بندی ها فهرست کرد. علاوه بر این، شرکت‌های سهامی عام با استفاده از علامت دلار درست قبل از نماد سهام خود برجسته می‌شوند (مثلاً $SI برای زیمنس). از این رو، ما با مجموعه داده های عظیمی که به سرعت در حال تغییر هستند سر و کار داریم که با روش های کلاسیک پردازش داده ها، به اصطلاح Big Data، قابل تحلیل نیستند. بنابراین، توییتر هدف بزرگی از تحقیقات علمی و رویکردهای استخراج در مورد بسیاری از موضوعات مختلف مانند استفاده توسط باشگاه های ورزشی [ 16 ، 17 ]، تجزیه و تحلیل احساسات سیاسی [ 18 ]، انتشار و توصیه اخبار [ 19 ، 20] است.] بلایای طبیعی و رویدادها [ 21 ، 22 ، 23 ] فقط به چند مورد اشاره می کنیم. ولر و همکاران [ 24 ] مجموعه بزرگی از کارهای مهم اخیر را در انتشارات خود «توئیتر و جامعه» با گردآوری کار محققان بین‌المللی پیشرو توئیتر در یک نشریه ارائه می‌کنند. اهمیت و تنوع تحقیقات توییتر را نشان می دهد و تعامل ما را برای بررسی شهرهای جهان اطلاعاتی در توییتر تقویت می کند.

تحقیقاتی که به طور کلی شهرها یا مکان‌ها را در توییتر بررسی می‌کنند، قبلاً برای اهداف مختلفی انجام شده‌اند. Heverin و Zach [ 25 ] فعالیت های توییتر را در 60 شهر ایالات متحده با جمعیت بیش از 300000 مورد بررسی کردند که 30 بخش پلیس دارای حساب های توییتر فعال هستند. آنها مشاهده کردند که بیشتر توییت‌های ارسال شده توسط این حساب‌ها حاوی اطلاعات جنایت یا رویداد است. تشخیص موضوع همچنین می تواند برای شناسایی موقعیت جغرافیایی کاربران رسانه های اجتماعی استفاده شود. هان و کوک [ 26 ] (ص. 452) فرض می کنند که برخی از موضوعات مانند “Piccadilly” و “Tube” بیشتر در توییت های افرادی که در لندن هستند استفاده می شود تا در شهر دیگری.

Weidemann [ 27 ] نشان داد که تنها 6٪ از تمام کاربران توییتر موقعیت جغرافیایی خود را به اشتراک می گذارند. تحقیقاتی در مورد فعالیت‌های عمومی توییتر در لندن، پاریس و شهر نیویورک قبلاً توسط عدنان و لانگلی [ 28 ] انجام شده است. آنها اسامی، قومیت های احتمالی و جنسیت کاربران توییتر را در این شهرها مقایسه کردند. بر اساس یافته های آنها، اکثر کاربران توییتر مرد و انگلیسی زبان هستند، علاوه بر این، کاربران در برخی مناطق فعال تر از سایرین هستند. به عنوان مثال، کوئینز در مقایسه با منهتن، فعالیت توییتر نسبتاً پایینی را نشان می دهد.

Mossberger، Wu و Crawford [ 29 ] یک “امتیاز تعامل” برای 75 شهر بزرگ ایالات متحده ایجاد کردند که تعامل بین دولت ها و شهروندان در شبکه های اجتماعی مانند توییتر را تعیین می کند. آنها به این نتیجه می رسند که استفاده از توییتر توسط دولت ها در این شهرها از 25 درصد (2009) به 87 درصد (2011) افزایش یافته است. در رتبه بندی خود، نیویورک، لس آنجلس و شیکاگو در 10 شهر برتر تعاملی ترین شهرها قرار دارند. سانفرانسیسکو (#18) و بوستون (#26) در رتبه های پایین تری قرار دارند. ماینکا و همکاران [ 30] مطالعه مشابهی را برای 31 شهر جهان اطلاعاتی انجام داد. آنها به این نتیجه رسیدند که توییتر فعال ترین پلتفرم رسانه اجتماعی برای استفاده دولتی و کتابخانه ای است. این ظن ما را تأیید می کند که فعالیت های توییتر این شهرها ارزش بررسی دارد. بنابراین، بررسی ما از 31 شهر در حوزه توییتر، سؤالات تحقیق زیر را تجزیه و تحلیل خواهد کرد:

(1): شهرهای مورد تجزیه و تحلیل چند کاربر توییتر دارند؟
(2): کدام وب‌سایت‌ها در جریان اطلاعات شهرهای تحلیل‌شده در حوزه توییتر غالب هستند؟
(3): کدام محتوا در جریان اطلاعات شهرهای تحلیل شده در حوزه توییتر غالب است؟
(4): آیا می توان ارتباط بین شهرها را از طریق تجزیه و تحلیل محتوای توییتر اندازه گیری کرد؟

این چهار سوال بر روی یکدیگر بنا می شوند. در ابتدا، ما می خواهیم بدانیم که کاربران در 31 شهر چقدر فعال هستند. برای دقیق‌تر بودن، می‌خواهیم بدانیم که در هر یک از شهرها چند توییت تولید می‌شود تا نشانه‌ای از مرتبط بودن نتایج عمیق‌تر را به دست آوریم. پاسخ به سوالات 2 و 3 نمای کلی خوبی از محتوای تولید شده در هر شهر می دهد. با این نتایج، می‌توان در نهایت سعی کرد توضیحاتی مبتنی بر محتوا برای ارتباط بین شهرها پیدا کرد. در نتیجه، سه سوال اول به تجزیه و تحلیل نتایج سوال 4 کمک می کند. جریان اطلاعات توسط فراداده های جغرافیایی و تحلیل محتوا اندازه گیری می شود. در نهایت، یافته‌های این تحقیق یک تحقیق کوتاه‌مدت را نشان می‌دهد و گزیده‌ای کوچک از حوزه توییتر را نشان می‌دهد. تا آن جایی که می دانیم،

2. جمع آوری مطالب مرتبط با شهر در توییتر

از آنجایی که توییتر پارامترهای متنوعی را ارائه می‌کند که می‌توان از آنها برای یافتن توییت‌ها استفاده کرد، می‌توان دو معیار را تعریف کرد که یک توییت برای ارتباط با یک شهر باید رعایت کند [ 31 ].

(1): نام شهر در توییت به عنوان یک هشتگ یا به عنوان یک اصطلاح معمولی ذکر شده است.
(2): این توییت با یک مکان جغرافیایی که در محدوده شهر قرار دارد برچسب گذاری شده است.

برای این منظور، توییتر دو API مختلف (رابط برنامه نویسی برنامه) ارائه می دهد: REST API و Streaming API. مورد اول از منابع متعددی مانند کاربران، جدول زمانی، دوستان و فالوورها ناشی می شود. برای یافتن توییت‌هایی که با جستارهای کاربر مطابقت دارند، به ترتیب از منبع جستجو – Search API – استفاده می‌کنیم. توییت هایی که توسط یک مکان جغرافیایی مشخص برچسب گذاری شده اند، بدون در نظر گرفتن محتوا، می توانند با استفاده از Streaming API شناسایی شوند. برای جستجوی توییت‌ها، از نام شهرهای 31 شهر اطلاعاتی جهان با املای متنوع استفاده می‌کنیم. به منظور بازیابی یک مجموعه تا حد امکان جامع، همه شهرها به زبان ملی مربوطه و در نه زبان رایج با استفاده از الفبای لاتین جستجو می‌شوند: اسپانیایی، انگلیسی، پرتغالی، آلمانی، فرانسوی، ایتالیایی، لهستانی، رومانیایی و هلندی. 32]. برای پایین نگه داشتن نرخ خطا تا حد امکان، پرس و جوهایی که حاوی نویسه های غیر لاتین هستند به دو یا چند پرس و جو تقسیم می شوند. به عنوان مثال پرس و جوها برای پکن به صورت زیر تقسیم می شوند:

(1): Beijing OR #Beijing OR Běijing OR #Běijing OR Pechino OR #Pechino OR Pekin OR #Pekin OR Peking OR #Peking OR Pekin OR #Pekín OR Pequim OR #Pequim OR Pékin OR #Pékin
(2): 北京 OR #北京

برای پرس و جوهایی که حاوی هیچ کاراکتر غیر لاتین نیستند، کافی است فقط از یک پرس و جو استفاده کنید.

محدودیت به زبان های مبتنی بر الفبای لاتین برای خواندن و ترجمه آسان تر زبان ها انتخاب شده است. با توجه به اینکه در کشورهایی که زبان‌های مبتنی بر الفبای لاتین ندارند، بسیاری از توییت‌ها به هر حال به زبان انگلیسی هستند – طبق Semiocast [ 33] حدود 40 درصد از همه توییت‌ها به زبان انگلیسی نوشته می‌شوند—تعداد توییت‌هایی که جمع‌آوری نمی‌شوند، حتی اگر حاوی نام یکی از شهرها باشند، باید در محدوده قابل قبولی باشد. علاوه بر این، برخی از اختصارات محبوب مانند #la برای لس آنجلس و #nyc برای شهر نیویورک در جست‌وجوها گنجانده شده‌اند، در صورتی که مخفف معروفی وجود داشته باشد. تصمیم گرفتیم عباراتی را که به شدت به شهرهایی مانند «میدان تایمز» (نیویورک) یا «پیکادلی» (لندن) مرتبط هستند را کنار بگذاریم تا اولین بار در مورد نحوه نمایش شهرها در توییت‌ها و اینکه آیا نام شهرها کافی است، دریافت کنیم. شاخص برای اندازه گیری فراوانی توییت های مربوط به شهر.

هنگام استفاده از Streaming API توییتر برای یافتن توییت هایی که در یک منطقه خاص برچسب گذاری شده اند، یک کادر محدود باید مشخص شود. یک جعبه مرزی با گوشه های جنوب غربی و شمال شرقی آن مشخص می شود که به نوبه خود به صورت جفت طول و عرض جغرافیایی تعریف می شوند. در نتیجه، یک مستطیل در حال شکل گیری است که ناحیه ای را که باید نظارت شود، مشخص می کند. اندازه مستطیل ها بر اساس اندازه های رسمی مناطق شهر در صورت ارائه اظهارنامه رسمی است. در غیر این صورت، ما از تعریف نقشه های گوگل از منطقه شهر استفاده کردیم که با استفاده از Google Maps API v3 می توان به آن دست یافت (این وب سایت با استفاده از Google Maps API v3 کادرهای محدود کننده را نشان می دهد مانند: http://www.mapdevelopers.com/geocode_bounding_box.php ).

2.1. پایگاه داده و فرآیند جمع آوری

توییت‌ها بین 2 دسامبر 2013 و 16 دسامبر 2013 جمع‌آوری شدند. در نتیجه، مجموعه داده‌های ما حاوی دو هفته داده‌های توییتر است که به نظر می‌رسد یک بازه زمانی کوتاه باشد. هدف ما دریافت نشانه هایی از نحوه تجزیه و تحلیل این مجموعه داده ها برای ایجاد روش بهینه برای تعیین ویژگی های جریان اطلاعات و ارتباط بین شهرهای جهان اطلاعاتی است. علاوه بر این، از آنجایی که یک توییت فقط برای یک ساعت «زندگی» می‌کند، دو هفته می‌تواند تأثیر خوبی در مورد جریان‌هایی که در توییتر اتفاق می‌افتد ایجاد کند. به منظور رسیدگی به شرایط مختلف REST و Streaming API توییتر، دو ربات مختلف (برنامه های خودکار برای جمع آوری داده ها) با استفاده از زبان برنامه نویسی PHP (نسخه 5.4.4) ایجاد شده است: ربات جستجو و ربات جریان. هر دو ربات با یک صف از پرس و جوها کار می کنند که در MySQL (نسخه 5) ذخیره می شود. 6) پایگاه داده تفاوت بین Stream Bot و Search Bot در این است که Search Bot به صورت دوره ای پرس و جوی بعدی را از پایگاه داده واکشی می کند، درخواست HTTP را به REST API ارسال می کند و پرس و جو را به روز می کند تا در انتهای صف پرس و جو قرار گیرد. در عوض، ربات Stream تنها یک بار درخواست‌ها را زمانی که مقداردهی اولیه می‌شود، واکشی می‌کند و یک اتصال HTTP دائمی به Streaming API را باز نگه می‌دارد تا زمانی که ربات توسط کاربر متوقف شود. پس از اینکه هر یک از دو ربات داده‌های توییت جدید را از یکی از دو API بازیابی کرد، پاسخ JSON (JavaScript Object Notation) در جدول کش ذخیره می‌شود. یک فرآیند دائماً در حال اجرا، این جدول را برای داده‌های درج شده جدید بررسی می‌کند و آن را به اسکریپت‌هایی که داده‌ها را به فرمت تعریف‌شده توسط مدل پایگاه داده تجزیه و عادی می‌کنند و در نهایت داده‌ها را به آن وارد می‌کنند، تفویض می‌کند.34 ]، که فقط از API استریم توییتر برای جمع آوری توییت ها استفاده می کند. فرآیند کامل در شکل 1 نشان داده شده است .

شکل 1. فرآیند جمع آوری.

2.2. مجموعه داده

پایگاه داده حاوی 40 میلیون توییت است که با استفاده از پرس و جوهای مختلف برای دو API ذکر شده در بالا پیدا شده است و بنابراین دارای موارد تکراری است. به عنوان مثال، هنگام استفاده از REST API توییتر، یک توییت از طریق پیدا می شودعبارت جستجوی «نیویورک» اگر حاوی رشته «نیویورک سیتی» باشد. اگر این توییت با شناسه منحصربه‌فرد ارائه شده توسط توییتر در پایگاه داده وجود نداشته باشد، یک رکورد جدید ذخیره می‌شود و کوئری که مطابقت دارد با آن مرتبط می‌شود. اگر توییت دوباره پیدا شود زیرا علاوه بر این حاوی #paris است، فقط ارتباط بین کوئری پاریس و توییت در پایگاه داده ذخیره می‌شود و رکورد حاوی داده‌های توییت، دو بار ذخیره نمی‌شود. علاوه بر این، ممکن است توییت قبلی دارای اطلاعات جغرافیایی باشد و مختصات آن در مستطیل برلین قرار گرفته باشد. بنابراین، این توییت برای سومین بار اما این بار از طریق یافت می شودStreaming API و یک اتصال جدید بین توییت و پرس و جو ذخیره خواهد شد. از این رو، بین شمارش تعداد دفعات یافتن توییت با استفاده از هر یک از APIها و شمارش توییت های منحصر به فرد ذخیره شده در پایگاه داده تفاوت وجود دارد. شکل 2 تعداد توییت‌هایی را نشان می‌دهد که مجموعه شامل دو دسته با سه زیر شاخه است. زیرشاخه REST API نشان دهنده تمام توییت هایی است که فقط با استفاده از REST API توییتر یافت می شوند. اگر توییت نمونه ما با استفاده از عبارت “نیویورک” و بار دوم با استفاده از عبارت “پاریس” یافت شود، در این دسته قرار می گیرد. در نتیجه، تعداد توییت‌های منحصربه‌فرد یافت شده از طریق افزایش می‌یابدREST API یک و تعداد تمام توییت‌های حاوی موارد تکراری دو نفر است زیرا با استفاده از جستجوهای نیویورک و پاریس پیدا شده است. با این حال، از آنجایی که توییت مثال ما دو بار با استفاده از REST API و یک بار با استفاده از Streaming API پیدا شده است، ما فقط یک توییت منحصر به فرد اما سه بازدید برای دسته همه توییت‌های حاوی موارد تکراری داریم که در هر دو API یافت شده است. همانطور که در شکل 2نشان می دهد، تفاوت 1,019,548 توییت بین توییت های منحصر به فرد و تکراری وجود دارد. مقادیر توییت‌های منحصربه‌فرد و تکراری یافت شده توسط Streaming API یکسان هستند، زیرا یک توییت نمی‌تواند با دو مکان جغرافیایی مختلف برچسب‌گذاری شود. با مقایسه دو روش جستجوی مورد استفاده برای ایجاد پیکره، واضح است که توییت‌های بیشتری با استفاده از عبارات جستجو نسبت به استفاده از مکان‌های جغرافیایی پیدا شده است، که به دلیل عدم مشخص کردن مکان توسط کاربران است. حدود 68 درصد از همه توییت‌ها (غیر منحصر به فرد) با استفاده از REST API، 31 درصد با استفاده از Streaming API و 1 درصد با استفاده از هر دو یافت شدند.

شکل 2. مجموعه داده.

2.3. تشخیص موضوع

بزرگترین بخش تجزیه و تحلیل با استفاده از ویژگی های MySQL مانند جستجوی متن کامل یا توابع جمع انجام شده است. علاوه بر این، اسکریپت‌های خودکار PHP (زبان برنامه‌نویسی سمت سرور) که برای هدف ما نوشته شده‌اند، در مورد محدودیت‌های MySQL کار می‌کنند. برای تجزیه و تحلیل محتوا، روش های تجزیه و تحلیل متن MySQL کافی نیست. بنابراین، داده‌های توییت علاوه بر این در یک Apache Lucene Index که برای مدیریت داده‌های بزرگ طراحی شده بود، فهرست‌بندی شده‌اند و یک موتور جستجوی متن کامل با ویژگی‌های مناسب‌تر را ارائه می‌دهد. هر توییت به عنوان یک سند واحد با داده ها و ابرداده های زیر نمایه شده است:

شناسه توییت،
متن،
تاریخ ایجاد،
شهرهای مرتبط (Geo یا Query)،
شناسه مکالمه شامل در صورت وجود،
ریتوییت می شود،
اسپم است،
تعداد مورد علاقه،
تعداد بازتوییت،
زبان ارائه شده توسط توییتر.

بنابراین، امکان جستجوی پیکره در تمام ترکیبات قابل تصور این ویژگی ها وجود دارد. اکنون می توان پرس و جوهایی مانند “دریافت همه توییت هایی که به مونیخ مرتبط هستند و بیش از 1000 مورد علاقه دارند” را به عنوان مثال فرموله کرد.

برای هر شهر، ما اکنون دو لیست از 100 هشتگ برتر استفاده شده در مجموعه خود ایجاد کرده ایم. ما از شمارش ساده توییت‌ها به‌عنوان مقدار وزن استفاده کردیم و اعداد را جمع کردیم تا فهرستی مرتب از بیشترین موضوعات اختصاص داده شده به هشتگ‌ها و در نتیجه توییت‌های مجموعه داده به دست آوریم. موضوعات به صورت دستی از طریق تجزیه و تحلیل محتوا تعریف شده اند و همه هشتگ ها با استفاده از یک طرح کدگذاری مشخص اضافه شده اند. مجدداً از دو لیست هشتگ برای تعیین موضوعات نشان داده شده توسط هشتگ ها استفاده کردیم. یک لیست برای توییت های دارای برچسب جغرافیایی و دیگری برای توییت هایی است که از طریق عبارات جستجو یافت می شوند. بر خلاف اصطلاح لیست، لیست هشتگ ها هر کدام از 25 هشتگ پرکاربرد تشکیل شده است. به عنوان مثال، هشتگ #music و هشتگ #آهنگ به موضوع “عکس، فیلم و موسیقی” اختصاص داده شده است. هشتگ ذکر شده اول در 500 توییت و هشتگ دوم در 350 توییت یافت شده است. در نتیجه، تعداد کل توییت‌ها 850 توییت برای موضوع «عکس‌ها، فیلم‌ها و موسیقی» است.

2.4. تشخیص هرزنامه

ما از یک الگوریتم تشخیص هرزنامه با برخی جنبه‌های دستی استفاده کردیم تا بیشتر توییت‌های هرزنامه را لغو کنیم. در مرحله اول، ما 100 کاربر برتر را در کل مجموعه داده طبقه بندی شده بر اساس تعداد توییت شناسایی کردیم. ثانیاً برای همه این کاربران یک درخواست از کاربران/نمایش منبع REST API توییتر انجام شده است. اگر پاسخ API حاوی اطلاعاتی باشد که حساب توسط توییتر به حالت تعلیق درآمده است، همه توییت‌های این حساب به‌عنوان هرزنامه علامت‌گذاری شده‌اند. ثالثاً، ما به صورت دستی همه حساب‌های باقی‌مانده را بررسی کردیم که آیا توییت‌هایی با محتوای مرتبط تولید می‌کنند یا خیر. حساب‌هایی که فقط برای هشتگ یا موضوع خاصی مانند «Toronto Retweeter» (@toronto_rt) یا «Vancouver Retweeter» (@vancouver_rt) ریتوییت می‌کنند، به عنوان ارسال‌کننده هرزنامه طبقه‌بندی می‌شوند زیرا محتوای مرتبطی برای این تحلیل تولید نمی‌کنند. اکثر این حساب ها حاوی اطلاعات “من یک ربات هستم” در توضیحات حساب خود هستند. در نهایت، برخی از حساب‌های اسپم که قبلاً شناسایی شده‌اند، توییت‌هایی تولید می‌کنند که می‌توان آن‌ها را به‌عنوان هرزنامه با محتوایشان شناسایی کرد. برای یک کاربر، واضح است که توییت فقط با خواندن متن توییت یک توییت اسپم است. برای مثالی از این نوع توییت، نگاه کنیدشکل 3 .

برای شناسایی سایر توییت‌های مشابه و علامت‌گذاری آنها به‌عنوان هرزنامه، از نمایه Lucene سؤال کردیم ( http://lucene.apache.org/) برای همه توییت‌های هرزنامه و همه نشانه‌های منحصربه‌فرد مجموعه نتایج اسناد شامل می‌شود. تمام عباراتی که کلمات هرزنامه بالقوه نیستند به صورت دستی با لیستی از 580 کلمه هرزنامه احتمالی فیلتر شده اند. برای یافتن توییت‌های هرزنامه اضافی، از پایگاه داده برای توییت‌هایی پرس و جو کردیم که حداقل دو مورد از این کلمات هرزنامه را داشته باشند، زیرا توییتی که حاوی عبارت mature باشد، لزوما توییت اسپم نیست. توییتی که حاوی بزرگسالان و پورن است به احتمال زیاد یک توییت اسپم است. برای پایین نگه داشتن نرخ مثبت کاذب تا حد امکان، همه توییت‌های یافت شده را به صورت دستی بررسی کردیم و آن‌هایی را که نمی‌توان به‌عنوان هرزنامه علامت‌گذاری کرد حذف کردیم. انتخاب توییت ها با در نظر گرفتن سوالات زیر انجام شد:

آیا این توییت از یک کاربر واقعی می آید؟
آیا توییت نه تنها حاوی هشتگ است؟
آیا توییت دیگری با محتوای مشابه ( یعنی ایجاد شده توسط ربات های بازتوییت و غیره ) در مجموعه داده وجود ندارد ؟

اگر بتوان به یکی از سوالات مربوط به یک توییت با “خیر” پاسخ داد، در بیشتر موارد توییت می تواند به عنوان یک توییت اسپم علامت گذاری شود. این توییت‌های هرزنامه در تمام تحقیقاتی که ممکن است نتایج را تحریف کنند، فیلتر می‌شوند.

شکل 3. مثالی از یک توییت اسپم.

3. نتایج و بحث

جدول 1 تعداد توییت‌های یافت شده برای هر شهر را نشان می‌دهد، یا از طریق جستجوی اصطلاحات و API REST توییتر یا از طریق مکان جغرافیایی ارائه شده و API جریانی توییتر که بر اساس تعداد کل توییت‌ها رتبه‌بندی شده‌اند. واضح است که ما یک رهبر روشن داریم: توکیو. با تقریباً 4.5 میلیون توییت یافت شده از طریق عبارات جستجو، توکیو از سایر شهرها با فاصله قابل توجهی از جایگاه دوم که در اختیار شهر نیویورک با حدود سه میلیون توییت است، فاصله دارد. جالب است که از پاریس تا بارسلونا شکاف مهم دیگری رخ می دهد و از آن نقطه به بعد، تعداد توییت ها به طور مداوم کاهش می یابد. به طور خلاصه، چهار شهر معادل 45 درصد از توییت‌هایی است که با استفاده از عبارات جستجو برای 31 شهر پیدا شده‌اند. این پدیده را می توان با این واقعیت توضیح داد که این چهار شهر دارای نرخ بالایی از گردشگری شهری هستند [ 31]. نیویورک (بیش از 10 میلیون بازدید کننده)، لندن (بیش از 15 میلیون بازدید کننده)، و پاریس (بیش از 8 میلیون بازدید کننده) متعلق به شهرهای مجموعه ما هستند که بیشترین بازدید کننده بین المللی را در سال 2011 داشتند [35 ] . توکیو تنها حدود 2.7 میلیون بازدید کننده بین المللی داشته است، اما همیشه گردشگری داخلی قوی داشته است (430 میلیون بازدید کننده داخلی در سال 2008).

با در نظر گرفتن اعدادی که تعداد توییت‌ها در هر شهر را نشان می‌دهند و از طریق مکان‌های جغرافیایی پیدا شده‌اند، می‌توانیم دو پیشتاز پاریس و سائوپائولو را با تعداد تقریباً مساوی توییت (حدود 1.8 میلیون) شناسایی کنیم. نیویورک سیتی و لندن پس از فاصله حدود 470 هزار توییت کمتر از سائوپائولو و سپس سومین جفت شهر، لس آنجلس و کوالالامپور، با حدود 1.4 تا 1.7 میلیون توییت، به عنوان جفت بعدی (هر دو حدود 1.3 میلیون توییت) دنبال می‌شوند. ، نشان دهنده آخرین گروهی است که قبل از کاهش مداوم تعداد توییت ها برجسته است. به عنوان یک نتیجه نسبتا منطقی، اگر نگاهی به توییت‌هایی بیندازیم که منشأ هر یک از این شهرها دارند، می‌توانیم سه شهر چین – پکن، شانگهای و شنژن – را که در رتبه‌های 29-31 قرار دارند، بیابیم.36 ].

در تجزیه و تحلیل کمی قبلی خود [ 31 ]، ما قبلاً برخی از عوامل تأثیرگذار را نقل کردیم که می توانند تفاوت های عظیم بین اعدادی را که از مجموعه داده خود محاسبه کرده ایم توضیح دهند. برای مثال، تعداد زیادی توییت را مشاهده می‌کنیم که از طریق مکان‌های جغرافیایی برای سائوپائولو و کوالالامپور یافت می‌شوند، اما تعداد نسبتا کمی از توییت‌هایی که نام این دو شهر را ذکر می‌کنند. شهرهای آلمان برلین، فرانکفورت و مونیخ تصویری برعکس را نشان می دهند. برای این شهرها، تعداد کمی توییت با برچسب جغرافیایی پیدا کردیم. ما فرض می کنیم که سطح بالای آگاهی از حفاظت از حریم خصوصی داده ها در آلمان [ 37] می تواند عاملی برای تعداد کمی توییت های دارای برچسب جغرافیایی باشد. بنابراین، کاربران آلمانی موقعیت مکانی خود را مانند کاربران برزیل یا مالزی به اشتراک نمی گذارند. ما همچنین متوجه شدیم که نرخ نفوذ گوشی‌های هوشمند، که آشکارا بر میزان توئیت‌های دارای برچسب جغرافیایی به دلیل ماژول‌های GPS داخلی تأثیر می‌گذارد، به نظر می‌رسد بر تعداد آنها تأثیر بگذارد. Rowinski [ 38 ] 70 میلیون کاربر تلفن هوشمند در برزیل و تنها 32 میلیون کاربر در آلمان دارد. با این حال، فرانسه نیز تنها 33 میلیون کاربر تلفن هوشمند دارد که منجر به این فرض می شود که این عامل قابل تعمیم نیست.

جدول 1. توییت‌ها به ازای هر شهر رتبه‌بندی شده بر اساس تعداد کل توییت‌های جمع‌آوری‌شده بین 2 دسامبر 2013 تا 16 دسامبر 2013.

3.1. توییتر به عنوان یک سرویس اشتراک گذاری برای سایر خدمات رسانه های اجتماعی

استخراج لینک های برتر به اشتراک گذاشته شده در توییت های مربوط به شهرهای جهان اطلاعات نشان می دهد که سایر خدمات رسانه های اجتماعی تقریباً در هر شهر رتبه بندی را دارند. شکل 4، 5 سرویس رایج مشترک را نشان می دهد. مقادیر معکوس شده اند. رتبه یک 100 امتیاز، رتبه دو 90 امتیاز، رتبه سه 80 امتیاز و غیره. اگر وب‌سایتی به 10 لینک برتر در توییت‌های مربوط به یک شهر خاص راه پیدا نکند، در نهایت امتیاز صفر می‌شود.

بزرگترین برنده این محاسبه اینستاگرام است. تقریباً تمام رتبه بندی وب سایت هایی که بیشترین اشتراک گذاری را دارند، امتیاز 70 تا 100 را برای اینستاگرام به دست می آورند. در اینجا فقط مونیخ یک استثنا است. اینستاگرام تنها در توییت های مربوط به مونیخ به امتیاز 40 می رسد. پدیده مشابهی را می توان با نگاه کردن به مقادیر دومین وب سایت رتبه بندی شده Foursquare مشاهده کرد که حتی به 10 سایت برتر مرتبط با مونیخ راه پیدا نمی کند. با این حال، مونیخ این وجه مشترک با بارسلونا دارد. بدیهی است که مردم این شهرها علاقه چندانی به اشتراک گذاری مکان فعلی خود از طریق آن ندارندFoursquare یا آنها فقط حساب Foursquare خود را به حساب توییتر خود متصل نکردند. به نظر می رسد کاربران توکیو، فرانکفورت، کوالالامپور و سائوپائولو بیشتر از این ویژگی استفاده می کنند، اما Foursquare بهترین گلزن این شهرها است. یوتیوب و فیس بوک تقریباً اهمیت مشابهی را هنگام نگاه کردن به توییت هایی که به وب سایت های دیگر پیوند می دهند نشان می دهند. یوتیوب به امتیاز کلی 2040 و فیس بوک به امتیاز 1980 رسیده است. فیس بوک در لندن صد امتیاز و یوتیوب در سئول نیز صد امتیاز کسب می کند. در تمام شهرهای دیگر، این دو سرویس می توانند در خط هافبک قرار بگیرند. Tumblr با امتیاز 400 نیز جزو پنج سرویس برتر رسانه های اجتماعی است که از طریق آن به اشتراک گذاشته شده است.توییتر. همه سرویس‌های دیگر، مانند Pinterest، Flickr یا LinkedIn، فقط در این تحقیق علاقه‌مند هستند و بنابراین در تجسم ما گنجانده نشده‌اند. به عنوان مثال، سرویس میکروبلاگینگ چینی Weibo، فقط در شهرهای چین مهم است، اما در هیچ یک از شهرها به ده نفر برتر نمی رسد.

3.2. موضوعات اصلی در توییت ها

از آنجایی که ما نه تنها به نتایج کمی علاقه مندیم، بلکه می خواهیم با تعیین موضوعات اصلی در توییت ها، رویکرد کیفی تری را دنبال کنیم. کدام محتوا در جریان اطلاعات بین شهرها در حوزه توییتر غالب است؟ داده های تجزیه و تحلیل شده نشان می دهد که ذکر شهرها یا مکان های جغرافیایی دیگر در توییت هایی که مربوط به شهرهای جهان اطلاعاتی است بسیار محبوب است. از آنجایی که قبلاً Foursquare را به عنوان یکی از وب سایت های به اشتراک گذاشته شده در مجموعه داده خود شناسایی کرده بودیم و اشتراک گذاری مکان ها مدل کسب و کار این سرویس است، این تعجب آور نیست.

توییتر همچنین اغلب برای پیشنهادهای شغلی، چه توسط آژانس های کاریابی یا خود شرکت ها، استفاده می شود. در نتیجه، مقوله موضوعی «اقتصاد، صنعت، امور مالی و مشاغل» حتی بیشتر از «رویدادها و تاریخ‌ها» وجود دارد که ما همچنین انتظار داریم که به دلیل ماهیت رویداد محور یک سرویس میکروبلاگینگ مانند توییتر یکی از موضوعات برتر باشد. . به دلیل شهرهایی مانند بارسلونا یا مونیخ با تیم‌های معروف فوتبالشان، اما شهرهایی مانند شیکاگو یا لس‌آنجلس با تیم‌های معروف آمریکایی فوتبال، بسکتبال یا بیسبال، «ورزش» را نیز می‌توان در میان محبوب‌ترین موضوعات یافت. این همچنین بر تعداد مکالمات بین کاربران از شهرهای مختلف جهان اطلاعاتی تأثیر می گذارد که در فصل بعدی نشان خواهیم داد.

شکل 4. پنج سرویس مشترک برتر در توییتر.

شکل 5. مهمترین موضوعات در توییت I.

با توجه به امکان اشتراک‌گذاری محتوای چندرسانه‌ای یا لینک‌هایی به محتوای چندرسانه‌ای، تعداد بسیار زیادی توییت در مجموعه داده ما وجود دارد که می‌توانیم آن‌ها را به دسته «عکس‌ها، فیلم‌ها و موسیقی» اختصاص دهیم. علاوه بر این، بسیاری از ایستگاه‌های رادیویی شهرستان‌ها حساب کاربری خود را دارند و توییت‌هایی درباره موسیقی در حال پخش (#در حال پخش) به اشتراک می‌گذارند.

شکل 6. مهمترین موضوعات در توییت ها II.

علاوه بر موضوعات ذکر شده، توییتر همچنین برای صحبت در مورد افراد مشهور، به اشتراک گذاری اخبار از سرویس های خبری آنلاین مانند وب سایت روزنامه ها یا صحبت در مورد سیاست استفاده می شود. در طول دوره جمع آوری ما، یک ماجرای سیاسی در تورنتو در مورد شهردار راب فورد رخ داد. ویدئویی فاش شده است که او را در حال کشیدن کراک نشان می دهد [ 39 ]. در نتیجه، «سیاست و جامعه» یکی از مهم‌ترین مقوله‌های موضوعی در آن دوران بود.

آخرین دسته‌ای که باید به آن اشاره کنیم «رسانه‌های اجتماعی و ارتباطات» می‌گوییم. به تمام توییت هایی اطلاق می شود که حاوی محتوایی است که معمولاً در توییتر برای برقراری ارتباط یا شرکت در رویدادهای خاص استفاده می شود. یک مثال می تواند هشتگ #ff یا #followfriday یا هشتگ #tbt (“پنجشنبه بازگشت”) باشد. 9 موضوع مهم در شکل 5 و شکل 6 نشان داده شده است که توسط محاسبات معکوس ما در مقیاس 0 تا 100 رتبه بندی شده اند.

3.3. نزدیکی بین شهرهای جهان اطلاعاتی

یکی از جنبه‌های جالب پژوهش شهر اطلاعاتی، تعیین نزدیکی شهرها به یکدیگر است. نزدیکی را می توان از طریق اتصالات در شبکه ای از هاب ها تجزیه و تحلیل کرد. داده های ارائه شده توسط توییتر دارای پتانسیل استخراج مکالمات توسط شناسه مکالمه در فراداده است. بنابراین، ما تمام مکالمات موجود در مجموعه داده خود را استخراج کردیم و شهرهایی را که ذکر شده یا با کدهای جغرافیایی برچسب گذاری شده اند، تجزیه و تحلیل کردیم. شهرها گره های این شبکه را تشکیل می دهند. در نتیجه، ما یک نمودار خوشه‌ای ساختیم که شامل تمام شهرهایی است که از طریق تعداد مکالمات به هم متصل شده‌اند. به عنوان مثال، 1438 مکالمه را می توان به طور همزمان به شیکاگو و نیویورک اختصاص داد، بنابراین این عدد میزان “ارتباط” بین این دو شهر را به ما نشان می دهد. با استفاده از الگوریتم OpenOrd در Gephi،شکل 7 ). اندازه نوع نشان دهنده اهمیت یک گره است که یک شهر را نشان می دهد. هرچه بتوان در مجموع مکالمات بیشتری را به یک شهر اختصاص داد، گره در نمودار اهمیت بیشتری پیدا می کند. از این رو، شبکه مورد بررسی فقط یک عکس فوری است که یک بازه زمانی معین را نشان می دهد. روابطی که در اینجا می بینیم، ممکن است از طریق رویدادهای خاص تحت تأثیر قرار گیرند، به عنوان مثال، فرمول یک در یک شهر اتفاق می افتد، که توجه جهانی را به خود جلب می کند و همچنین بر مکالمات در توییتر تأثیر می گذارد و در نتیجه منجر به گره بزرگتری از این شهر می شود.

شکل 7. نزدیکی بین شهرها بر اساس مکالمات کاربر.

واضح ترین پدیده در نمودار توزیع چهار خوشه با اندازه های مختلف است. ما یک خوشه استرالیایی متشکل از ملبورن و سیدنی و یک خوشه آسیای جنوب شرقی متشکل از پکن، شانگهای، سنگاپور، هنگ کنگ، شنژن و کوالالامپور پیدا کردیم. علاوه بر این دو خوشه که عمدتاً شامل شهرهایی می شود که در دنیای واقعی از نظر جغرافیایی نیز به هم نزدیک هستند، دو خوشه دیگر ظاهر شدند که این ویژگی را برآورده نمی کنند. خوشه ای که شامل بارسلونا، مونیخ و میلان است، ما به آن “خوشه فوتبال” می گوییم. از آنجایی که موضوعات برتر در توییت‌های مربوط به هر یک از این شهرها در مجموعه داده ما به وضوح تحت سلطه ورزش یا به طور دقیق‌تر فوتبال است، بنابراین می‌توان فرض کرد که محتوای توییت‌ها بر جایی که کاربران از طریق مستقیم ارتباط برقرار می‌کنند نیز تأثیر دارد. گفتگواز طریق توییتر یا در مورد کدام شهرها صحبت می کنند. با تجزیه و تحلیل مکالمات اختصاص داده شده به سه شهر، متوجه شدیم که اکثر آنها با تیم های برتر فوتبالی سر و کار دارند که منشا این شهرها هستند: اف سی بارسلونا، آث میلان و اف سی بایرن مونیخ. می توان فکر کرد که این امر به این دلیل رخ می دهد که نام باشگاه های ورزشی شامل نام شهر می شود، اما سایر خوشه ها غالب نیستند، به عنوان مثال، دانشگاه آمستردام یک خوشه با دانشگاه های دیگر ایجاد نمی کند. در نتیجه، به نظر می رسد علایق مشترک افرادی که در شهرهای جهان اطلاعات زندگی می کنند، منجر به ارتباطات بین شهری بیشتر می شود. شکل 8 نمونه ای از مکالمه مربوط به هر سه شهر را نشان می دهد.

آخرین خوشه نشان داده شده در نمودار نیز بزرگترین خوشه است. این شامل تمام شهرهای آمریکای شمالی و جنوبی است که بخشی از تحقیقات ما هستند و به جز بارسلونا، میلان و مونیخ، تمام شهرهای اروپایی نیز وجود دارد. با توکیو، ما همچنین می‌توانیم تنها شهری از جنوب شرق آسیا را پیدا کنیم که به شهرهای دیگر این خوشه نزدیک است اما به شهرهای دیگر منطقه خودش نزدیک نیست. در نتیجه، به نظر می‌رسد توکیو قوی‌تر از شهرهای جنوب شرقی آسیا با سایر شهرهای جهان اطلاعاتی مرتبط است.

بزرگترین خوشه همچنین شامل بزرگترین گره های پاریس، لندن و نیویورک است. همانطور که در شکل نشان داده شده است، گره های پاریس و لندن تقریباً روی هم قرار دارند. این پدیده از این واقعیت ناشی می شود که با ارزش 1833، این شهرها بیشترین تعداد مکالمات رایج را در مجموعه داده ما نشان دادند. با این حال، شهر نیویورک بیشترین میزان مکالمه را نشان می دهد، در مجموع شهرهای دیگر به تعداد 9230 مکالمه می رسند که به حداقل یکی از سی شهر دیگر نیز متصل هستند. برای مقایسه، لندن به 8300 مکالمه و پاریس به 6335 مکالمه می رسد. بدون هیچ تعجبی، شنژن نشان دهنده کوچکترین گره در نمودار است (در مجموع 79 مکالمه).

شکل 8. نمونه گفتگوی مربوط به میلان، بارسلونا و مونیخ.

4. شهرهای جهان اطلاعاتی در حوزه توییتر

نتایج ما به شدت به تحقیقات فعلی شهر اطلاعاتی جهان کمک می کند. اگر می‌خواهیم بدانیم یک شهر چقدر «اطلاعاتی» است، باید رفتار رسانه‌های اجتماعی کاربرانی را که محتوای مرتبط با شهر تولید می‌کنند، تحلیل کنیم. با تجزیه و تحلیل مکالمات، نکاتی از ارتباط برخی شهرها با یکدیگر را دیده ایم. یک ارتباط بر اساس محتوا (به عنوان مثال، فوتبال) و یک ارتباط بر اساس موقعیت جغرافیایی وجود دارد. این به ما اشاره می کند که شهرهایی که در توییتر “نزدیک” به یکدیگر هستند به دلیل عوامل دیگر نیز به یکدیگر نزدیک هستند. در نتیجه، می‌توانیم فرض کنیم که خدمات رسانه‌های اجتماعی می‌تواند آینه‌ای از جامعه‌ای باشد که در آن استفاده می‌شود. همسایه‌ها با همسایه‌ها و درباره آن‌ها صحبت می‌کنند و طرفداران فوتبال بدون توجه به جایی که در آن قرار دارند، با دیگر طرفداران فوتبال صحبت می‌کنند.

مهم‌ترین موضوعات در توییت‌های مربوط به شهر می‌تواند به ما اشاره‌ای از کیفیت محتوای تولید شده در پلتفرم‌های رسانه‌های اجتماعی در شهرهای جهان اطلاعاتی و در مورد آن‌ها بدهد. بررسی های طولانی مدت می تواند نشان دهد که آیا توییتر عمدتاً برای اشتراک گذاری (به طور خودکار) مکان ها استفاده می شود یا برای بحث در مورد موضوعات با کیفیت بالاتر نیز استفاده می شود. مشابه موضوعات، ما همچنین می توانیم از پیوندها برای ایجاد فرضیاتی در مورد کیفیت محتوا استفاده کنیم. تسلط سایر خدمات رسانه‌های اجتماعی در فهرست برتر وب‌سایت‌های اشتراک‌گذاری شده نشان می‌دهد که حجم عظیمی از محتوا نیز وجود دارد که تنها اشاره‌ای به محتوا و خدمات دیگر است.

تحلیل ما زیربنای چند محدودیت است. اولین محدودیتی که باید به آن اشاره کرد، API های توییتر و محدودیت های فنی آنهاست. برای تحقیقات خود، ما مجبور شدیم به داده‌هایی تکیه کنیم که توییتر به کاربران اجازه دسترسی به فایرهوس توییتر را نمی‌دهد. مطالعات نشان داد که کاربران می توانند از 1٪ تا 40٪ توییت های عمومی را از Streaming API دریافت کنند [ 40 ]. علاوه بر این، خرابی سرور یا پایگاه داده ممکن است منجر به از دست رفتن موقت داده‌های کوتاه مدت شود، اگرچه ما هیچ یک از این مشکلات را در طول دوره جمع‌آوری خود ردیابی نکردیم.

به دلیل چندزبانگی قوی در مجموعه داده ما که توسط 59 زبان ارائه شده است، ما از الگوریتم تشخیص زبان توییتر، از جمله زبان های غیر معمول مانند چروکی دریافت کردیم، با چالش های متعددی مواجه شدیم. برخی از سیستم‌های نوشتاری (مثلاً چینی) وجود دارند که لزوماً کلمات را با فاصله‌های سفید جدا نمی‌کنند و در نتیجه باید با استفاده از فرهنگ‌های لغت که ما به آنها دسترسی نداشتیم تجزیه و تحلیل شوند. از آنجایی که ما قادر به ترجمه همه زبان‌های موجود در مجموعه نبودیم، مجبور شدیم به ابزارهای ترجمه خودکار ( به عنوان مثال ، Google Translate، Bing Translator) یا چندین فرهنگ لغت آنلاین ( به عنوان مثال) تکیه کنیم., dict.cc, leo.org, Wiktionary) برای شناسایی موضوعات در توییت ها. بنابراین، تشخیص موضوع در این تحقیق بهترین تلاش است و ممکن است زیربنای چند نادرستی باشد، مانند بسیاری از بررسی‌های خودکار یا نیمه خودکار در بدنه‌ها که بر اساس زبان طبیعی هستند.

نتایج ما نشان می‌دهد که هنوز مشکلاتی در مورد همنامی وجود دارد، اگرچه ما شدیدترین مشکلات ( به عنوان مثال ، “پاریس هیلتون”) را فیلتر کردیم. فیلتر کردن توییت‌هایی که نام شهری مشابه شهری مورد نظر ما را ذکر می‌کنند و علاوه بر این، برچسب جغرافیایی ندارند، دشوار است. اگر توییتی حاوی متن “من در سیدنی هستم” باشد، چگونه متوجه شویم که منظور کاربر شهر استرالیا است یا سیدنی، MT، ایالات متحده آمریکا؟ به نظر می رسد هنگام جستجوی توییت ها از طریق، باید درصد مشخصی از موارد مثبت کاذب در مجموعه داده را بپذیریمREST API توییتر. حداقل، جستجوی مکان‌های جغرافیایی فقط توییت‌هایی را از شهر مورد نظر ما ارائه می‌کند. با این حال، سایر مشکلات همنامی را می توان به صورت دستی حل کرد. به عنوان مثال، توییت‌هایی که به دلیل ذکر نام کاربری حاوی نام شهر پیدا می‌شوند، می‌توانند به راحتی با بررسی دستی همه توییت‌ها فیلتر شوند، اگرچه در مجموعه داده‌ای به بزرگی مجموعه‌ای که برای بررسی خود استفاده کرده‌ایم، مدتی طول می‌کشد.

5. نتیجه گیری و کار آینده

تحلیل ما گام بزرگی به جلو در تحقیق شهرهای جهان اطلاعاتی است که در رسانه های اجتماعی ارائه شده است. به ما نشانه های زیادی داده شده است که چگونه یک شهر جهانی اطلاعاتی را می توان در رابطه با فعالیت های توییتر طبقه بندی کرد. در واقع، تحقیقات در این زمینه به اینجا ختم نمی شود. همانطور که دیدیم، محدودیت‌های متعددی زیربنای این تحقیق است که در صورت امکان، باید در تحقیقات آینده برطرف شود. برای این کار، ایجاد و جمع‌آوری اکتشافاتی ضروری است که اکثر مشکلات مربوط به همنامی را از بین ببرد. علاوه بر این، یک الگوریتم فیلتر اسپم کاملاً توسعه یافته باید ایجاد یا استفاده شود تا از اکثریت قریب به اتفاق توییت‌های هرزنامه جلوگیری شود. نتایج مقاله ارائه شده را فقط می توان با بررسی های بعدی با مجموعه داده های جدید تأیید کرد. برای این منظور می توان از یک دوره زمانی دیگر برای جمع آوری توییت ها استفاده کرد.

به غیر از تحقیقات بیشتر در مورد جنبه ها، که در مقاله داده شده بررسی کردیم، جنبه های دیگری نیز مورد توجه ما است. تجزیه و تحلیل احساسات توییت‌ها و موضوعات توییت‌ها می‌تواند نتیجه‌گیری بیشتری در مورد رفتار کاربران در شهرهای جهان اطلاعات ارائه کند. علاوه بر این، توییتر ارقام کلیدی دیگری مانند تعداد فالوورها، ریتوییت ها یا تعداد علاقه مندی ها و موارد دیگر را ارائه می دهد. از این ارقام کلیدی نیز می توان برای طبقه بندی کیفیت محتوای تولید شده استفاده کرد که می تواند به یکی از شهرها مرتبط باشد.

در مجموع، با استفاده از توییتر به عنوان مثال نشان دادیم که تحقیقات رسانه های اجتماعی را نمی توان هنگام بررسی شهرهای نمونه اولیه جامعه دانش نادیده گرفت، زیرا رسانه های اجتماعی به عنوان بخش مهمی از آن شناخته شده است.

منابع

Castells, M. The Rise of the Network Society: The Information Age, Economy, Society, and Culture , ویرایش دوم. John Wiley & Sons ناشر: Chichester، UK، 2010. [ Google Scholar ]
کاستلز، ام. شهر اطلاعاتی: فناوری اطلاعات، بازسازی اقتصادی، و فرآیند شهری-منطقه ای . باسیل بلکول: آکسفورد، بریتانیا، 1989. [ Google Scholar ]
سهام، WG شهرهای اطلاعاتی: تحلیل و ساخت شهرها در جامعه دانش. مربا. Soc. Inf. علمی تکنولوژی 2011 ، 62 ، 963-986. [ Google Scholar ] [ CrossRef ]
Yigitcanlar، T. شهر اطلاعاتی. در دایره المعارف مطالعات شهری ; هاچینسون، آر.، اد. Sage: نیویورک، نیویورک، ایالات متحده آمریکا، 2010; جلد 1، ص 392–395. [ Google Scholar ]
کاستلز، ام سیتس، جامعه اطلاعاتی و اقتصاد جهانی. در جهانی شهرهای ریدر ، ویرایش دوم. Neil, B., Roger, K., Eds. Routledge: لندن، انگلستان/نیویورک، نیویورک، ایالات متحده آمریکا، 2006; صص 135-136. [ Google Scholar ]
فریدمن، جی. جایی که ما ایستاده‌ایم: یک دهه تحقیقات جهانی شهر. در شهرهای جهان در یک سیستم جهانی ؛ Paul, LK, Peter, JT, Eds. انتشارات دانشگاه کمبریج: کمبریج، انگلستان، 1995; ص 21-47. [ Google Scholar ]
ماینکا، ا. هارتمن، اس. اورسولوک، ال. پیترز، آی. استالمن، ا. استوک، WG کتابخانه های عمومی در جامعه دانش: خدمات اصلی کتابخانه ها در شهرهای جهان اطلاعاتی. Libri 2013 ، 63 ، 295-319. [ Google Scholar ] [ CrossRef ]
تیلور، پی جی مدل شبکه درهم تنیده. در کتاب راهنمای بین المللی جهانی شدن و شهرهای جهان ; Derudder, B., Hoyler, M., Taylor, PJ, Witlox, F., Eds. انتشارات ادوارد الگار: چلتنهام، UK/Northampton، UK، 2012; صص 51-63. [ Google Scholar ]
Haustein, S. Multidimensional Journal Evaluation: Analysing Scientific Periodical فراتر از ضریب تاثیر . Walter de Gruyter: برلین، آلمان، 2012. [ Google Scholar ]
هاستاین، اس. تونگر، دی. هاینریش، جی. Baelz, G. دلایل و پیشرفت‌ها در همکاری علمی بین‌المللی: آیا منطقه تحقیقاتی آسیا-اقیانوسیه از دیدگاه کتاب‌سنجی وجود دارد؟ Scientometrics 2010 ، 86 ، 727-746. [ Google Scholar ] [ CrossRef ]
Prime, J. Altmetrics. در فراتر از کتاب سنجی: مهار شاخص های چند بعدی تأثیر علمی . Cronin, B., Sugimoto, CR, Eds. مطبوعات MIT: لندن، انگلستان، 2014; ص 263-287. [ Google Scholar ]
Tague-Sutcliffe, J. مقدمه ای بر انفورمتریکس. Inf. روند. مدیریت 1992 ، 28 ، 1-4. [ Google Scholar ] [ CrossRef ]
ژانگ، Q. دی فرانزو، دی. هندلر، JD شبکه های اجتماعی در شبکه جهانی وب. در دایره المعارف تحلیل و کاوی شبکه های اجتماعی ; الحاج، ر.، رکنه، ج.، ویرایش. Springer: نیویورک، نیویورک، ایالات متحده آمریکا، 2014; صفحات 1879-1892. [ Google Scholar ]
توسط The Numbers: 138 آمار شگفت انگیز توییتر. در دسترس آنلاین: http://expandedramblings.com/index.php/march-2013-by-the-numbers-a-few-amazing-twitter-stats/#.UzKoTfnWUqJ (در 12 دسامبر 2014 قابل دسترسی است).
کیتزمن، ج.اچ. هرمکنس، ک. مک کارتی، IP; Silvestre، BS رسانه های اجتماعی؟ جدی باش! درک اجزای سازنده عملکردی رسانه های اجتماعی. اتوبوس. هوریز. 2011 ، 54 ، 241-251. [ Google Scholar ]
ولر، ک. Bruns, A. Das Spiel dauert 140 Zeichen-Wie deutsche Fußballvereine Twitter für Marketing und Fan-Kommunikation entdecken. In Proceedings of des 8. Hildesheimer Evaluierungs-und Retrieval Workshop, Hildesheim, Germany, 25-16 آوریل 2013.
هاچینز، بی. شتاب فرهنگ ورزش رسانه ای: توییتر، حضور از راه دور و پیام رسانی آنلاین. Inf. اشتراک. Soc. 2011 ، 14 ، 237-257. [ Google Scholar ] [ CrossRef ]
توماسجان، ع. اسپرنگر، TO; سندنر، پی.جی. Welpe، IM پیش بینی انتخابات با توییتر: آنچه 140 شخصیت در مورد احساسات سیاسی آشکار می کنند. ICWSM 2010 ، 10 ، 178-185. [ Google Scholar ]
لرمن، ک. Ghosh, R. Information contagion: یک مطالعه تجربی از انتشار اخبار در شبکه های اجتماعی Digg و Twitter. ICWSM 2010 ، 10 ، 90-97. [ Google Scholar ]
فیلان، او. مک کارتی، ک. اسمایث، ب. استفاده از توییتر برای توصیه اخبار موضوعی بلادرنگ. در مجموعه مقالات سومین کنفرانس ACM در مورد سیستم های توصیه کننده، نیویورک، نیویورک، ایالات متحده آمریکا، 23 تا 25 اکتبر 2009.
ساکاکی، ت. اوکازاکی، م. Matsuo, Y. زلزله کاربران توییتر را می لرزاند: تشخیص رویداد در زمان واقعی توسط حسگرهای اجتماعی. در مجموعه مقالات نوزدهمین کنفرانس بین المللی وب جهانی، رالی، NC، ایالات متحده، 26-30 آوریل 2010.
آکار، ا. موراکی، ی. توییتر برای ارتباطات بحران: درس‌هایی از فاجعه سونامی ژاپن. بین المللی J. انجمن مبتنی بر وب. 2011 ، 7 ، 392-402. [ Google Scholar ] [ CrossRef ]
Vieweg، S. هیوز، آل. استاربرد، ک. Palen, L. میکروبلاگینگ در طول دو رویداد مخاطره طبیعی: آنچه توییتر ممکن است به آگاهی موقعیتی کمک کند. در مجموعه مقالات کنفرانس SIGCHI در مورد عوامل انسانی در سیستم های محاسباتی، پاریس، فرانسه، 27 آوریل تا 2 مه 2013.
ولر، ک. برونز، آ. برگس، جی. ماهرت، م. پوشمن، سی. توییتر و جامعه ; پیتر لانگ: نیویورک، نیویورک، ایالات متحده آمریکا، 2014. [ Google Scholar ]
هیورین، تی. Zach, L. Twitter برای به اشتراک گذاری اطلاعات اداره پلیس شهر. در مجموعه مقالات جامعه آمریکا برای علوم و فناوری اطلاعات، پیتسبورگ، PA، ایالات متحده آمریکا، 22 تا 27 اکتبر 2010.
هان، بی. Cook, P. پیش‌بینی موقعیت جغرافیایی کاربر توییتر مبتنی بر متن. جی آرتیف. هوشمند Res. 2014 ، 49 ، 451-500. [ Google Scholar ]
Weidemann, C. اطلاعات موقعیت مکانی رسانه های اجتماعی: نبرد حریم خصوصی بعدی – افزودنی ArcGIS و تجزیه و تحلیل داده های مکانی جمع آوری شده از Twitter.com. بین المللی J. Geoinform. 2013 ، 9 ، 21-27. [ Google Scholar ]
عدنان، م. Longley، P. تجزیه و تحلیل استفاده از توییتر در لندن، پاریس، و شهر نیویورک . AGILE: لوون، بلژیک، 2013. [ Google Scholar ]
موسبرگر، ک. وو، ی. کرافورد، جی. ارتباط شهروندان و دولت های محلی؟ رسانه های اجتماعی و تعامل در شهرهای بزرگ ایالات متحده. فرمانداری Inf. Q. 2013 , 30 , 351-358. [ Google Scholar ]
ماینکا، ا. هارتمن، اس. سهام، WG; پیترز، آی. دولت و رسانه های اجتماعی: مطالعه موردی 31 شهر اطلاعاتی جهان. در مجموعه مقالات چهل و هفتمین کنفرانس بین المللی هاوایی در علوم سیستم، Waikoloa، HI، ایالات متحده، 6-9 ژانویه 2014.
فورستر، تی. لامرز، ال. ماینکا، ا. پیترز، آی. توییت و شهر: مقایسه فعالیت‌های توییتر در شهرهای جهان اطلاعاتی. در مجموعه مقالات کنفرانس 2014: Informationsqualität und Wissensgenerierung، فرانکفورت آم ماین، آلمان، 8-9 مه 2014.
Lewis, MP Ethnologue: Languages of the World , ed. 16; SIL International: دالاس، تگزاس، ایالات متحده آمریکا، 2009. [ Google Scholar ]
عربی بالاترین رشد در توییتر. در دسترس آنلاین: http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter (در 23 اوت 2013 قابل دسترسی است).
اوسلاح، م. بات، اف. چالیس، ک. Schnier, T. معماری نرم افزاری برای مجموعه توییتر، جستجو و خدمات موقعیت جغرافیایی. سیستم مبتنی بر دانش 2013 ، 37 ، 105-120. [ Google Scholar ] [ CrossRef ]
رتبه بندی 100 شهر برتر مقصد. در دسترس آنلاین: http://blog.euromonitor.com/2013/01/top-100-cities-destination-ranking.html (در 23 اوت 2013 قابل دسترسی است).
Eichstädt، B. Wei, C. Im social web der mitte. در شبکه های اجتماعی ؛ Leinemann, R., Ed. Springer: برلین، آلمان، 2013; صص 107-110. [ Google Scholar ]
شاخص امنیتی Unisys در دسترس آنلاین: http://www.unisyssecurityindex.com/usi/germany (در 23 اوت 2013 قابل دسترسی است).
فکر می کنید موبایل اکنون بزرگ است؟ در اینجا دلیلی وجود دارد که نشان می دهد تازه شروع شده است. در دسترس آنلاین: http://readwrite.com/2013/05/29/huge-potential-only-15-of-global-internet-traffic-is-mobile#awesm=~ofKwdMIxymYk5E (در 29 مه 2013 قابل دسترسی است).
راب فورد: “بله، من کراک کوکائین کشیده ام”. در دسترس آنلاین: http://www.thestar.com/opinion/editorials/2013/08/04/toronto_mayor_rob_ford_remains_shadowed_by_crack_video_scandal_editorial.html (در 18 آوریل 2014 دسترسی پیدا کرد).
Twitter Firehose در مقابل Twitter API: تفاوت چیست و چرا باید به آن اهمیت دهید. در دسترس آنلاین: http://www.brightplanet.com/2013/06/twitter-firehose-vs-twitter-api-whats-the-difference-and-why-should-you-care/ (در 2 مارس 2013 دسترسی پیدا کرد) .

© 2015 توسط نویسندگان; دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب