1. معرفی
مسیرهای تاکسی توسط مجموعهای از مکانها تشکیل میشوند که ممکن است منعکسکننده چه و مکان فعالیتها باشند و بنابراین برای تحلیل پویایی انسان استفاده میشوند. بنابراین، افزایش درک پویایی انسان انگیزه بسیاری از مطالعات در مورد مدیریت حمل و نقل و برنامه ریزی شهری را فراهم کرده است [ 1 ، 2 ، 3 ، 4 ، 5 ]. سوابق موقعیت مکانی GPS تاکسی، بررسی رسانه های اجتماعی، داده های کارت هوشمند حمل و نقل عمومی و داده های تلفن همراه به دلیل استفاده روزافزون از LBS (سرویس مبتنی بر مکان) فرصت های تحقیقاتی بسیار خوبی را ارائه کرده است [6 ، 7 ، 8 ، 9 ، 10 .]. در مقایسه با دادههای سنتی پرسشنامهها یا سالنامههای آماری، دادههای جدید در مقیاس مکانی-زمانی دقیقتر بسیار غنیتر هستند [ 8 ، 10 ، 11 ، 12 ].
مسیرهای تاکسی به طور گسترده در بسیاری از زمینه ها، مانند برنامه ریزی شهری [ 13 ، 14 ]، مدل سازی کاربری زمین [ 15 ، 16 ، 17 ] و پیش بینی جریان ترافیک [ 15 ، 18 ] مورد مطالعه قرار گرفته است. چنین داده هایی توسط تاکسی های مجهز به دستگاه های GPS (سیستم موقعیت یاب جهانی) جمع آوری می شود. روش هایی مانند راه رفتن تصادفی، جهت تصادفی، نقطه راه تصادفی و یک مدل مانع [ 19 ، 20 ] پیشنهاد شده است. بیشتر مطالعات نشان می دهد که تحرک انسان را می توان با استفاده از یک پرواز Lévy یا مدل پرواز Lévy کوتاه شده بیان کرد [ 2 ، 21 ]. لیانگ و همکاران [ 22] توزیع جابجایی تحرک انسان را با توجه به مسیر تاکسی ها مورد مطالعه قرار داد، در حالی که لیو و همکاران. [ 23 و 24 ] داده های مسیر تاکسی را با در نظر گرفتن تأثیر ناهمگونی جغرافیایی و کاهش فاصله بررسی کردند. بالاتوره و همکاران [ 25 ] یک رویکرد مبتنی بر دانش را برای کمی کردن شباهت معنایی تعاریف واژگانی توصیف کرد. چو و همکاران [ 26 ] دانش پنهان حرکت تاکسی های عظیم را با استفاده از نام خیابان ها تجزیه و تحلیل کرد، اما زمانی که جاده ای به همین نام بسیار طولانی بود، تفاوت فضایی را نادیده گرفت. گونگ و همکاران [ 27] احتمال بازدید از POI (نقطه مورد علاقه) و الگوهای سفر را از دادههای خام تاکسی فاقد اطلاعات فعالیت در زمینه محدودیتهای زمانی و مکانی کشف کرد.
جاده ها در چهارراه با یکدیگر تلاقی می کنند. برای بیان توزیع فضایی الگوهای تحرک، شبکه جادهای را در تقاطعها تقسیم کردیم و بخشهای کوچک جادهای به نام پیوند ایجاد کردیم. به هر لینک یک شماره شناسایی منحصربفرد داده شد. اکثر مطالعات قبلی توزیع فضایی مسیرها را بر اساس مناطق و نام جاده ها بررسی کردند. با این حال، مطالعات کمتری بر مقیاس دقیق تر پیوندها در یک شبکه جاده متمرکز شده است.
این مقاله توزیع فضایی مقاصد مختلف سفر را از طریق تکنیکهای مدلسازی موضوعی [ 26 ، 28 ]، مانند تخصیص دیریکله پنهان (LDA) در سطح پیوند بررسی میکند. سفرهایی با مسیرهای مختلف بر اساس یک الگوریتم استخراج سفر از دادههای خام GPS استخراج شدند. با این حال، مکان مسیرهای تاکسی به تنهایی نمی تواند به صراحت الگوهای تحرک انسان را بیان کند. قبل از استفاده از LDA، دادههای خط سیر خام را از تاکسیها با افزودن اطلاعات معنایی پیش پردازش میکنیم تا به مکانها شناسههای منحصربهفردی بدهیم که بتوانیم آنها را بفهمیم. بنابراین، یک شماره شناسایی پیوند با یک فرآیند تطبیق نقشه به مکانهای جغرافیایی مربوطه پیوست شد [ 11 ، 29 ، 30 ، 31 ،32 ]. مسیرهای تاکسی به یک سری از مسیرهای معنایی متشکل از مقصد سفر با شماره شناسایی پیوند تبدیل شدند. هر مسیر معنایی تاکسی مشابه یک سند با مجموعه ای از شناسه های پیوند است، در حالی که مسیرهای معنایی تاکسی عظیم با هم به عنوان یک پیکره توسط شناسه پیوند گروه بندی می شوند. پیوندهایی با شناسه پیوندهای مشابه با استفاده از روش LDA در موضوعاتی که یک معنای پنهان مشترک را بیان میکنند تجمیع شدند. پس از آن، این موضوعات برای تجزیه و تحلیل شباهت فضایی الگوهای تحرک و ارتباط آنها با فعالیت های روزانه مورد استفاده قرار گرفت. مقاله به شرح زیر است. در بخش 2 ، تجزیه و تحلیل دقیق در مورد سفر ارائه شده است. در بخش 3 ، تحلیل معنایی در مورد سفرها ارائه شده است. در بخش 4ما مدل تخصیص دیریکله نهفته را تجزیه و تحلیل می کنیم و معنی را تعریف می کنیم. در بخش 5 ، آزمایش خود را شامل استخراج و تجسم موضوع سفر، تحلیل موضوع سفر و پویایی شهری و تجزیه و تحلیل تحول موضوع سفر توصیف میکنیم. بحث در مورد نتایج و برخی از نتیجه گیری ها در پایان بیان شده است.
2. استخراج و تجزیه و تحلیل سفر
2.1. استخراج سفر
ووهان بزرگترین شهر در مرکز چین است. بسیاری از شرکت های تاکسیرانی خودروهای خود را به گیرنده های GPS مجهز کرده اند تا بر عملکرد هر تاکسی نظارت داشته باشند. تاکسیهای مجهز به جیپیاس، خودروهای شناور نامیده میشوند که میتوانند وضعیت ترافیک را در زمان واقعی کنترل کنند. با کمک دستگاههای GPS میتوان مسیرهای تاریخی تاکسیها را بهعنوان مجموعهای از مکانهای نمونهبرداری شده در فواصل زمانی کوچک ثبت کرد. در این تحقیق، مجموعه داده شامل بیش از 2050 رکورد خودروهای شناور از ووهان است. این داده ها هفت روز متوالی در هفته، از 2 تا 8 ژوئن 2014، از دوشنبه تا یکشنبه را پوشش می دهد. برای هر تاکسی، طول جغرافیایی، عرض جغرافیایی، مهر زمانی، سرعت لحظه ای، زاویه آزیموت و میزان اشغال آن تقریباً هر 40 ثانیه به طور خودکار جمع آوری می شود. هر تاکسی هر روز نزدیک به 2160 نقطه نمونه GPS را گزارش می دهد. در حقیقت، مقدار رکوردهای GPS اندکی کمتر است، زیرا گیرنده های GPS توسط رانندگان خاموش می شوند یا اتصال آنها قطع می شود. مشاهدات انباشته شده یک مجموعه داده بسیار بزرگ برای تحقیق ایجاد می کند که به طور میانگین روزانه 2485000 رکورد را شامل می شود. پس از آن، یک رکورد از اطلاعات GPS را می توان با نشان داد پ(تی،مند، لآتی،لon، v،ساعت،س)، از جمله آنها تینشان دهنده لحظه زمانی مربوط به موقعیت فعلی تاکسی، مندبا نشان دادن شماره شناسایی تاکسی، لآتیو لonنشان دهنده موقعیت تاکسی، یعنی طول و عرض جغرافیایی، vنشان دهنده سرعت لحظه ای تاکسی، ساعتنشان دهنده جهت رانندگی تاکسی و سنشان دهنده وضعیت خدمات یک تاکسی، خالی یا اشغال شده است. جدول 1 برخی از نقاط نمونه برداری پیوسته از یک مسیر تاکسی مورد استفاده در این تحقیق را نشان می دهد. همانطور که در جدول نشان داده شده است، یک تاکسی زمانی اشغال می شود که وضعیت برابر با یک باشد. در غیر این صورت خالی است
اطلاعات GPS تاکسی نه تنها وضعیت ترافیک را منعکس می کند، بلکه می تواند برای بررسی الگوهای حرکتی انسان بر اساس اشغال تاکسی استفاده شود [ 10 ، 11 ، 12 ]. بنابراین، هر سفر استخراج شده را می توان به عنوان یک بردار ساده کرد، <تیمن،(ایکسمن1،yمن1)،(ایکسمن2،yمن2)>، عبارت تیمننشان دهنده لحظه زمانی مربوط به مبدا سفر تاکسی، (ایکسمن1،yمن1)نشان دهنده مختصات جغرافیایی مبدا سفر تاکسی و (ایکسمن2،yمن2)مختصات جغرافیایی مقصد سفر را نشان می دهد. بنابراین، سفرهای انجام شده در دوره های مختلف را می توان برای مطالعه الگوهای تحرک انسان استخراج کرد.
تعریف 1:
در تحقیق، یک سفر به صورت برداری ساده شده است، <تیمن،(ایکسمن1،yمن1)،(ایکسمن2،yمن2)>، عبارت تیمننشان دهنده لحظه زمانی مربوط به مبدا سفر تاکسی، (ایکسمن1،yمن1)نشان دهنده مختصات جغرافیایی مبدا سفر تاکسی و (ایکسمن2،yمن2)مختصات جغرافیایی مقصد سفر را نشان می دهد.
تعریف 2:
یک مسیر تاکسی توسط مجموعه ای از تاپل های سفر تشکیل می شود، <تیمن، (ایکسمن1،yمن1)،(ایکسمن2،yمن2)>،<تیمن+1،(ایکسمن+1،1،yمن+1،1)،(ایکسمن+1،2،yمن+1،2)>،…،<تیمتر،(ایکسمتر،1،yمتر،1)،(ایکسمتر،2،yمتر،2)>,…,<tn, (xn,1,yn,1),(xn,2،yn،2)>.
جدول 2 آمار مجموعه داده ای را که انتخاب کرده ایم خلاصه می کند. شکل 1 نقشه شهرهای چین را نشان می دهد که نشان می دهد ووهان در کجا واقع شده است. همانطور که در شکل 2 نشان داده شده استالف، یک مسیر تاکسی در داخل یک بزرگراه حلقه در نقشه در تاریخ 2 ژوئن 2014 ترسیم شد. با توجه به مشخصه مسیرهای تاکسی، به ویژه نقاط GPS ثبت شده که در آن مسافران ناشناس در بازه های زمانی مختلف سوار و پیاده می شدند، مقادیری از آنها را استخراج کردیم. سفر از بیش از 2050 تاکسی در روزهای مختلف. پس از آن، هر سفر به عنوان یک جفت نقطه و فاصله سفر ساده شد که با یک نقطه برداشت (PUP)، یک نقطه سقوط (DOP) و فاصله اقلیدسی بین دو نقطه نشان داده می شود. در عین حال دو نقطه PUP و DOP را می توان به ترتیب به عنوان مبدا و مقصد سفر در نظر گرفت. بنابراین، مقصد سفر نشان دهنده هدف یک سفر و نشان دهنده تحرک انسان است. با این حال، شایان ذکر است که سفرهای کمتر از یک مسافت مشخص باید حذف شوند. زیرا اغلب توسط عملیات نادرست درایور یا خطاهای داده ایجاد می شوند. در این تحقیق آستانه مسافت 0.5 کیلومتر تعیین شد.شکل 2 ب توزیع فضایی تمام مسیرهای تاکسی را در 2 ژوئن 2014 نشان می دهد. نقاط زرد و نقاط قرمز به ترتیب نشان دهنده موقعیت مبدا و مقصد سفر در 2 ژوئن 2014 هستند که مربوط به نقاط تحویل و نقاط تحویل است. شکل 2 توزیع فضایی پیکاپ ها و جابجایی ها را از منظر تعداد تاکسی نشان می دهد. همانطور که در شکل 2 نشان داده شده است ، تعداد نقاط قرمز و نقاط زرد به دلیل پوشش، تفاوت های خاصی دارند. در واقع، تعداد نقاط قرمز برابر با نقاط زرد است زیرا یک نقطه پیکاپ مربوط به یک نقطه سقوط است.
2.2. توزیع سفرها
در این مقاله، شباهتهای رفتار انسان را از نظر توزیع زمانی مبدا سفر و مسافت سفر بررسی میکنیم. وقوع مبدا سفر در طول هر ساعت در هر روز را می توان به راحتی به دست آورد و نشان دهنده ویژگی های فعالیت های انسانی در طول زمان است. مطابق با بسیاری از مطالعات قبلی، همانطور که در شکل 3 نشان داده شده است ، ریتم های روزانه قوی و شباهت های سفر روزانه وجود دارد [ 33 ، 34 ، 35 ، 36 ، 37.]. مردم در طول روز بیشتر از شب سفر می کنند و الگوهای زمانی در تعطیلات آخر هفته به طور قابل توجهی با روزهای کاری متفاوت است. بنابراین، الگوهای حرکتی متفاوتی در روزهای کاری و غیر کاری وجود داشت. در آخر هفته ها، سرگرمی ها، مهمانی ها، خرید و سایر فعالیت های تفریحی بیشتر به اهداف سفر کمک می کند. تعداد سفرها از ساعت صفر تا پنج در تعطیلات آخر هفته بیشتر از هر زمان دیگری بود.
هر سفر را می توان به عنوان جابجایی یک مسیر فردی در نظر گرفت و توزیع فاصله نشان دهنده الگوهای تحرک افراد است. توزیع مشاهده شده مسافت استخراج شده در 2 ژوئن در شکل 4 ترسیم شده است ، زیرا مطالعه قبلی از توزیع قانون توان به صورت نمایی کوتاه برای تناسب با توزیع فاصله سفرهای تاکسی استفاده می کرد [ 23 ]. این نشان می دهد که سفرهای مربوط به سفرهای کوتاه دور بیشتر است، در حالی که برای یک سفر طولانی برعکس است. به منظور انعکاس بهتر الگوهای تحرک، در شکل 4 ، به جای هزار متر، صد متر را به عنوان واحد سفر انتخاب می کنیم [ 23].] زیرا به صورت یک مقدار منفی ظاهر می شود. مردم مسافت های مختلفی را برای اهداف مختلف طی می کنند. همانطور که در شکل 4 نشان داده شده است، فاصله را به چهار دسته تقسیم کردیم که در آن تغییرات شدید وجود دارد، به ترتیب 1 کیلومتر، 7 کیلومتر و 20 کیلومتر . سفرهای تاکسی با فواصل مختلف نیز می تواند با تفاوت در تغییرات زمانی آنها معقول باشد. همانطور که در شکل 5 نشان داده شده است، اگرچه تغییرات زمانی PUP با فواصل مختلف از چهار گروه متفاوت بود، توزیع مسافت سفر نیز شباهت روز به روز را در یک هفته نشان می دهد، که دلالت بر شباهت فعالیت روزانه انسان دارد.
3. تحلیل معنایی
کشف دانش سفر به طور مستقیم از بیان هندسی سفرها تنها با مختصات آنها دشوار است. در مقابل، یافتن دانش در اطلاعات معنایی کار دشواری نیست. بنابراین، برای جستجوی دانش پنهان با استفاده از اطلاعات معنایی، مختصات هندسی باید توسط فرآیند غنی سازی معنایی پردازش شوند. غنیسازی معنایی مبتنی بر اطلاعات اضافی است، مانند حاشیهنویسی یا نام بخش جاده مربوط به مکانهای ضبطشده GPS، که میتواند به درک ما از سفرها اضافه کند [ 38]]. با این حال، برخی از بخشهای جاده آنقدر طولانی هستند که ممکن است بسیاری از جادهها به همین نام باشند، وقتی جادهای به جادههای کوچکتر تقسیم میشود. به طور مشابه، چندین مبدا و مقصد سفر ممکن است با یک نام جاده مطابقت داشته باشند. چنین اطلاعاتی از نام جاده نمی تواند منعکس کننده توزیع فضایی مبدا و مقصد سفر به معنای خاصی باشد.
در این تحقیق، یک شبکه جاده ای تشکیل شده توسط شناسه های پیوندی به عنوان اطلاعات تکمیلی برای تجزیه و تحلیل الگوهای تحرک انسان استفاده شد. هر مختصات جغرافیایی ثبت شده توسط دستگاه GPS متصل به تاکسی باید با شناسه پیوندی که به آن تعلق دارد مطابقت داشته باشد. برای حل این مشکل، مسیرهای تاکسی توسط یک الگوریتم تطبیق نقشه مطابقت داده شد [ 11 ، 39 ، 40] برای یافتن بهترین پیوند مناسب متصل به هر مکان GPS. یک شماره شناسایی پیوند منحصر به فرد به عنوان داده های تکمیلی غنی سازی معنایی برای هر نقطه GPS اعمال شد. به طور کلی، هر سفری به ترتیب بر اساس مبدأ و مقصد سفر، مربوط به نقاط مختلف GPS است. به عبارت دیگر، اگر یک شماره شناسایی لینک به عنوان مبدا سفر در نظر گرفته شود، شماره شناسایی لینک دیگری باید با مقصد سفر مطابقت داشته باشد. شماره شناسایی پیوند نیز نام خیابان دارد. جدول 3 چند نمونه از مبدأ سفر استخراج شده، مقصد سفر، شماره شناسایی پیوند منطبق و نام خیابان به این سفرها را به عنوان اطلاعات معنایی سفر نشان می دهد. پس از آن، هر سفر معنایی را می توان به صورت یک تاپل نمایش داد، تیrمنپ〈مند،تی، لمنnکمنD،ستیrههتینآمتره،ODاستیآتیه〉، که در آن مندشماره شناسایی تاکسی است، تیبیانگر لحظه زمانی است، لمنnکمنDنشان دهنده شماره شناسایی پیوند منطبق است، ستیrههتینآمترهنشان دهنده نام تطبیق خیابان و ODاستیآتیهنشان دهنده مبدا یا مقصدی است که به همان سفر استخراج شده متصل است. از طریق غنیسازی معنایی، یک مسیر تاکسی توسط مجموعهای از تاپلهای سفر تشکیل میشود.
4. مدل سازی موضوع سفر با LDA
4.1. تخصیص دیریکله نهفته
مدل موضوعی را می توان برای تجزیه و تحلیل مقادیر اسناد برای یافتن اطلاعات پنهان در پیکره استفاده کرد [ 41]. کاستیهای محاسبه تشابه اسناد در زمینه بازیابی اطلاعات سنتی را برطرف میکند و به طور خودکار موضوع معنایی متنی را در میان کلمات عظیم جستجو میکند. در مدل موضوعی، موضوعی که مفهوم یا جنبه ای را نشان می دهد، مجموعه ای از کلمات مرتبط را نشان می دهد و احتمال مشروط آن کلمات را در زیر موضوع بیان می کند. از دیدگاه ریاضی، موضوع یک توزیع احتمال شرطی در واژگان است. هر چه کلمه با موضوع ارتباط بیشتری داشته باشد، احتمال شرطی کلمه بیشتر است. در غیر این صورت کوچکتر است. می توان تصور کرد که موضوع یک سطل حاوی آن کلمات است که احتمال بیشتری دارد و این کلمات با این موضوع ارتباط قوی دارند. اگر همه کلمات هر سند در یک مجموعه را بتوان مشاهدات در نظر گرفت،8 ، 17 ]. یک سند ممکن است شامل چندین موضوع باشد و کلمات موجود در یک سند در هر موضوع احتمال وقوع متفاوتی دارند.
تخصیص دیریکله پنهان (LDA) ساده ترین مدل موضوع [ 28 ] است و به کشف موضوعات پنهان کمک می کند. LDA به طور آماری کلمات را به موضوعات بالقوه با مطالعه وقوع آنها در میان مجموعه بزرگی از اسناد گروه بندی می کند [ 26]]. در نتیجه، هر سند نشان دهنده توزیع احتمال از موضوعات خاص است. هر موضوع همچنین نشان دهنده توزیع احتمال بسیاری از کلمات است. ما می توانیم رابطه بین سند و موضوع را با استفاده از یک مدل تولیدی توضیح دهیم. در یک مدل مولد، هر کلمه در یک سند با فرآیند خاصی به دست میآید، که هر کلمه موضوعی را با احتمال مشخصی انتخاب میکند و موضوعی نیز کلمه خاصی را با احتمال خاصی انتخاب میکند. در نتیجه، در مورد یک سند، احتمال ظاهر شدن هر کلمه را می توان به صورت زیر نشان داد:
پس از آن، این فرمول احتمال را می توان در یک ماتریس نیز به صورت زیر بیان کرد:
برای مثال،
همانطور که در رابطه (2) توضیح داده شد، جمترnنشان دهنده احتمال کلمه m در سند n است . ∅مترتینشان دهنده احتمال کلمه m در مبحث t است . و θتیnنشان دهنده احتمال t – امین موضوع در سند n است . در نتیجه، ماتریس سند-کلمه نشان دهنده احتمال هر کلمه در هر سند است. ماتریس موضوع – کلمه نشان دهنده احتمال هر کلمه در هر موضوع است. و ماتریس سند – موضوع احتمال هر موضوع را در هر سند نشان می دهد. با توجه به یک سری اسناد، ما می توانیم یک ماتریس سند-کلمه را از طریق یک سند تقسیم کننده نشانه به دست آوریم. عملکرد مدل موضوعی به دست آوردن آن دو ماتریس از طریق آموزش این ماتریس سند-کلمه است.
در این تحقیق، مسیر تاکسی به طور کلی با بیش از یک سفر تشکیل شده است. این بدان معناست که یک مسیر ممکن است شامل یک سری سفرهای مربوط به دوره های زمانی مختلف باشد. بنابراین، یک مسیر شامل سفرهای زمانهای مختلف بهعنوان یک سند مدلسازی شد و مقصدهای مختلف سفر معنایی متصل به شماره شناسایی پیوند در بازههای زمانی مختلف بهعنوان کلمه مشاهده شد. بنابراین، مدل LDA را می توان برای مدل سازی موضوع برای مقصد سفر برای تجزیه و تحلیل توزیع فضایی استفاده کرد. در عین حال، مسیرهای مختلف در دوره های زمانی مختلف می تواند برای مطالعه توزیع زمانی مقاصد سفر مورد استفاده قرار گیرد. ما استنتاج LDA را با استفاده از جعبه ابزار مدلسازی موضوعی استانفورد [ 42] پیادهسازی کردیم]. متعاقبا، ما موضوعات مختلف را با استفاده از رنگ های مختلف به روشی واضح برای کاوش اطلاعات جغرافیایی تجسم کردیم [ 43 ، 44 ]. در بخش 5، نتایج اعمال LDA برای ده موضوع سفر تولید شده از یک مقصد سفر در ووهان در ساعات شلوغی صبح (6:00 تا 10:00) و ساعت شلوغی عصر (17:00 تا 21:00) با استفاده از سفر را نشان می دهد. مقصد از 2 تا 8 ژوئن 2014.
4.2. تعریف اهمیت
موضوعات و مقاصد سفر بسته به دانش موضوعی پنهان آنها ممکن است به سطوح مختلفی از اهمیت تعلق داشته باشند. به طور خاص، اهمیت موضوع سفر و اهمیت مقصد سفر به شرح زیر مورد بحث قرار می گیرد.
اهمیت موضوع سفر: موضوع یک مفهوم یا جنبه ای از یک سند است و با یک سری کلمات مرتبط مشخص می شود. هر چه کلمات با موضوع ارتباط بیشتری داشته باشند، امکان جمع آوری آنها در یک موضوع بیشتر است. اهمیت موضوع سفر، Ft ، به عنوان تعداد دفعات کل مقصد سفر ( F ) تعریف میشود که از موضوع ( t ) در دانش موضوعی پنهان پشتیبانی میکند و اهمیت موضوع را نشان میدهد. هرچه F t بیشتر باشد، مقاصد سفر بیشتری را موضوع جذب می کند. در جدول 4 ، 10 موضوع به ترتیب اهمیت موضوع ارائه شده است ( به عنوان مثال، فرکانس کل) از Topic00 تا Topic09. فراوانی Topic08 که بیشترین اهمیت موضوع سفر، F t را دارد ، 2460 است، در حالی که Topic05 کمترین F t را داشته است ، تنها کمتر از نیمی از آن در 1003 است. بنابراین، از بین 10 موضوع، Topic08 مقصدهای سفر ضمیمه بیشتری را جذب کرد. به رفتار سفر مردم بیش از هر موضوع دیگری.
اهمیت مقصد سفر: اهمیت مقصد سفر که با نشان داده می شود افw(تی)، سطح اهمیت یک مقصد سفر ( به عنوان مثال ، کلمات) w در یک موضوع سفر مشخص است. یک ارزش بزرگتر، افw(تی)، به این معنی است که کلمه مقصد سفر ( w ) سهم بیشتری در تولید مبحث سفر t نسبت به موضوعات دیگر ارائه می دهد. یک مقصد سفر ممکن است به تولید چندین موضوع سفر با اهمیت مقصد سفر متفاوت کمک کند. به عنوان مثال، در جدول 4لینک 22921 به عنوان مقصد سفر به ترتیب با 25 و 44 درصد پشتیبانی به Topic01 و Topic06 کمک زیادی می کند. در عین حال نقش کمتری در Topic00، Topic02، Topic04 و Topic09 دارد. با این حال، برای Topic03، Topic05 و Topic07 اهمیتی ندارد. در مقابل، لینک 10229 عمدتاً به دو موضوع کمک می کند که در کل 99٪ است. یک موضوع Topic08 با 60% پشتیبانی و دیگری Topic01 با 39% است. فقط یک درصد به Topic00 کمک می کند. در مجموع، این نشان می دهد که پیوند یکسان بیشتر با برخی موضوعات مرتبط است تا موضوعات دیگر.
توزیع احتمال موضوع سفر: هر موضوع سفر در واقع توزیع احتمالی از مقاصد مختلف سفر است که به الگوهای حرکتی مختلف تحت شرایط این مبحث، یعنی φتی<پw1،…،پwمتر>، که در آن پwمننشان دهنده احتمال یک مقصد سفر است، wمن, ایجاد موضوع t . این نسبت اهمیت مقصد سفر به اهمیت موضوع سفر است، پ(wمن|تی)=افwمن(تی)/افتی; یک احتمال مشروط مقصد سفر تحت شرط مبحث t . در اینجا، احتمال مشروط همه مقاصد سفر در مجموع مبحث به یک، ∑من پwمن=1. هر چه ارزش بیشتر باشد پ(wمن|تی)، هر چه مقصد سفر با مبحث t بیان شود. در نتیجه، اگر آستانه δ تعریف شود، تمام مقصدهای سفر با احتمال مشروط بالاتر از آستانه به عنوان مقاصد سفر نماینده برای مبحث t در نظر گرفته می شوند که برای تحلیل بصری موضوعات استفاده می شود.
با در نظر گرفتن سفرهایی با بازه های زمانی مختلف مانند کاری، خرید و تفریح، سفرها را از مسیرهای تاکسی به ترتیب در ساعات شلوغی صبح (6:00 تا 10:00) و ساعت شلوغی عصر (17:00 تا 21:00) استخراج کردیم. ما از مقصدهای سفر معنایی استفاده کردیم که نشان میدهد یک فعالیت در کجا رخ میدهد، مانند شناسههای پیوند (شمارههای شناسایی پیوند) برای تجزیه و تحلیل رفتارهای انسانی. نتایج تجزیه و تحلیل مدل موضوعی میتواند به رانندگان کمک کند تا بدانند کجا به طور مؤثر مسافران را سوار کنند، در حالی که مسافران همچنین میتوانند بدانند کجا باید تاکسی بگیرند. شکل 6 فرآیند چارچوب تحلیل معنایی را برای مقصد سفر نشان میدهد و این چارچوب شامل مدیر سفر، غنیسازی معنایی، مدلسازی موضوع و تحلیل موضوع است.
5. تحلیل موضوع سفر الگوهای تحرک در ووهان
5.1. استخراج و تجسم موضوع سفر
رودخانه یانگ تسه و هان جیانگ ووهان را به ترتیب به سه قلمرو ووچانگ، هانکو و هانیانگ تقسیم می کنند. از نظر اداری، ووهان از 13 منطقه تشکیل شده است: هفت منطقه شهری (جیانگ آن، جیانگگان، کیائوکو، هانیانگ، ووچانگ، هنگشان و چینگشان) و شش منطقه حومه (شینژو، هوانگپی، دونگشیهو، هانان، جیانگ شیا و کایدیان). علاوه بر این، سه منطقه توسعه اقتصادی در سطح ایالت شامل منطقه توسعه اقتصادی و فناوری ووهان، منطقه توسعه فناوری جدید دریاچه شرقی و منطقه سرمایهگذاری تایوانی ووهان ووجیاشان وجود دارد. سوابق GPS از 2 تا 8 ژوئن 2014 تجزیه و تحلیل و پیش پردازش شدند. تعداد رکوردها در مجموع 9847733 بوده است. با استفاده از الگوریتم استخراج سفر، 164872 سفر معتبر با توجه به در دسترس بودن سفر شناسایی شد. زیرا برخی از سفرها ممکن است ناشی از عملیات نادرست یا خطاهای انتقال داده باشد. تقاطع ها در شبکه راه ها به عنوان اطلاعات تکمیلی معنایی برای شناسایی مبدا و مقصد سفرها استفاده شد. سفرها با توجه به وضعیت خدمات، اعم از اینکه تاکسی اشغال شده باشد یا خالی، استخراج شده است. هر مسیر تاکسی ممکن است شامل چندین سفر باشد، بیش از یک مقصد سفر در ساعت شلوغی صبح (6:00 تا 10:00) و ساعت شلوغی عصر (17:00 تا 21:00) که در یک مسیر تاکسی گنجانده شده است. اینها به ترتیب برای تدوین دو سند مقصد سفر جمع آوری شدند. در نهایت، جعبه ابزار مدلسازی موضوعی استانفورد (TMT) برای ساخت یک مدل LDA برای این دو سند مقصد سفر استفاده شد. در فرآیند مدلسازی موضوع، از CVB0 (در جعبه ابزار) برای آموزش مدل LDA با ده موضوع برای 2000 تکرار استفاده شد. پارامتر هموارسازی موضوع روی 0.01 تنظیم شد و همه پارامترها و نتایج آموزشدیده شده در هر 50 تکرار ذخیره شدند. برای هر موضوع، آستانه احتمال (δ) برای مقصد سفر در 0.5٪ تعیین شد تا یک مقصد سفر نماینده را شناسایی کند.
توزیع فضایی ده موضوع سفر در ساعات شلوغی صبح استخراج و تجسم شد ( شکل 7 ). نقشه پایه هفت منطقه شهری در ووهان است که مرزهای آنها با خطوط پررنگ سیاه و سفید و جاده ها به صورت خطوط خاکستری ترسیم شده است. همانطور که می بینیم، هر موضوع با رنگ متفاوتی ترسیم شده است. برای هر موضوع سفر، فقط مقصدهای سفر نماینده با پ(wمن|تی)≥δارائه شدند. عرض هر پیوند در همان موضوع حاوی یک سری شناسه پیوند متناسب با آن بود پ(wمن|تی). برای لینکی که به هیچ موضوعی یا پ(wمن|تی)<δ، رنگ نقشه پایه به آن چسبانده شد. همانطور که در جدول 4 نشان داده شده است ، برخی از بخش های جاده در موضوعات سفر چندگانه گنجانده شده است. به عنوان مثال، لینک 10229 در Topic01 و Topic08 قابل توجه بود. هر پیوندی که به چندین موضوع کمک کند فقط با رنگ مربوط به موضوعی که بالاترین را داشت ترسیم می شد پ(wمن|تی)ارزش. همانطور که در شکل 8 نشان داده شده است، همه پیوندهای متعلق به Topic08 به این معنی است که آنها به دلیل مشترکی مانند مناطق مسافرتی مشابه یا مقاصد سفر گنجانده شده اند.
5.2. موضوع سفر و دینامیک شهری
مقاصد سفر در یک موضوع با برخی ویژگیهای مشترک جمع میشوند که شباهت مکانی مقصدهای سفر را آشکار میکند. توزیع موضوعات الگوهای سفر مسافران و پویایی رفتار انسانی را نشان داد. همانطور که در شکل 7 نشان داده شده است، هفت منطقه شهری با یک خط ضخیم سیاه و سفید نشان داده شده است، و پس زمینه شبکه جاده ها با خطوط خاکستری روشن نشان داده شده است. خطوط همان رنگ به یک موضوع تبدیل می شوند. هرچه این خط عریض تر باشد، مقصد سفر بیشتر می شود. این مناطق نقاط داغ را برای مقاصد سفر از منظر احتمال نشان می دهد. شکل 7نشان می دهد که هر ده موضوع تقریباً تمام مناطق شهری ووهان را پوشش می دهد. به عنوان مثال، Topic07 (به رنگ زرد) عمدتاً Jianghan، Jiang’an و Qiaokou را پوشش می دهد، به این معنی که تعداد زیادی از تاکسی سواری از مرزهای منطقه عبور کرده است. با این حال، Topic05 و Topic09 در خارج از مناطق شهری نیز وجود دارد، که به این معنی است که برخی از تاکسی ها بین مناطق شهری و مناطق حومه شهر حرکت می کنند.
جدول 4 نشان می دهد که Topic08 (به طلا) دارای بالاترین اهمیت موضوع است، که نشان می دهد تمرکز مقصد سفر در دوره شلوغ صبحگاهی بوده است. همانطور که در شکل 8 نشان داده شده است، پیوندهای متعلق به Topic08 عمدتاً در منطقه Wuchang توزیع شده اند، از جمله لینک 10139، لینک 10514، لینک 11253، لینک 12546 و پیوندهای دیگر. ووچانگ مرکز سیاسی، فرهنگی و اطلاعاتی استان هوبی است و دارای بالاترین اهمیت موضوعی است. صبح تعداد زیادی از مردم برای کار به این منطقه می روند. در این میان لینک 10139 ( شکل 8 ) بیشترین احتمال مقصد سفر را در Topic08 دارد و مهم ترین دلیل این است که ایستگاه راه آهن Wuchang در آنجا واقع شده است و تعداد زیادی مقصد سفر را به خود جذب می کند. شکل 7نقاط داغ مقاصد سفر را از ساعت 6 صبح تا 10 صبح نشان می دهد که احتمال بیشتری در بین موضوعات دارند. در سمت چپ بالای شکل 7 ، میتوانیم متوجه شویم که یک پیوند جدا شده از مناطق شهری، یعنی فرودگاه بینالمللی تیانه وجود دارد، به این معنی که بسیاری از مردم در ساعات شلوغی صبحگاهی با هواپیما سوار میشوند.
Topic09 (به رنگ قرمز مریخی) و Topic00 (به رنگ صورتی زنجبیلی) به تفصیل توضیح داده خواهد شد. همانطور که در شکل 9 نشان داده شده است، تمام پیوندهای مربوط به موضوع 09 در یک منطقه جمع آوری شده اند و توزیع مکانی مقصد سفر را در دوره اوج صبحگاهی نشان می دهند. جاده های جمع آوری شده شامل لینک 9933، لینک 9734، لینک 9502، لینک 8669، لینک 8750، لینک 8803 و غیره است، که یک جاده اصلی در منطقه درون شهری جنوب شرقی با بسیاری از شرکت های با فناوری پیشرفته و شامل منطقه تجاری گوانگگو است. بنابراین، این منطقه کانونی برای فعالیتها در منطقه Hongshan است و بسیاری از مقاصد سفر به Topic09 کمک میکنند. در میان آنها، لینک 8669، خیابان Minzu، بالاترین احتمال را برای مقصد سفر دارد، که نشان می دهد اکثر مسافران این لینک را به عنوان مقصد سفرهای خود در Topic09 انتخاب می کنند.
شکل 10 نشان می دهد که Topic00 در منطقه Qingshan و منطقه Hongshan توزیع شده است. Topic00 عمدتا شامل لینک 17786، لینک 17724، لینک 16992، لینک 15500، لینک 15830 و غیره است، از جمله خیابان هپینگ، جاده جیانشی، خیابان یویی و جاده گونگیه. همانطور که در شکل 10 نشان داده شده است ، برخی پیوندها مقصدهای سفر بیشتری را نسبت به سایر پیوندها جذب می کنند. لینک 15500، لینک 17786 و لینک 16992 گسترده تر هستند، که نشان می دهد مقصدهای سفر بیشتری را جذب می کنند.
5.3. تکامل موضوع سفر
در این تحقیق موضوعات سفر به ترتیب در بازه های شلوغی صبح و عصر شلوغی ایجاد شد. همانطور که در شکل 11 نشان داده شده است، 10 موضوع سفر در طول ساعت شلوغی عصرگاهی متفاوت از 10 موضوع تولید شده در ساعت شلوغی صبح در شکل 7 ایجاد شد . به راحتی می توان دانست که موضوعات مختلف الگوهای حرکتی متفاوتی را منعکس می کنند. به عنوان مثال، مردم معمولاً در ساعات شلوغی صبح و برعکس در ساعات شلوغی عصر از خانه به محل کار خود می روند. بنابراین، یافتن روندهای تکاملی موضوعات سفر در دوره های مختلف که دلالت بر تفاوت الگوهای تحرک دارد، مهم است. بنابراین شباهت موضوعی را برای یافتن دو موضوع مشابه بین دو موضوع سفر در دوره های مختلف تعریف می کنیم. با توجه به دو موضوع منو j، شباهت موضوع به صورت زیر تعریف می شود:
جایی که تیمنو تیjمجموعه ای از شماره شناسایی پیوند با احتمال بالا هستند پ(w|z)>جبه ترتیب در مباحث i و j بر اساس این شباهت، موضوعات مرتبط نزدیک در ساعت شلوغی صبح و ساعت شلوغی عصر شناسایی میشوند که نشاندهنده تکامل زمانی موضوعات است. چنین شباهتی بر اساس رابطه (3) برای یافتن تنوع محتوای موضوع، پیدایش پیوندها در یک موضوع و محو شدن آنها محاسبه شد. با توجه به دو موضوع مشابه، تغییر اهمیت موضوع به صورت زیر تعریف می شود:
همانطور که در شکل 7 و 11 نشان داده شده است، آنها توزیع فضایی موضوع سفر را به ترتیب در ساعت شلوغی صبح (6:00 تا 10:00) و ساعت شلوغی عصر (17:00 تا 21:00) و جدول منعکس می کنند . شکل 5 تکامل زمانی موضوع سفر را در دوره های زمانی مختلف نشان می دهد. همانطور که از شکل 6 و شکل 10 می دانیم ، توزیع فضایی مشابهی از موضوعات بین “موضوعات ساعت شلوغی صبح” و “موضوعات ساعت شلوغی عصر” وجود دارد. برای سهولت، موضوعات ساعت شلوغی صبح (6:00 تا 10:00) و ساعت شلوغی عصر (17:00 تا 21:00) را به ترتیب به عنوان “موضوعات ساعت شلوغی صبح” و “موضوعات ساعت شلوغی عصر” تعریف کردیم. در جدول 5ستون اول ده موضوع را در ساعت شلوغی صبح نشان میدهد و ستون «مباحث ساعت شلوغی عصر» حاوی بیشترین موضوعات مربوط به ساعت شلوغی صبح است. دانش زیادی را می توان از جدول 5 استنباط کرد . جدول 5 نشان می دهد که فعالیت های تاکسی در ساعات شلوغی عصر بیشتر از ساعات شلوغی صبح است، زیرا کل اهمیت موضوع ساعت شلوغی عصر بیشتر از ساعت شلوغی صبح است. افراد در هنگام عصر فعالیت های بیشتری مانند تفریح، غذاخوری و خرید دارند.
از جدول 5 ، بسیاری از بینش های مفید را می توان از تکامل موضوع استخراج کرد. بیشتر شباهت موضوعات کمتر از 0.5 است، مقداری کوچکتر که نشان دهنده تفاوت بین «موضوعات ساعت شلوغی صبح» و «موضوعات ساعت شلوغی عصر» است. در میان آنها، بزرگترین شباهت موضوع 0.53 است، و موضوعات در جاده Luoyu و میدان Guanggu، که نزدیک به منطقه توسعه فن آوری بالا با بسیاری از موسسات تحقیقاتی علمی، شرکت ها و رستوران ها است، توزیع می شود. بنابراین، در ساعات شلوغی صبح، کارگران بیشتری را جذب میکند و به مقاصد سفر برای صرف شام در ساعات شلوغی عصر کمک میکند. اهمیت موضوع 16.41 درصد افزایش می یابد، که به این معنی است که فعالیت های بیشتری در عصر انجام می شود. شکل 12توزیع فضایی موضوعات مشابه را در ساعات شلوغی صبح و ساعت شلوغی عصر نشان می دهد که سیر تحول این دو موضوع را نشان می دهد. در مقایسه با شکل 12الف، پیوندهای جدید، مانند لینک 5521، لینک 5550، پیوند 4713 و پیوند 5079، به سفر Topic01 در ساعات شلوغی عصر کمک می کنند. این بدان معناست که در ساعات شلوغی عصر، مقاصد سفر بیشتری در این منطقه وجود دارد. در عین حال، پیوندهایی از ساعت شلوغی عصر نیز در مقایسه با ساعت شلوغی صبح محو می شوند، مانند لینک 10045، لینک 8973 و لینک 9325. اهمیت موضوع Topic05 در ساعت شلوغی عصر 14.23٪ کاهش یافته است. مطابق و مشابه با Topic08 در ساعات شلوغی صبح، نشان می دهد که منطقه حاوی Topic08 فعالیت های کمتری در عصر دارد. علاوه بر این، اهمیت Topic03 در ساعت شلوغی عصر به میزان 20.43% افزایش یافته است، مطابق و مشابه با Topic03 در ساعت شلوغ صبح، که نشان دهنده یک منطقه فعالیت در منطقه Jian’an در عصر است.
6. نتیجه گیری
مطالعات قبلی بر تجزیه و تحلیل دادههای خام از حسگرهای GPS برای ارتقای دقت دادههای GPS متمرکز شدهاند. تحقیقات اخیر به سمت توسعه روش هایی برای مطالعه تحرک انسان با ترکیب اطلاعات معنایی، مانند نام بخش جاده و حاشیه نویسی تغییر کرده است. به طور کلی، یک مسیر تاکسی توسط مجموعه ای از مقاصد سفر تشکیل می شود که ممکن است الگوهای حرکتی انسان را منعکس کند. از چنین الگوهای تحرکی میتوان برای کمک به رانندگان تاکسی برای جابهجایی مسافران بیشتری استفاده کرد و به مسافران گفت که کجا میتوانند سریع با تاکسی تماس بگیرند.
این مقاله مقصدهای سفر معنایی استخراجشده از مسیرهای تاکسی خام را در مقیاسی دقیقتر با استفاده از روش LDA به منظور انتقال شباهتهای فضایی الگوهای تحرک و تکامل زمانی موضوعات تحلیل میکند. ما ابتدا به جای استفاده از نام خیابان ها، شماره شناسایی بخش جاده را به عنوان اطلاعات معنایی در داده های عظیم سفر GPS معرفی کردیم [ 26]]. سپس، از مدل LDA برای ساخت موضوعات سفر به منظور یافتن الگوهای تحرک انسان استفاده شد. هر موضوع سفر شامل یک سری پیوندها با اهمیت مقصد سفر متفاوت در بیان جنبه مشترک است، مانند تعلق به یک منطقه یا متعلق به یک منطقه کاربردی. پیوندهای مختلف در یک موضوع با استفاده از یک رنگ ارائه شده اند و عرض یک پیوند متناسب با احتمال این موضوع است. هرچه این پیوند گسترده تر باشد، مقصد سفرهای بیشتری را لینک جذب می کند. سپس، ما می گوییم چه پیوندهایی پیوندهای نقاط داغ هستند و رابطه بین پیوندها و مناطق عملکردی را پیدا می کنیم. تکامل زمانی موضوعات را می توان با تجزیه و تحلیل روابط موضوعی بین ساعت شلوغی صبح و ساعت شلوغی عصر تشخیص داد. در نتیجه، یک کاربرد بالقوه این تحقیق میتواند به رانندگان تاکسی کمک کند تا بدانند در صورتی که فواصل زمانی به درستی تقسیم شوند، چه زمانی و کجا میتوانند مسافران بیشتری را بر اساس نتایج تحلیل موضوعی سوار کنند. علاوه بر این، میتواند به مسافران بگوید که چگونه سریعتر تاکسی بگیرند.
نتایج ما متاثر از تکنیک ها هستند. به عنوان مثال، دقت مکان تحت تأثیر دستگاه های GPS است و الگوریتم تطبیق نقشه بر دقت مسیرهای GPS تأثیر می گذارد. این مقاله فقط بر روی موضوعات گروهی جابجایی مسافران متمرکز شده است. چنین موضوعات گروهی حاکی از الگوهای فعالیت های انسانی و سفر است. علاوه بر این، نمایش به عنوان توزیع موضوع سفر در دورههای مختلف، تکامل زمانی موضوعات را بیان میکند و شباهت موضوع الگوهای تحرک انسان را در طول زمان منعکس میکند. در آینده، ما تحرک انسان را از طریق یکپارچهسازی ویژگیهای شهر (به عنوان مثال، نقاط مورد علاقه، دادههای موقعیتیابی داده تلفن همراه، طرح کاربری زمین، برنامهریزی شهری) تفسیر خواهیم کرد تا روابط بین مقصد سفر و POI یا تراکم جمعیت را اندازهگیری کنیم.
بدون نظر