پیش‌بینی زمان سفر پیوند شهری بر اساس روش افزایش گرادیان با در نظر گرفتن همبستگی‌های فضایی و زمانی

خلاصه

پیش‌بینی زمان سفر به دلیل پراکندگی داده‌های ترافیکی آنی و عدم قطعیت ذاتی سفر در شبکه‌های جاده‌ای شهری پر ازدحام چالش برانگیز است. ما یک روش درخت رگرسیون تقویت‌شده با گرادیان را برای پیش‌بینی دقیق زمان سفر پیشنهاد می‌کنیم. این مدل برای همبستگی‌های مکانی-زمانی استخراج‌شده از داده‌های ترافیک تاریخی و بلادرنگ برای پیوندهای مجاور و هدف حساب می‌کند. این روش می تواند دقت پیش بینی بالایی را با ترکیب درختان رگرسیون ساده با عملکرد ضعیف ارائه دهد. برای بهبود دقت پیش‌بینی، خطای موجود در مدل‌های موجود را تصحیح می‌کند. مدل درختی رگرسیون شیب-زمانی تقویت‌شده ما در آزمایش‌ها تأیید شد. داده های آموزشی از داده های بزرگ منعکس کننده شرایط ترافیکی تاریخی جمع آوری شده توسط وسایل نقلیه کاوشگر در ووهان از ژانویه تا می 2014 به دست آمده است. داده‌های بی‌درنگ از ۱۱ هفته سوابق GPS جمع‌آوری‌شده در ووهان از ۵ می ۲۰۱۴ تا ۲۰ ژوئیه ۲۰۱۴ استخراج شد. بر اساس این داده‌ها، ما زمان سفر پیوند را برای دوره از ۲۱ جولای ۲۰۱۴ تا ۲۵ ژوئیه ۲۰۱۴ پیش‌بینی کردیم. آزمایش‌ها نشان داد که ما مدل درختی رگرسیون شیب-تقویت‌شده مکانی-زمانی پیشنهادی نتایج بهتری نسبت به رویکردهای تقویت گرادیان، جنگل تصادفی یا میانگین متحرک یکپارچه اتورگرسیو به دست آورد. علاوه بر این، این نتایج نشان‌دهنده مزایای مدل ما برای پیش‌بینی زمان سفر لینک شهری است. آزمایش‌ها نشان داد که مدل درختی رگرسیون افزایش‌یافته با گرادیان مکانی-زمانی پیشنهادی ما نتایج بهتری نسبت به رویکردهای تقویت گرادیان، جنگل تصادفی یا میانگین متحرک یکپارچه اتورگرسیو به دست آورد. علاوه بر این، این نتایج نشان‌دهنده مزایای مدل ما برای پیش‌بینی زمان سفر لینک شهری است. آزمایش‌ها نشان داد که مدل درختی رگرسیون شیب-تقویت‌شده مکانی-زمانی ما نتایج بهتری نسبت به رویکردهای تقویت گرادیان، جنگل تصادفی یا میانگین متحرک یکپارچه اتورگرسیو به دست آورد. علاوه بر این، این نتایج نشان‌دهنده مزایای مدل ما برای پیش‌بینی زمان سفر لینک شهری است.

کلید واژه ها:

پیش بینی زمان سفر لینک شهری ; همبستگی های مکانی – زمانی ; مدل درختی رگرسیون شیب-فضایی-زمانی تقویت شده ؛ اطلاعات بزرگ

1. معرفی

تخمین و پیش‌بینی زمان سفر به دلیل عدم قطعیت ذاتی سفر در شبکه‌های جاده‌ای شهری متراکم و عدم قطعیت ناشی از جمع‌آوری داده‌ها با وسایل نقلیه کاوشگر مجهز به GPS چالش برانگیز است. عدم قطعیت توسط نوسانات در ترافیک ایجاد می شود و تحت تأثیر بسیاری از عوامل دیگر، مانند تقاضای ترافیک (به عنوان مثال، به دلیل ویژگی های جمعیت، اثرات فصلی، لحظه لحظه، رفتار راننده، در دسترس بودن اطلاعات ترافیک، و پاسخ های کاربر)، کنترل ترافیک (مثلاً ، به دلیل تصادفات، کار جاده، و هندسه جاده)، شرایط آب و هوایی (به عنوان مثال، به دلیل دما، باران، برف و باد)، ورود و خروج تصادفی در تقاطع های علامت دار [ 1] و جهت حرکت جریان های ترافیکی. این نوسانات تصادفی اغلب پیچیده و پیش بینی آن دشوار است. درک این نوسانات به ویژه هنگام توسعه الگوریتم های پیش بینی دقیق تر ضروری است. در همین حال، به دلیل فرکانس پایین [ 2 ، 3 ، 4 ] اکتساب داده های GPS وسیله نقلیه کاوشگر و محدودیت منطقه ای مناطق رانندگی، اطلاعات مسیر جمع آوری شده توسط GPS خودروهای کاوشگر نمی تواند کل شبکه جاده شهری را پوشش دهد. بنابراین، داده های جمع آوری شده پراکنده هستند [ 5 ، 6 ]. تخمین و پیش‌بینی زمان سفر لینک با استفاده از داده‌های پراکنده چالشی است که برای تخمین و پیش‌بینی دقیق زمان سفر باید حل شود.

مطابق با نیازهای پیش‌بینی زمان سفر، روش‌های پیش‌بینی بسیاری پیشنهاد شده‌اند، از جمله روش‌های آماری و رگرسیونی [ 7 ، 8 ، 9 ]، میانگین تاریخی و هموارسازی [ 10 ، 11 ، 12 ]، یادگیری ماشینی متنوع [ 13 ، 14 ]، و روش های مبتنی بر نظریه جریان ترافیک [ 15 ]. در میان این روش‌ها، مدل میانگین متحرک یکپارچه خودرگرسیون (ARIMA) به تدریج در حال تبدیل شدن به معیاری برای ارزیابی مدل‌های پیش‌بینی جدید توسعه‌یافته است [ 16 ]. مدل ARIMA [ 7 ، 17] به طور کلی ساختار مدل خاصی را برای داده ها فرض می کند و پارامترهای قابل تفسیر را با ساختار مدل ساده ارائه می دهد. این مدل زمانی که جریان ترافیک الگوهای تغییر منظم را نشان می دهد، بهتر می تواند زمان سفر را پیش بینی کند. یکی دیگر از روش‌های پیش‌بینی مؤثر، الگوریتم‌های یادگیری ماشینی است که به‌طور گسترده در پیش‌بینی ترافیک نیز کاربرد دارند. کاربردهای موفق شامل ماشین های بردار پشتیبان (SVM) [ 13 ، 18 ]، شبکه های عصبی [ 14 ، 19 ] و تکنیک های ترکیبی و مجموعه ای [ 13 ، 20] است.]. برخلاف مدل‌های آماری موجود، در یادگیری ماشینی، لازم نیست فرض کنیم که داده‌ها ساختار خاصی دارند. این ساختار می تواند ناشناخته باشد. الگوریتم های یادگیری ماشینی می توانند ساختار مدل بالقوه داده ها را به تصویر بکشند [ 21 ]. با این حال، یک نقطه ضعف مهم این رویکرد، عدم تفسیرپذیری است که کاربرد این مدل را محدود می‌کند.

در سال‌های اخیر، الگوریتم‌های مجموعه برای حل مسائل پیش‌بینی و طبقه‌بندی در بسیاری از زمینه‌های مختلف با دستاوردهای خاص مهم شده‌اند [ 22 ]. در بین تمامی الگوریتم‌های مجموعه، الگوریتم‌های مجموعه‌ای مبتنی بر درخت یکی از مهم‌ترین روش‌ها هستند. روش‌های مبتنی بر درخت به جای برازش یک مدل واحد، چندین مدل تک درختی را برای به دست آوردن عملکرد پیش‌بینی بهینه ترکیب می‌کنند. این رویکرد پیش‌بینی‌های بهتری را تولید می‌کند و ممکن است به سیاست‌گذاران کمک کند تا رابطه بین ترافیک و عوامل مؤثر بر آن را بهتر درک کنند. علاوه بر این، الگوریتم‌های مجموعه مبتنی بر درخت به پیش پردازش داده کمتری نیاز دارند و تناسب بهتری با روابط غیرخطی ارائه می‌دهند. این مزایا رویکرد مبتنی بر درخت را به انتخاب خوبی در هنگام پرداختن به تحلیل ترافیک تبدیل می کند.

با این حال، تحقیقات محدودی در مورد استفاده از الگوریتم های درختی در زمینه حمل و نقل وجود دارد. هامنر [ 23 ] از الگوریتم جنگل تصادفی برای پیش بینی زمان سفر استفاده کرد و نشان داد که مدل پیشنهادی از نظر دقت پیش بینی از سایر مدل ها بهتر عمل می کند. وانگ [ 24 ] از درخت تصمیم گیری مجموعه ای برای پیش بینی تأثیر آب و هوا بر ظرفیت فرودگاه استفاده کرد و نشان داد که عملکرد آن بهتر از الگوریتم SVM است. احمد و عبدالآتی [ 25 ] خطرات حمل و نقل را با استفاده از داده های به دست آمده از حسگرهای مختلف شناسایی کردند. نتایج نشان داد که روش تقویت گرادیان تصادفی نسبت به روش های آماری سنتی برتری دارد. به همین ترتیب، چانگ [ 26] یک درخت رگرسیون گرادیان را برای مطالعه وقوع تصادف اعمال کرد. این دو مطالعه اخیر از یک الگوریتم تقویت کننده برای رسیدگی به مشکلات طبقه بندی و پیش بینی به جای پیش بینی زمان سفر استفاده کردند. Yanru Zhang [ 27 ] از یک روش افزایش گرادیان برای بهبود پیش‌بینی زمان سفر با در نظر گرفتن زمان واقعی سفر استفاده کرد، اما اطلاعات حاصل از داده‌های زمان سفر تاریخی و همبستگی مکانی-زمانی بین هدف و پیوندهای مجاور را نادیده گرفت. علاوه بر این، این رویکرد نمی تواند به طور موثر زمان سفر پیوند را در شرایط داده پراکنده پیش بینی کند. تحقیقات موجود اثربخشی و کارایی الگوریتم‌های مبتنی بر درخت را نشان می‌دهد. با این وجود، تحقیقات کمی در مورد استفاده از درختان تقویت کننده گرادیان برای پیش بینی زمان سفر وجود دارد.

برای پر کردن این شکاف، تحقیق ما یک الگوریتم مجموعه‌ای مبتنی بر درخت را برای پیش‌بینی زمان سفر پیوند شهری با در نظر گرفتن متغیرهای ورودی مرتبط به دست آمده از زمان سفر تاریخی و زمان واقعی سفر ارائه می‌کند. در همان زمان، ما همبستگی مکانی-زمانی بین پیوندهای هدف و مجاور را هنگام محاسبه زمان سفر پیوند شهری در نظر می گیریم. الگوریتم پیشنهادی ما از مدل درخت رگرسیون با گرادیان مکانی-زمانی تقویت‌شده (STGBRT) از یادگیری ماشین برای پیش‌بینی زمان سفر پیوند بهره‌برداری می‌کند. مدل STGBRT الگوهای اساسی در داده های زمان سفر را برای افزایش دقت و تفسیرپذیری مدل آشکار می کند. بر خلاف سایر مدل های مبتنی بر درخت، رویکرد درختی تقویت کننده گرادیان وزن کمتری را به درختانی اختصاص می‌دهد که طبقه‌بندی‌های نادرست تولید شده توسط مدل درخت رگرسیون را ایجاد می‌کنند و در عین حال ترکیبی بهینه از درختان را شناسایی می‌کنند. روش تقویت گرادیان پتانسیل ارائه پیش‌بینی‌های دقیق‌تری را نسبت به الگوریتم‌های جنگل تصادفی دارد.

مقاله به شرح زیر است. در بخش 2 ، شرح مفصلی از روش های درخت رگرسیون منفرد و درخت رگرسیون تقویت شده با گرادیان ارائه شده است. در بخش 3 ، استانداردسازی اندازه گیری و همبستگی بین هدف و پیوندهای مجاور توضیح داده شده است. در بخش 4 ، آزمایش خود را توصیف می کنیم، از جمله داده هایی که استفاده کردیم، کاربرد مدل خود و مقایسه مدل خود با دیگران. بحث در مورد نتایج و برخی از نتیجه گیری ها در پایان بیان شده است.

2. روش شناسی

الگوریتم‌های مجموعه مبتنی بر چندین مدل پایه، مانند شبکه‌های عصبی، جنگل‌های تصادفی، درخت‌های تصمیم‌گیری و k-نزدیک‌ترین همسایه‌ها، می‌توانند دقت بالاتری در تخمین و پیش‌بینی به دست آورند. در یک الگوریتم مجموعه، هر مدل پایه می تواند راه حلی برای یک مسئله ارائه دهد. این پیش‌بینی‌ها به نوعی ترکیب می‌شوند، مانند وزن‌دهی یا میانگین‌گیری، برای تولید خروجی نهایی. به طور کلی، دقت پیش‌بینی یک مدل گروهی از مدل‌های پایه موجود در مدل مجموعه برتر است [ 28] .]. پیش بینی مدل های مجموعه را می توان از مثال زیر فهمید. به عنوان مثال، ما معمولاً هنگام تصمیم گیری نظرات دیگران را جویا می شویم. هر فردی بر اساس تجربه خود راه حلی برای مشکل ارائه می دهد. با سنجش همه جانبه همه نظرات می توانیم تصمیم دقیق تری بگیریم. الگوریتم‌های مجموعه با تصحیح اشتباهات در هر مدل پایه، خطاهای تصمیم‌گیری را کاهش می‌دهند.

از میان مدل‌های پایه ممکن، درخت‌های تصمیم که درخت‌های رگرسیون نیز نامیده می‌شوند، از متداول‌ترین رویکردها هستند. در تحقیقات عملیاتی، درخت‌های تصمیم به شناسایی استراتژی برای رسیدن به هدف کمک می‌کنند و همچنین ابزاری محبوب در یادگیری ماشین هستند. درخت تصمیم یک ساختار فلوچارت مانند است که در آن هر گره داخلی یک “آزمون” انجام شده بر روی یک ویژگی را نشان می دهد (به عنوان مثال، اینکه آیا یک سکه به سمت بالا می آید یا دم). هر شاخه نشان دهنده نتیجه آزمون و هر گره برگ نشان دهنده یک برچسب کلاس است. مسیرهای ریشه تا برگ نشان دهنده قوانین طبقه بندی هستند. الگوریتم‌های درخت تصمیم دارای ویژگی‌های جذاب بسیاری مانند زمان و پیچیدگی کم، پردازش سریع پیش‌بینی و نمایش ساده هستند. در عین حال دارای معایبی از جمله برازش بیش از حد هستند. الگوریتم‌های مجموعه‌ای مبتنی بر درخت، درخت‌های منفرد زیادی را ایجاد می‌کنند و نتایج هر درخت را برای نتایج دقیق‌تر ترکیب می‌کنند. به طور کلی، دو نوع الگوریتم مجموعه بر اساس درختان وجود دارد، روش جنگل تصادفی و الگوریتم درخت رگرسیون تقویت‌شده با گرادیان.29 ]. در این دو الگوریتم از یک درخت رگرسیون منفرد به عنوان مدل پایه استفاده شده است. بخش 2.1 به طور خلاصه توضیح می دهد که درختان رگرسیون منفرد چگونه کار می کنند و روند ساخت یک درخت رگرسیون تقویت شده با گرادیان (GBRT) را نشان می دهد.

2.1. درخت رگرسیون منفرد

مانند تمام تکنیک های رگرسیون، ما وجود یک متغیر خروجی واحد (پاسخ) و یک یا چند متغیر ورودی را فرض می کنیم. روش رگرسیون عمومی درخت سازی به متغیرهای ورودی اجازه می دهد تا مخلوطی از متغیرهای پیوسته و طبقه ای باشند. درخت رگرسیون را می توان گونه ای از درخت های تصمیم در نظر گرفت که به جای استفاده برای کارهای طبقه بندی، برای تقریب توابع با ارزش واقعی طراحی شده اند. درخت رگرسیون از طریق فرآیندی به نام پارتیشن بندی بازگشتی باینری ساخته می شود [ 30]. این یک فرآیند تکراری برای تقسیم داده ها به پارتیشن ها و سپس تقسیم بیشتر پارتیشن ها در هر یک از شاخه ها است. در ابتدا، تمام رکوردهای یک مجموعه آموزشی با هم در یک گروه واحد هستند. سپس الگوریتم سعی می کند داده ها را با استفاده از هر تقسیم باینری ممکن در هر فیلد تقسیم کند. الگوریتم تقسیمی را انتخاب می کند که داده ها را به دو قسمت تقسیم می کند به طوری که مجموع انحرافات مجذور از میانگین در قسمت های جداگانه را به حداقل می رساند. سپس این تقسیم یا پارتیشن بندی برای هر یک از شاخه های جدید اعمال می شود. این فرآیند تا زمانی ادامه می یابد که هر گره به حداقل اندازه گره تعیین شده توسط کاربر برسد و به یک گره ترمینال تبدیل شود.

یک درخت رگرسیون واحد [ 27 ] را می توان به صورت زیر توصیف کرد. همانطور که در شکل 1 الف نشان داده شده است، پانل سمت چپ با توجه به دو متغیر X1 و X2 با استفاده از چهار نقطه تقسیم b1، b2، b3 و b4 به پنج منطقه، {R1، R2، R3، R4، و R5} تقسیم شده است. اندازه درخت رگرسیون در شکل 1 تعداد کل گره های انتهایی است زیرا درخت به پنج ناحیه مختلف تقسیم شده است که برابر با تعداد گره های انتهایی درخت است. پانل سمت راست شکل 1 یک نمایش درخت باینری از همان مدل است که پنج ناحیه تقسیم شده مختلف را بیان می کند.

اکنون، یک سوال کلی از همان نوع مثال نشان داده شده در شکل 1 در نظر می گیریم که شامل ورودی های p با یک خروجی مربوط به ورودی مسئله رگرسیون است. به عنوان مثال، ما n مشاهده داریم و هر مشاهده به صورت نشان داده می شود

y_{i}, x_{i 1}, x_{i 2}, x_{i 3}, \dots, x_{i j}, \dots, x_{i p}

برای i = 1، 2، …، n. برای پیش بینی زمان سفر،

y_{i}

متغیر وابسته است و به عنوان زمان سفر پیش بینی شده مربوط به مشاهده من در نظر گرفته می شود .

x_{i 1}, x_{i 2}, x_{i 3}, \dots, x_{i j}, \dots, x_{i p}

متغیرهای مستقل مربوط به پیش بینی زمان سفر هستند، مانند زمان سفر تاریخی، زمان سفر در زمان واقعی، حجم ترافیک، لحظه زمانی و آب و هوا یا سایر عوامل خارجی. اجازه دهید فرض کنیم که فضای ویژگی به m مناطق R ₁ ، R ₂ ، …، Rm تقسیم شده است که نشان دهنده مناطق مختلف شرایط ترافیکی مختلف است. بنابراین، وضعیت ترافیک توسط یک پارامتر ورودی به دسته های مختلف تقسیم می شود و مدل مربوطه برای هر نوع متغیر وابسته ایجاد می شود. _{به طور} کلی، مقدار مورد انتظار در هر ناحیه از متغیر وابسته به عنوان یک Cm ثابت در نظر گرفته می شود. این یک مقدار بهینه مورد انتظار است که امیدواریم با استفاده از متغیرهای مستقل به دست آوریم. _{اگر معیار بهینگی به حداقل رساندن مجموع مجذورات انحراف باشد} ، آنگاه مقدار بهینه C _m میانگین مقادیر y _i در مساحت Rm است [ 31 ]. _{همانطور که} در شکل 1 الف نشان داده شده است، ما مقادیر متفاوتی را در ناحیه Rm برآورد کردیم . در این تحقیق، ما از الگوریتم حریص [ 32 ، 33 ] برای تعیین بهترین متغیرهای تقسیم و نقاط تقسیم استفاده می کنیم. درخت رگرسیون منفرد مدل پایه برای درخت رگرسیون تقویت‌شده با گرادیان است.

2.2. درخت رگرسیون تقویت‌شده با گرادیان

ایده تقویت گرادیان از مشاهدات انجام شده توسط لئو بریمن [ 34 ] سرچشمه می گیرد که تقویت را می توان به عنوان یک الگوریتم بهینه سازی بر روی یک تابع هزینه مناسب تفسیر کرد. الگوریتم های رگرسیون تقویت گرادیان صریح متعاقبا توسط جروم اچ فریدمن [ 35 ، 36 ] توسعه یافت. میسون و همکاران [ 37] دیدگاه انتزاعی الگوریتم های تقویت کننده را به عنوان الگوریتم های شیب نزولی تابعی تکراری معرفی کرد. یعنی، آنها الگوریتم‌هایی هستند که با انتخاب مکرر یک تابع (فرضیه ضعیف) که شیب را به پایین نشان می‌دهد، یک تابع هزینه را در فضای تابع بهینه می‌کنند. این دیدگاه شیب عملکردی تقویت منجر به توسعه الگوریتم‌های تقویت در بسیاری از حوزه‌های یادگیری ماشین و آمار فراتر از رگرسیون و طبقه‌بندی شده است. تقویت درخت گرادیان که روش درخت رگرسیون تقویت‌شده گرادیان (GBRT) نیز نامیده می‌شود، یک تعمیم از تقویت اعمال شده برای توابع از دست دادن قابل تمایز دلخواه است. تقویت گرادیان یک تکنیک یادگیری ماشینی برای مشکلات رگرسیون و طبقه‌بندی است که یک مدل پیش‌بینی را در قالب مجموعه‌ای از مدل‌های پیش‌بینی ضعیف، معمولاً درخت‌های تصمیم، تولید می‌کند.

فریدمن [ 35 ] بهبودی در روش تقویت گرادیان با استفاده از درختان رگرسیون اندازه ثابت به عنوان مدل پایه ارائه کرد. مدل اصلاح شده کیفیت مدل تقویت کننده گرادیان را بهبود می بخشد [ 37 ]. در این مطالعه، یک مدل درخت رگرسیون تقویت‌شده با گرادیان، مدل درخت رگرسیون شیب تقویت‌شده مکانی-زمانی (STGBRT)، برای پیش‌بینی زمان سفر پیشنهاد شده‌است. این مدل همبستگی های مکانی-زمانی بین پیوندهای هدف و مجاور را در نظر می گیرد. با فرض اینکه تعداد برگ‌های هر درخت J باشد ، فضای درخت m را می‌توان به زیرفضاهای J جدا از هم تقسیم کرد ، مانند R _1m , R _2m , …, R _Jmو مقدار پیش‌بینی‌شده برای زیرفضای R _Jm ثابت b _jm است . بنابراین، درخت رگرسیون را می توان با معادلات (1) و (2) بیان کرد:

g متر (ایکس من) = \sum j = 1 جی ب j m من (ایکس من \in آر j m)

(1)

من (ایکس من \in آر j m) = {1 ، i f ایکس من \in آر j m 0, o t h e r w i s e

(2)

برای به حداقل رساندن تابع تلفات مدل STGBRT، از شیب‌دارترین روش فرود استفاده می‌کنیم، که یکی از ساده‌ترین روش‌های کمینه‌سازی عددی پرکاربرد است.

F (x_{i})

، بودن

اف (ایکس من) = \sum m = 0 م f متر (ایکس من)

(3)

جایی که $f_{0} (x)$ یک حدس اولیه است، M نشان دهنده شاخص درخت است، و ${f_{m} (x_{i})}_{1}^{M}$ توابع افزایشی هستند که با روش بهینه سازی [ 35 ] تعریف می شوند. با استفاده از روش شیب دارترین نزول، معادله زیر وجود دارد

f متر (ایکس من) = - ρ متر g متر (ایکس من)

(4)

گرادیان فعلی

g_{m}

، بر اساس رابطه (5) [ 35 ]، بر اساس دنباله مراحل قبل محاسبه می شود. افزایشی را تعریف می کند. در معادله (5)،

f (x_{i})

تخمین یا تقریبی از مشاهده است

y_{i}

که با متغیرهای “ورودی” یا “تبیینی” مطابقت دارد،

x = {x_{1}, \dots, x_{n}}

g متر (ایکس من) = [\partial L ( y من ، اف ( ایکس من ) ) \partial f ( ایکس من )] f (ایکس من) = f m - 1 (ایکس من)

(5)

ضریب

ρ_{m}

در رابطه (4) مطابق رابطه (6) آورده شده است:

ρ متر = آرگمین ρ \sum i = 1 n L (y من ، f m - 1 (ایکس من) + ρ متر g متر (ایکس من))

(6)

مدل مطابق با معادله (7) به روز می شود:

اف متر (ایکس من) = اف m - 1 (ایکس من) + ρ متر g متر (ایکس من)

(7)

روش درخت رگرسیون تقویت‌شده با گرادیان، مدل جدیدی را در جهت کاهش باقیمانده ایجاد می‌کند و با به حداقل رساندن انتظارات تابع ضرر مطابق با معادلات (5)- (7) مدل را به‌روزرسانی می‌کند. این مرحله مهمترین بخش تقویت گرادیان است. به طور کلی، مدل برازش می تواند خطای آموزشی خود را با افزایش تعداد درختان پایه در مدل کاهش دهد. با این حال، اگر مدل بیش از حد به داده های آموزشی نزدیک باشد، توانایی تعمیم مدل برازش را نیز کاهش می دهد. با افزایش تعداد تکرارها، مدل پیچیده می شود، بنابراین نوسانات جزئی در داده ها اغراق آمیز می شود. این پیچیدگی افزوده باعث عملکرد ضعیف پیش‌بینی داده‌های تست می‌شود. در نتیجه، تعیین تعداد بهینه تکرار برای مدل ضروری است تا خطاهای احتمالی پیش‌بینی به حداقل برسد. همچنین می توان با کنترل تعداد تکرارها، تعداد درختان اصلی و نرخ یادگیری از پدیده بیش از حد برازش جلوگیری کرد. مدل STGBRT به طور استراتژیک باعث می شود هر مدل پایه به حداقل ضرر برسد. از استراتژی نمونه گیری مرحله ای استفاده می کند که به نمونه های نامطلوب توجه بیشتری می کند. این ویژگی آن را از مدل جنگل تصادفی که هر مدل را با استفاده از نمونه‌گیری تصادفی یا نمونه‌برداری با احتمال مساوی آموزش می‌دهد متمایز می‌کند. بنابراین، عملکرد مدل STGBRT تحت تأثیر تعداد درختان و نرخ یادگیری است. عملکرد بهینه مدل را می توان با انتخاب دقیق بهترین ترکیب از این پارامترها به دست آورد. مدل STGBRT به طور استراتژیک باعث می شود هر مدل پایه به حداقل ضرر برسد. از استراتژی نمونه گیری مرحله ای استفاده می کند که به نمونه های نامطلوب توجه بیشتری می کند. این ویژگی آن را از مدل جنگل تصادفی که هر مدل را با استفاده از نمونه‌گیری تصادفی یا نمونه‌برداری با احتمال مساوی آموزش می‌دهد متمایز می‌کند. بنابراین، عملکرد مدل STGBRT تحت تأثیر تعداد درختان و نرخ یادگیری است. عملکرد بهینه مدل را می توان با انتخاب دقیق بهترین ترکیب از این پارامترها به دست آورد. مدل STGBRT به طور استراتژیک باعث می شود هر مدل پایه به حداقل ضرر برسد. از استراتژی نمونه گیری مرحله ای استفاده می کند که به نمونه های نامطلوب توجه بیشتری می کند. این ویژگی آن را از مدل جنگل تصادفی که هر مدل را با استفاده از نمونه‌گیری تصادفی یا نمونه‌برداری با احتمال مساوی آموزش می‌دهد متمایز می‌کند. بنابراین، عملکرد مدل STGBRT تحت تأثیر تعداد درختان و نرخ یادگیری است. عملکرد بهینه مدل را می توان با انتخاب دقیق بهترین ترکیب از این پارامترها به دست آورد. عملکرد مدل STGBRT تحت تأثیر تعداد درختان و نرخ یادگیری است. عملکرد بهینه مدل را می توان با انتخاب دقیق بهترین ترکیب از این پارامترها به دست آورد. عملکرد مدل STGBRT تحت تأثیر تعداد درختان و نرخ یادگیری است. عملکرد بهینه مدل را می توان با انتخاب دقیق بهترین ترکیب از این پارامترها به دست آورد.38 ].

3. اندازه گیری و همبستگی در فضا و زمان

3.1. همبستگی فضایی

بسیاری از شاخص ها برای اندازه گیری کمی همبستگی بین داده های مکانی و زمانی طراحی شده اند و بیشتر این شاخص ها بر اساس ضریب پیرسون [ 39 ] است. در آمار، ضریب همبستگی پیرسون (که به آن PCC یا پیرسون گفته می‌شود) معیاری از همبستگی خطی بین دو متغیر X و Y است و مقداری بین -1 و +1 می‌گیرد. اگر مقدار 1 باشد، نشان دهنده یک همبستگی مثبت کامل است. در حالی که 0 نشان دهنده عدم همبستگی و -1 نشان دهنده همبستگی منفی کامل است. این به طور گسترده ای در علوم به عنوان معیار درجه وابستگی خطی بین دو متغیر استفاده می شود و توسط کارل پیرسون توسعه داده شد. با توجه به دو متغیر X و Yضریب همبستگی پیرسون به صورت زیر تعریف می شود:

ρ ایکس ، ی = E [ ( X - μ ایکس ) ( ی - μ Y ) ] σ ایکس σ Y

(8)

جایی که $μ_{X}$ و $μ_{Y}$ به ترتیب میانگین متغیرهای X و Y هستند . به همین ترتیب، $σ_{X}$ و $σ_{Y}$ انحراف استاندارد مربوط به متغیرهای X و Y هستند . ضریب همبستگی فضایی بین یک پیوند هدف و یک پیوند مجاور را می توان با توجه به رابطه (8) محاسبه کرد.

نمودار شماتیک در بخش 4.1 جریان ترافیک را نشان می دهد، که در آن پیوند 82 یک پیوند هدف، پیوند 88 یک پیوند بالادست، و پیوند 77 یک پیوند پایین دست است. در این تحقیق گام زمانی 30 دقیقه تعیین شد. بنابراین، ما سرعت مورد انتظار مرتبط با پیوندهای مربوطه را در یک جهت معین هر 30 دقیقه استخراج کردیم. جدول 1 همبستگی های زوجی بین پیوندهای منفرد در زیرمجموعه ای از شبکه را طبق رابطه (8) نشان می دهد. همانطور که از جدول 1 می توان استنباط کردضریب همبستگی سرعت مورد انتظار در جهت معین و برای زمان متفاوت بین هر دو لینک برای لینک های 82، 77 و 88 به طور معنی داری در سطح اطمینان 0.01 (دو دنباله) همبستگی دارد. ضرایب همبستگی برای سرعت در روزهای مختلف مقادیر متفاوتی دارند و در روز متفاوت هستند. شکل 2 نمودار خطی است که رابطه سرعت مورد انتظار بین لینک های 77، 82 و پیوند مجاور 88 را از دوشنبه تا جمعه منعکس می کند. همانطور که در نمودار خطی مشاهده می شود، سرعت مورد انتظار برای لینک 82 با افزایش سرعت مورد انتظار پیوند مجاور 88 افزایش می یابد که نشان دهنده یک همبستگی مثبت است. همچنین در شکل 2 مشاهده می شود که سرعت مورد انتظار لینک های 77، 82 و 88 دارای الگوی ریتمیک است. در نتیجه، هر دو جدول 1 وشکل 2 همبستگی های فضایی پویا بین یک پیوند هدف و یک پیوند مجاور را نشان می دهد. بنابراین، ما اطلاعات پیوند مجاور را به عنوان ورودی مدل برای پیش‌بینی زمان سفر پیوند هدف انتخاب کردیم.

3.2. همبستگی زمانی

تابع همبستگی زمانی (TACF) [ 40 ] دو سری زمانی را به عنوان یک فرآیند تصادفی دو متغیره در نظر می گیرد و ضرایب کوواریانس بین هر سری را در تاخیرهای مشخص اندازه گیری می کند. به عنوان مثال، اگر یک سری زمانی در زمان t برای متغیر X وجود داشته باشد ، در این صورت سری زمانی دیگری در زمان تاخیر k مطابق با متغیر X در زمان tk وجود دارد . سپس ضریب همبستگی این دو سری زمانی مربوط به X را می توان به صورت معادله زیر نشان داد:

ρ ک = E [ ( ایکس تی - μ ) ( ایکس t - k - μ ) ] σ ایکس 2

(9)

جایی که $μ$ میانگین متغیر X و است $σ_{X}$ انحراف استاندارد متناظر متغیر X است.

در واقع، یک ضریب خودهمبستگی زمانی را می توان به سادگی با در نظر گرفتن همبستگی یک متغیر با مشخصات تاخیری خود اندازه گیری کرد. بنابراین، خود همبستگی زمانی با اصلاح PCC اندازه‌گیری شد تا این مشخصات تأخیر را شامل شود. تفاوت زمانی متغیر X بین زمان t و زمان t-k مطابق با رابطه (9) اندازه گیری می شود. اگر فرآیند ثابت است، پس

{σ_{X}}^{2}

را می توان به عنوان انحراف x استفاده کرد و در طول زمان ثابت فرض می شود. جدول 2 خودهمبستگی زمانی پیوند 82 را در زمان‌های تاخیر مختلف مربوط به زمان t نشان می‌دهد .

4. آزمایش

برخلاف روش‌های برآورد، هدف از پیش‌بینی زمان سفر، پیش‌بینی زمان سفر برای یک مسیر است که در یک لحظه خاص شروع می‌شود، با استفاده از زمان سفر تاریخی و فعلی برای آن مسیر. یک پیش بینی در حال حاضر یا در آینده انجام می شود [ 41 ]. برای این منظور از داده های ترافیکی پیوندهای هدف و مجاور از داده های گذشته و فعلی همانطور که در شکل 3 نشان داده شده است استفاده شد.، که یک نمودار شماتیک از پیش بینی زمان سفر را بر اساس داده های گذشته همراه با داده های فعلی نشان می دهد. بنابراین، هم داده‌های ترافیک بلادرنگ و هم داده‌های بزرگ که شرایط ترافیک تاریخی را منعکس می‌کنند، به پیش‌بینی زمان سفر کمک می‌کنند. داده های ترافیک در زمان واقعی با دقت بیشتری وضعیت ترافیک فعلی را منعکس می کند. پیش بینی زمان سفر، همبستگی متغیرهای مختلف را با اطلاعات ترافیک موجود مدل می کند. در نتیجه، هرچه اطلاعاتی که استخراج می‌کنیم جامع‌تر باشد، نتایج پیش‌بینی زمان سفر دقیق‌تر خواهد بود. با توجه به اینکه مشخصه های ترافیکی یک پدیده پیچیده است که شامل ویژگی های غیر خطی و آشفته است، ایجاد یک معادله دقیق برای بیان رابطه بین ویژگی های مختلف اغلب دشوار است. رویکردهای داده محور یک حوزه امیدوارکننده در مدل‌سازی و پیش‌بینی ترافیک هستند.

4.1. توصیف و آماده سازی داده ها

وسایل نقلیه کاوشگر مجهز به GPS به عنوان حسگرهای ترافیک سیار برای جمع آوری داده های ترافیکی شبکه استفاده می شود. در تحقیق ما، داده‌های خودروی کاوشگر تاریخی و بی‌درنگ ارائه‌شده توسط یک شرکت بخش خصوصی استفاده می‌شود. پایگاه داده Oracle حاوی داده های خودروی کاوشگر از سیستم حمل و نقل هوشمند (ITS) در ووهان چین به دست آمده است. وسایل نقلیه کاوشگر اطلاعاتی مانند سرعت های لحظه ای، مهرهای زمانی، مختصات طول و عرض جغرافیایی و سرفصل های قطب نما را جمع آوری می کنند. منعکس کننده وضعیت جاری ترافیک شهری، که نقش مهمی در تخمین و پیش‌بینی زمان سفر در زمان واقعی یا نزدیک به زمان واقعی دارد. تحقیق ما از داده‌های زمان سفر از وسایل نقلیه کاوشگر که در شبکه جاده‌ای محلی شهر ووهان کار می‌کنند برای پیش‌بینی زمان سفر استفاده کرد. جدول 3اطلاعات مکان را برای جاده های محلی انتخاب شده در شبکه جاده ای ووهان نشان می دهد. این داده ها شامل شماره بخش، مختصات جغرافیایی شروع، مختصات جغرافیایی پایانی و طول هر بخش است. شکل 4 جاده های محلی در شبکه جاده ای ووهان را نشان می دهد.

با توجه به اثر خطای موقعیت یابی GPS [ 42 ]، نقاط GPS تمایل دارند از جاده واقعی سفر وسیله نقلیه کاوشگر منحرف شوند. بنابراین، نقاط GPS که از شبکه جاده منحرف می شوند، باید ابتدا با توجه به مسیر عبور وسیله نقلیه کاوشگر به جاده پیش بینی شوند. سپس زمان سفر لینک یک وسیله نقلیه کاوشگر با استفاده از این نقاط مطابق با نقشه محاسبه می شود. در تحقیق ما، مسیرهای وسیله نقلیه کاوشگر با استفاده از الگوریتم تطبیق نقشه [ 43 ، 44 ، 45 ، 46 ] تنظیم شد. ما زمان سفر و سرعت متوسط وسایل نقلیه کاوشگر را که از پیوندهای هدف عبور می کنند، با در نظر گرفتن حالات وسایل نقلیه کاوشگر در تقاطع ها محاسبه کردیم [ 47 ، 48 ،49 ]. ما ویژگی‌های پیوندها را از مقادیر انبوه داده‌های آماری زمان سفر جمع‌آوری‌شده توسط وسایل نقلیه کاوشگر که از پیوند هدف عبور می‌کنند استخراج کردیم. داده‌های آماری به‌دست‌آمده شامل شناسه پیوند، شناسه ورودی نقطه پایانی، شناسه نقطه پایانی خروجی، شناسه وسیله نقلیه کاوشگر، لحظه ورود خودروی کاوشگر به لینک، زمان سفر خودروی کاوشگر که از این لینک عبور می‌کند، و میانگین سرعت خودروی کاوشگر که از این لینک عبور می‌کند، می‌باشد. پیوند، همانطور که در جدول 4 نشان داده شده است . تحقیقات موجود نشان داده است که مسیرهای وسایل نقلیه کاوشگر الگوهای ترافیکی مشابهی را در یک چرخه هفتگی نشان می دهند [ 50 , 51 , 52 , 53]. بنابراین، ما ویژگی های بین پیوندهای هدف و بالادست را به عنوان ویژگی های تاریخی با توجه به چرخه هفتگی استخراج کردیم. در همین حال، به دلیل کمیاب بودن اطلاعات سفر، داده های دسترسی به فواصل زمانی 30 دقیقه ای جمع آوری شدند. بنابراین، یک روز به 48 بازه زمانی تقسیم شد و ویژگی های ورودی از این اطلاعات برای پیش بینی زمان سفر در آینده استخراج شد. شکل 5 نمودار شماتیک جریان ترافیک در یک شبکه جاده جزئی از شکل 4 است.که شامل شماره جاده و جهت ترافیک می شود. در تحقیق خود، ما از مدل خود برای پیش‌بینی زمان سفر برای پیوند 82 با استفاده از همبستگی‌های مکانی-زمانی مشاهده‌شده در بین پیوند 82، پیوند 88 و پیوند 77 استفاده می‌کنیم. ما ویژگی‌های همبستگی مکانی-زمانی را از داده‌های بزرگ که منعکس‌کننده شرایط ترافیکی تاریخی جمع‌آوری‌شده توسط وسایل نقلیه کاوشگر از ژانویه تا می، 2014. سپس، داده های یازده هفته ای که دوره 5 می 2014 تا 20 ژوئیه 2014 را پوشش می دهد، به عنوان داده های آموزشی برای مدل STGBRT در نظر گرفته شد. در نهایت، یک هفته داده از 21 جولای 2014 (دوشنبه) تا 25 جولای 2014 (جمعه) به عنوان داده های آزمون برای تأیید اعتبار مدل در نظر گرفته شد.

جدول 5 ، جدول 6 و جدول 7 اطلاعات زمان سفر را از وسایل نقلیه کاوشگر که در همان جهت از ژانویه تا می 2014 حرکت می کنند، از نظر آمار توصیفی، از جمله میانگین، خلاصه می کنند. انحراف استاندارد (SD)؛ صدک های 25، 50 و 75; و حداقل (Min) و حداکثر (Max) مشاهدات. اطلاعات زمان سفر بر حسب ثانیه ثبت شد. از این سه جدول می توان استنباط کرد که چارک های سرعت برای یک پیوند برای هر روز مشابه است و تفاوت های روز به روز اندک است. در مقابل، تفاوت زیادی در سرعت در بین لینک های مختلف وجود دارد. شکل 6 ، شکل 7 و شکل 8توزیع سرعت های مشاهده شده را از لینک 88، لینک 82 و لینک 77 به ترتیب در روزهای دوشنبه و چهارشنبه نشان می دهد. دو هیستوگرام از یک پیوند، الگوهای مشابهی را با توزیع تقریباً نرمال نشان می‌دهند، اگر مقادیر غیرعادی نادیده گرفته شوند. با این حال، توزیع سرعت سفر تفاوت های جزئی را در بین پیوندهای مختلف نشان می دهد.

همانطور که در جدول 2 نشان داده شده است، با توجه به فاصله زمانی در لحظه جاری، خودهمبستگی زمانی در یک دوره زمانی سه مرحله ای در سطح اطمینان 0.01 در هنگام استفاده از آزمون دو طرفه معنی دار است. ضریب همبستگی با افزایش زمان تاخیر کاهش می یابد. هیچ ارتباطی برای تاخیرهای بیشتر از سه مرحله زمانی وجود ندارد. در نتیجه، بررسی خودهمبستگی زمانی خارج از یک دوره سه مرحله زمانی غیر ضروری است. بنابراین، ما اطلاعات جمع آوری شده در دو مرحله زمانی قبل از زمان فعلی را به عنوان ورودی مدل هنگام پیش بینی زمان سفر انتخاب کردیم. همانطور که در جدول 8 نشان داده شده است، چندین متغیر مکانی-زمانی را که مربوط به زمان سفر هستند به عنوان ورودی و خروجی مدل خود انتخاب کردیم.. 17 ستون اول متغیرهای ورودی مدل و ستون آخر متغیر خروجی است که تابعی از ورودی ها است. خروجی مدل زمان سفر واقعی در زمان تأخیر t است که با tarRTT _t نشان داده می شود و 17 متغیر ورودی که برای پیش بینی زمان سفر در زمان تأخیر t استفاده شده است به شرح زیر است: روز هفته، زمان روز، tarHTT _t-1 ، tarHTT _t-2 ، ΔtarHTT _t-1 ، tarRTT _t-1 ، tarRTT _t-2، ΔtarRTT _t-1 ، UpHTT _t-1 ، UpHTT _t-2 ، UpRTT _t-1 ، UpRTT _t-2،، DoHTT _t-1 ، DoHTT _t-2 ، ΔUpHTT _t-1 ، ΔUpRTT _t-1 و ΔDoHTT _t-1 . روزهای هفته از یک تا پنج نمایه می شوند که نشان دهنده دوشنبه تا جمعه است. زمان روز با مراحل زمانی 30 دقیقه ای نشان داده می شود _که از 1 تا 48 نمایه شده _است . ΔtarHTT _t-1 نرخ رشد زمان سفر تاریخی برای یک پیوند در دو بار متوالی است، همانطور که طبق رابطه (10) محاسبه می شود.tarRTT _t-1 و tarRTT _t-2 دو آخرین مشاهدات زمان سفر واقعی برای پیوند هدف در زمان‌های t-1 و t-2 هستند . ΔtarRTT _t-1 نرخ رشد زمان سفر واقعی برای پیوند بین دو مرحله زمانی متوالی است و طبق رابطه (11) محاسبه می شود. به همین ترتیب، UpHTT _t-1 و UpHTT _t-2 دو آخرین مشاهدات زمان سفر تاریخی پیوندهای بالادست در زمان های t-1 و t-2 هستند . UpRTT _t-1 و UpRTT _t-2دو آخرین مشاهدات زمان سفر واقعی از یک پیوند بالادست در زمان‌های t-1 و t-2 هستند. DoHTT _t-1 و DoHTT _t-2 دو آخرین مشاهدات زمان سفر تاریخی یک پیوند پایین دست در زمان های t-1 و t-2 هستند . به طور مشابه، ΔUpHTT _t-1 ، ΔUpRTT _t-1 ، و ΔDoHTT _t-1نرخ رشد زمان سفر تاریخی برای یک پیوند بالادستی، نرخ رشد زمان واقعی سفر برای یک پیوند بالادستی و نرخ رشد زمان سفر تاریخی برای پیوند پایین دستی بین دو مرحله زمانی متوالی است. این متغیرها بر اساس معادلات (12-14) محاسبه شدند. با توجه به فرکانس پایین اکتساب داده های GPS وسیله نقلیه کاوشگر و محدودیت های منطقه ای مناطق رانندگی، اطلاعات مسیر جمع آوری شده توسط یک واحد GPS وسیله نقلیه کاوشگر نمی تواند کل شبکه جاده های شهری را پوشش دهد. بنابراین، داده های جمع آوری شده پراکنده هستند [ 5 ، 6]. از طریق تجزیه و تحلیل، متوجه شدیم که داده‌های ما فاقد اطلاعات کافی برای سفر با وسیله نقلیه در بازه زمانی بین نیمه‌شب و ۵ صبح هستند، در مقابل، داده‌های سایر دوره‌های زمانی نسبتاً فراوان بودند. بنابراین، داده‌های ترافیک روزانه را برای دوره از ساعت 6 صبح و نیمه شب هر روز به عنوان دوره زمانی تحقیق انتخاب می‌کنیم. برای داده‌های بی‌درنگ از دست رفته در برخی بازه‌های زمانی آزمایشی، از اطلاعات سفر از داده‌های بزرگ که شرایط ترافیک تاریخی مربوط به دوره زمانی را منعکس می‌کند برای جبران داده‌های بی‌درنگ از دست رفته استفاده کردیم.

Δ tarHTT _t-1 = tarHTT _t-1 – tarHTT _t-2

(9)

Δ tarRTT _t-1 = tarRTT _t-1 – tarRTT _t-2

(10)

Δ UpHTT _t-1 = UpHTT _t-1 – UpHTT _t-2

(11)

Δ UpRTT _t-1 = UpRTT _t-1 – UpRTT _t-2

(12)

Δ DoHTT _t-1 = DoHTT _t-1 – DoHTT _t-2

(13)

4.2. نرم افزار مدل

برای به دست آوردن مدل بهینه، درک تأثیر ترکیبات پارامترهای مختلف بر عملکرد مدل بسیار مهم است. با در نظر گرفتن اطلاعات ورودی، پارامترهای ترکیبی بهینه مدل را برای دستیابی به خطای پیش‌بینی کمتر به دست آوردیم. این بخش نشان می دهد که چگونه عملکرد برای انتخاب های مختلف پارامترها متفاوت است. اینها شامل تعداد درخت N و نرخ یادگیری lr می‌شدکه هنگام استخراج ویژگی‌های مکانی-زمانی از پنج ماه اطلاعات زمان سفر جمع‌آوری‌شده بین ژانویه و مه 2014 استفاده شد. پنج روز بعد از داده های جمع آوری شده از دوشنبه، 21 ژوئیه 2014، تا جمعه، 25 ژوئیه 2014 به عنوان داده های آزمون در نظر گرفته شد. ما درخت رگرسیون شیب-زمانی تقویت‌شده مکانی (STGBRT) را با استفاده از تعداد درخت‌های مختلف (1-5000) و نرخ‌های یادگیری مختلف (0.01-1) به داده‌های آموزشی منعکس‌کننده ویژگی‌های مکانی-زمانی وسیله نقلیه استخراج‌شده از شبکه جاده‌های شهری برازش دادیم. برای ارزیابی عملکرد یک مدل STGBRT که پارامترهای مختلف را ترکیب می کند، میانگین درصد مطلق خطا (MAPE) را به عنوان یک شاخص معرفی کردیم. تعریف MAPE به شرح زیر است:

م A P E = 100 ٪ \times 1 n \sum i = 1 n | تی p v ، i - تی t r u e , i | تی t r u e , i

(15)

جایی که $t_{p v, i}$ نشان دهنده پیش بینی زمان سفر لینک برای وسیله نقلیه کاوشگر است که در زمان آینده به پیوند هدف سفر می کند و $t_{t r u e, i}$ زمان سفر لینک واقعی است.

برای مطالعه تأثیر تعداد درختان و میزان یادگیری بر دقت پیش‌بینی، آزمایش‌هایی را با استفاده از تعداد درختان مختلف انجام دادیم. شکل 9 و شکل 10 تأثیر پارامترهای مختلف از جمله تعداد درختان ( N ) و نرخ یادگیری ( lr ) را بر روی خطاهای پیش‌بینی زمان سفر پیوند با استفاده از MAPE نشان می‌دهند. در اینجا، پارامتر N تعداد درختان اصلی در مدل STGBRT و lr را نشان می دهدمیزان یادگیری را نشان می دهد. از لحاظ نظری، دقت پیش‌بینی بالاتری را می‌توان با افزایش تعداد درختان در مدل به دست آورد. با این حال، هنگامی که درختان بیش از حد وجود دارد، ممکن است بیش از حد برازش ایجاد شود. این تطابق بیش از حد بر دقت پیش‌بینی مدل زمانی که برای کاوش داده‌های زمان سفر وسیله نقلیه که در مجموعه داده آموزشی گنجانده نشده‌اند، اعمال می‌شود. در همان زمان، زمان محاسبات مدل با تعداد درختان اصلی موجود در مدل افزایش خواهد یافت. شکل 9 رابطه بین MAPE و N را تحت نرخ های مختلف یادگیری ترسیم می کند. پانل پایینی شکل 9بخشی از پانل بالایی را با جزئیات بیشتر نشان می دهد. همانطور که نشان داده شده است، MAPE با افزایش تعداد درختان رگرسیون، تا مقدار معینی کاهش می یابد. شیب منحنی های رسم شده با نرخ های مختلف یادگیری متفاوت است، lr . منحنی برای lr = 0.01 کمترین شیب را دارد زیرا سهم دقت پیش‌بینی هر درخت با نرخ یادگیری کوچک محدود می‌شود. با N = 300 به حداقل می رسد. منحنی های مربوط به نرخ های یادگیری بالاتر با سرعت بیشتری کاهش می یابند و با استفاده از درختان اصلی به سرعت به حداقل MAPE می رسند. به عنوان مثال، منحنی با lr = 0.5 و lr = 1 به ترتیب در N = 10 و N = 50 به حداقل می رسد . همانطور که می بینیم ازشکل 9 ، نرخ های یادگیری بالاتر مانند lr = 1، lr = 0.5، lr = 0.25، و lr = 0.2 بهترین عملکرد پیش بینی شده را با درختان رگرسیون نسبتا کمی به دست می آورند. اگر تعداد درختان رگرسیون از حدی فراتر رود، درختان بیش از حد ممکن است منجر به بیش از حد برازش شوند. در نتیجه، می‌توانیم با استفاده از درختان کافی، دقت پیش‌بینی را تضمین کنیم و در عین حال از تطبیق بیش از حد درختان با تعداد مناسب جلوگیری کنیم.

شکل 10 اثر نرخ یادگیری بر MAPE را نشان می دهد. MAPE با نرخ یادگیری متفاوت است به شرطی که تعداد درختان رگرسیون ثابت نگه داشته شود. پانل پایینی شکل 10 بخشی از پانل بالایی را با جزئیات بیشتر نشان می دهد. نرخ یادگیری برای تنظیم تأثیر هر درخت بر دقت پیش‌بینی مدل استفاده می‌شود. مقدار نرخ یادگیری از 0 تا 1 متغیر است. به طور کلی، مقادیر کوچکتر سهم هر درخت را در دقت مدل محدود می کند. معمولاً هنگام پیش‌بینی زمان سفر پیوند با نرخ‌های یادگیری کمتر، تکرارهای بیشتری لازم است. مقدار بهینه lrبا تعداد درختان مجموعه متفاوت است. اگر تعداد درختان رگرسیون 200 یا کمتر باشد، MAPE برای زمان سفر پیش بینی شده با افزایش نرخ یادگیری کاهش می یابد. در این حالت، MAPE با افزایش تعداد درختان رگرسیون در همان نرخ یادگیری کاهش می یابد. MAPE زمانی به حداقل می رسد که نرخ یادگیری برابر با 0.01 باشد و تعداد درختان رگرسیون از 200 بیشتر شود. با در نظر گرفتن N = 500 در شکل 10 به عنوان مثال، MAPE زمانی به حداقل می رسد که lr = 0.01 باشد.، در حالی که خطا با نرخ یادگیری افزایش می یابد. این نتیجه به این دلیل رخ می دهد که تعداد درختان رگرسیون کافی است. این مدل با نرخ یادگیری کوچکتر 0.01 به بالاترین دقت خود می رسد. نرخ یادگیری بالاتر منجر به عملکرد پیش بینی ضعیف تحت این شرایط شد.

شکل 11فلوچارتی را نشان می‌دهد که نحوه پیش‌بینی مدل GBRT زمان سفر پیوند را در حالی که اطلاعات مربوط به همبستگی‌های مکانی-زمانی را شامل می‌شود، نشان می‌دهد. بر اساس نتایج تجربی ما، می توانیم نتایج زیر را بدست آوریم. (1) نرخ یادگیری کوچکتر با درختان رگرسیون پایه بیشتر در مدل برای دقت پیش‌بینی، نسبت به نرخ یادگیری بزرگتر با درختان رگرسیون پایه کمتر برتری دارد. نرخ یادگیری کوچکتر سهم هر درخت را در دقت پیش‌بینی مدل کاهش می‌دهد و عملکرد پیش‌بینی بهینه را با نتایج پیش‌بینی مطمئن‌تر به دست می‌آورد. (2) لازم است بین دقت پیش‌بینی و زمان محاسباتی تعادل پیدا شود. یک نرخ یادگیری کوچک همراه با تعداد بیشتری از درختان رگرسیون پایه به زمان محاسباتی بیشتری برای رسیدن به عملکرد یکسان نیاز دارد. در حالی که دقت پیش‌بینی کمتر به زمان محاسبات کمتری نیاز دارد. در آزمایش ما، MAPE زمانی به حداقل رسید که نرخ یادگیری 0.01 و تعداد درختان رگرسیون 500 بود. در نتیجه، ما مدل STGBRT را با استفاده از آن پارامترها برای پیش‌بینی دقیق زمان سفر پیوند آموزش دادیم.

4.3. مقایسه مدل ها

برای آزمایش عملکرد روش درخت رگرسیون شیب-زمانی تقویت‌شده (STGBRT)، عملکرد پیش‌بینی‌کننده STGBRT را با میانگین متحرک یکپارچه خودرگرسیون [12]، جنگل تصادفی [ 54 ] و تقویت گرادیان [ 27] مقایسه کردیم.] روش ها بر حسب درصد خطای مطلق آنها (MAPE). روش تقویت گرادیان (GBM) همبستگی زمانی یک پیوند هدف را بدون توجه به تأثیر همبستگی فضایی یا کلان داده که شرایط ترافیکی تاریخی را در تخمین زمان سفر پیوند توصیف می‌کند، در نظر می‌گیرد. مدل میانگین متحرک یکپارچه اتورگرسیو (ARIMA) تعمیم مدل میانگین متحرک اتورگرسیو (ARMA) است و یکی از شناخته شده ترین روش ها برای پیش بینی پارامتر ترافیک است. این مدل برای درک بهتر داده‌ها یا پیش‌بینی نقاط آینده در سری‌های زمانی به داده‌های سری زمانی برازش داده می‌شود. ARIMA در مواردی استفاده می شود که داده ها شواهدی از غیر ثابت بودن را نشان می دهند. سری های زمانی غیر ثابت را به سری های زمانی ثابت تبدیل می کند. مدل با استفاده از متغیر وابسته، مقدار تاخیر آن، ساخته شده است. و مقدار فعلی خطای تصادفی؛ پیش بینی های ARIMA بر اساس رگرسیون داده های فعلی و گذشته است. مدل‌های غیرفصلی ARIMA معمولاً به صورت ARIMA (p, d, q) نشان داده می‌شوند که در آن پارامترهای p, d و q اعداد صحیح غیر منفی هستند، p مرتبه مدل خودرگرسیون، d درجه تفاضل و q است. ترتیب مدل میانگین متحرک بهینه سازی مدل ARIMA شامل انتخاب سفارش و تخمین پارامتر است. اطلاعات دقیق در زمینه پیشینه نظری زیربنای ARIMA، و مراحل مربوط به برازش یک مدل ARIMA را می توان در ادبیات پیدا کرد [ d درجه تفاضل و q ترتیب مدل میانگین متحرک است. بهینه سازی مدل ARIMA شامل انتخاب سفارش و تخمین پارامتر است. اطلاعات دقیق در زمینه پیشینه نظری زیربنای ARIMA، و مراحل مربوط به برازش یک مدل ARIMA را می توان در ادبیات پیدا کرد [ d درجه تفاضل و q ترتیب مدل میانگین متحرک است. بهینه سازی مدل ARIMA شامل انتخاب سفارش و تخمین پارامتر است. اطلاعات دقیق در زمینه پیشینه نظری زیربنای ARIMA، و مراحل مربوط به برازش یک مدل ARIMA را می توان در ادبیات پیدا کرد [55 ]. روش جنگل تصادفی (RF) یکی دیگر از روش‌های گروهی پرکاربرد است که بسط آن توسط لئو بریمن [ 54 ] توسعه داده شد و با روش درخت رگرسیون تقویت‌شده گرادیان متفاوت است.

برای مقایسه این چهار روش برای پیش‌بینی زمان سفر لینک، داده‌های آماری جمع‌آوری‌شده توسط وسایل نقلیه کاوشگر که از شبکه جاده‌ای منطقه‌ای در ووهان در روزهای هفته، دوشنبه تا جمعه، به‌جز تعطیلات، از ژانویه تا مه 2014 عبور می‌کنند، جمع‌آوری کردیم. ویژگی‌های مکانی و زمانی پیوندها را در داخل استخراج کردیم. شبکه. داده های 21 ژوئیه 2014 تا 22 ژوئیه 2014 به عنوان داده های آزمون برای مقایسه عملکرد پیش بینی در بین چهار مدل (STGBRT، GBM، RF، و ARIMA) استفاده شد. دقت پیش‌بینی این چهار مدل بر اساس پیش‌بینی‌های آنها یک و دو مرحله زمانی (یعنی 30 و 60 دقیقه) پس از زمان کنونی مقایسه شد. آزمایش مورد بحث در بخش 4.2نشان داد که MAPE مدل STGBRT زمانی به حداقل مقدار دست یافت که نرخ یادگیری روی 01/0 و تعداد درخت های رگرسیون پایه 500 تنظیم شد. به ترتیب. برای GBM و ARIMA، ما ترکیبات مختلفی از متغیرها را در طول فرآیند آموزش آزمایش کردیم و پارامترهایی را انتخاب کردیم که حداقل مقادیر MAPE را به دست آوردند.

ما از داده‌های بزرگ ترافیکی که بیانگر شرایط ترافیکی تاریخی از ژانویه تا مه در سال 2014 بود و داده‌های واقعی به‌دست‌آمده از 11 هفته بین 5 مه 2014 و 20 ژوئیه 2014 به عنوان داده‌های آموزشی استفاده کردیم. ما از داده های دو روزه (21 و 22 ژوئیه 2014) به عنوان داده های آزمایشی برای مقایسه عملکرد پیش بینی بین STGBRT، GBM و ARIMA استفاده کردیم. نمودارهای خطی در شکل 12 و شکل 13تفاوت بین پیش بینی های انجام شده 30 دقیقه و یک ساعت جلوتر از چهار مدل به ترتیب در 21 ژوئیه 2014 و 22 جولای 2014 را نشان می دهد. خط آبی در دو شکل نشان‌دهنده زمان سفر واقعی پیوند است، در حالی که خط قرمز نشان‌دهنده نتایج پیش‌بینی از مدل STGBRT، خط سبز نشان‌دهنده نتایج پیش‌بینی از GBM، خط نارنجی نشان‌دهنده پیش‌بینی از RM و خط بنفش نشان‌دهنده پیش‌بینی نتایج از GBM است. نتایج پیش‌بینی از مدل ARIMA. همانطور که نشان داده شده است، مدل STGBRT و مدل GBM بیشترین تناسب را با زمان سفر لینک واقعی دارند. ARIMA کمترین تطابق را با زمان سفر پیوند واقعی در بین چهار مدل ارائه کرد. تحت شرایط یکسان، پیش‌بینی‌های STGBRT از روش جنگل تصادفی در آزمایش‌های ما بهتر است، همانطور که در شکل 12 ، شکل 13 نشان داده شده است.و شکل 14 . شکل 14 مقایسه ای از مقادیر MAPE را برای عملکرد این چهار مدل برای پیش بینی های انجام شده 30 دقیقه و یک ساعت جلوتر نشان می دهد. همانطور که در شکل 14 نشان داده شده است ، نتایج پیش‌بینی STGBRT از سه مدل دیگر بهتر بود. MAPE برای STGBRT (7.43٪) نسبت به مقادیر MAPE مربوط به پیش بینی های نیم ساعته برای GBM، RF و ARIMA که به ترتیب 9.37٪، 15.83٪ و 33.79٪ بود، برتر بود. در همان زمان، عملکرد پیش‌بینی نیم ساعته STGBRT نسبت به پیش‌بینی یک ساعته (9.49 درصد) مقدار MAPE به‌طور قابل‌توجهی (7.43 درصد) بهتر بود. شکل 15انحراف استاندارد پیش‌بینی‌های انجام شده 30 دقیقه و یک ساعت جلوتر توسط چهار مدل برای 21 جولای 2014 و 22 جولای 2014 را نشان می‌دهد . شکل 16 عملکرد محاسباتی مدل های مختلف را در شرایط یکسان نشان می دهد، یعنی با استفاده از داده های آموزشی و پیش بینی یکسان. شکل نشان می دهد که STGBRT، GBM، و RF به مقادیر مشابهی از زمان محاسباتی نیاز دارند: به ترتیب 5.09 ثانیه، 5.73 ثانیه و 5.24 ثانیه. مدل ARIMA به کمترین زمان محاسباتی نیاز دارد. با این حال، عملکرد پیش‌بینی ضعیفی در مقایسه با سه مدل دیگر داشت، همانطور که در شکل 14 نشان داده شده است.. آزمایش Wilcoxon نشان داد که تفاوت‌های بین زمان سفر پیوند واقعی و نتایج مدل‌های STGBRT، GBM و RF به‌جز پیش‌بینی‌هایی که یک ساعت جلوتر توسط مدل RF برای 21 ژوئیه 2014 انجام شد، به طور متقارن در حدود صفر توزیع شده‌اند. با این حال، تفاوت‌ها بین زمان سفر پیوند واقعی و مقادیر پیش‌بینی‌شده از ARIMA به‌جز پیش‌بینی‌هایی که یک ساعت جلوتر برای 22 ژوئیه 2014 انجام شده است، به طور متقارن در حدود صفر توزیع نمی‌شوند. بنابراین، مدل‌های STGBRT، GBM، و RF پیش‌بینی‌های بهتری نسبت به مدل ARIMA ارائه می‌دهند. شکل 17 پنج روز (دوشنبه، 21 ژوئیه 2014 تا جمعه، 25 ژوئیه 2014) زمان پیش بینی شده سفر لینک را از مدل STGBRT نشان می دهد. خط آبی نشان دهنده زمان سفر لینک واقعی و خط قرمز نشان دهنده زمان سفر لینک پیش بینی شده است. جدول 9مقادیر MAPE را برای پیش بینی زمان سفر به دست آمده از مدل STGBRT از دوشنبه تا جمعه نشان می دهد. مدل STGBRT دارای مقادیر MAPE بالایی بود. شکل 17 روندهای کلی را نشان می دهد و همچنین اینکه مدل ها تا چه اندازه تغییرات ناگهانی در زمان سفر را به خوبی ثبت کرده اند. به عنوان مثال، در 21 ژوئیه 2014 (پانل بالای شکل 17 )، مدل STGBRT تغییرات را به‌ویژه در ساعات شلوغی صبحگاهی که احتمال وقوع ازدحام وجود دارد، به خوبی ثبت کرد. از نظر تئوری، مدل STGBRT می‌تواند تعاملات پیچیده بین متغیرهای ورودی را مدیریت کند و می‌تواند روابط غیرخطی پیچیده موجود در سیستم‌های ترافیک پویا را برای عملکرد پیش‌بینی برتر مطابقت دهد.

5. بحث و نتیجه گیری

مدل GBRT دارای ویژگی هایی است که آن را از روش های مجموعه سنتی متمایز می کند، مانند رویکردهای جنگل تصادفی و درختان کیسه ای و همچنین رویکردهای آماری کلاسیک. مدل GBRT درختان را به طور متوالی با تنظیم وزن توزیع داده های آموزشی در جهت “تندترین نزول” رشد می دهد تا عملکرد تلفات را به حداقل برساند. این سوگیری مدل را از طریق مدل سازی گام به گام رو به جلو کاهش می دهد و از طریق میانگین گیری واریانس را کاهش می دهد. با این حال، روش پیشنهادی ما، مدل پیش‌بینی زمان سفر مبتنی بر STGBRT، مزایای قابل‌توجهی نسبت به مدل سنتی GBRT دارد. روش پیشنهادی نه تنها از روش “شیب‌ترین نزول” استفاده می‌کند، بلکه همبستگی مکانی-زمانی بین پیوند هدف و پیوندهای مجاور در داده‌های آموزشی را نیز در بر می‌گیرد. بنابراین، عملکرد بالاتری نسبت به GBM، ARIMA،

تا آنجا که نویسندگان می‌دانند، مطالعات کمی وجود دارد که روش STGBRT را در زمینه پیش‌بینی زمان سفر مورد بحث قرار می‌دهد و کار کمی روی کاربرد روش STGBRT برای تخمین زمان سفر پیوند شهری انجام شده است. مدل STGBRT می‌تواند ناپیوستگی‌های ناگهانی را که یکی از مشخصه‌های مهم جریان‌های ترافیکی است، ثبت کند، با توجه به اینکه ترافیک به سرعت از بدون تراکم به شلوغ و بالعکس تغییر می‌کند. مهمتر از آن، مدل STGBRT ویژگی‌های مکانی-زمانی ترافیک، نه تنها جریان‌های ترافیک فعلی، بلکه در رابطه با داده‌های ترافیک تاریخی را نیز در نظر می‌گیرد. این نه تنها ویژگی های ترافیک لینک هدف را در نظر می گیرد، بلکه از اطلاعات ویژگی های پیوند ترافیک مجاور نیز بهره برداری می کند. برخلاف الگوریتم‌های یادگیری ماشین سنتی که اغلب به عنوان «جعبه‌های سیاه» در نظر گرفته می‌شوند. تعداد درختان رگرسیون پایه و نرخ یادگیری در STGBRT پارامترهایی هستند که قابل تجزیه و تحلیل و تنظیم هستند. در مقایسه با روش‌های GBM و ARIMA، روش STGBRT ویژگی‌های مکانی-زمانی را در نظر می‌گیرد و نسبت به مدل‌های آماری معمولی برتری دارد.

بهینه سازی پارامتر یک جنبه مهم برای پیش بینی زمان سفر لینک با استفاده از مدل STGBRT است. درست مانند بهینه سازی مدل، عملکرد مدل STGBRT به طور قابل ملاحظه ای تحت تأثیر پارامترهای آن، از جمله تعداد درختان رگرسیون، نرخ یادگیری، و پیچیدگی درخت است. بنابراین لازم است ترکیب بهینه متغیرها هنگام استفاده از مدل STGBRT پیدا شود. زمان محاسبه یکی دیگر از مسائل مهم در افزایش تعداد و پیچیدگی درختان رگرسیون است. در نتیجه، باید افزایش زمان محاسبه را با دقت مدل سنجید.

مدل STGBRT دارای مزایای مشخصی از نظر پیش‌بینی زمان سفر جریان آزاد است. با توجه به توسعه این فناوری های پیشرفته، این امکان برای ما وجود دارد که مقادیر زیادی از داده های ترافیکی مختلف را از حسگرهای جاده، تلفن های هوشمند و دستگاه های GPS جمع آوری کنیم. با گذشت زمان، اطلاعات ترافیکی بیشتری را می توان جمع آوری کرد و برای مطالعه پدیده های ترافیکی استفاده کرد. بنابراین، پیدا کردن مدلی که بتواند روابط پیچیده را هنگام ترکیب داده های بزرگ ناهمگن نشان دهد، بسیار مهم است. مدل STGBRT می‌تواند به روابط غیرخطی پیچیده رسیدگی کند و آن را به یک الگوریتم امیدوارکننده برای پیش‌بینی زمان سفر تبدیل کند. دقت روش مدل‌سازی پیشنهادی به اندازه‌ای است که می‌توان آن را در سیستم‌های حمل‌ونقل هوشمند برای پیش‌بینی زمان سفر لینک یا پیش‌بینی زمان سفر در زمان واقعی اعمال کرد. همچنین می توان آن را به پیش بینی جریان ترافیک تعمیم داد. با این حال، این مدل در حال حاضر فقط همبستگی های فضایی مرتبه اول پیوندهای هدف را در نظر می گیرد. تحقیقات بیشتر سطوح مرتبه دوم و بالاتری از همبستگی را برای ثبت دقیق تر پویایی ترافیک ترکیب می کند. مسئله دیگری که باید به آن توجه شود کمبود داده است. وقتی داده‌های ترافیکی تاریخی و بی‌درنگ برای یک زمان وجود ندارد، این مدل نمی‌تواند سفر پیوند را پیش‌بینی کند. این مشکل موضوع مهمی است که در آینده به بررسی آن خواهیم پرداخت. نتایج تجربی ما بر اساس بخش‌های جاده‌ای خاص است. ما در آینده آزمایشات خود را به سایر بخش های جاده گسترش خواهیم داد. تحقیقات بیشتر سطوح مرتبه دوم و بالاتری از همبستگی را برای ثبت دقیق تر پویایی ترافیک ترکیب می کند. مسئله دیگری که باید به آن توجه شود کمبود داده است. وقتی داده‌های ترافیکی تاریخی و بی‌درنگ برای یک زمان وجود ندارد، این مدل نمی‌تواند سفر پیوند را پیش‌بینی کند. این مشکل موضوع مهمی است که در آینده به بررسی آن خواهیم پرداخت. نتایج تجربی ما بر اساس بخش‌های جاده‌ای خاص است. ما در آینده آزمایشات خود را به سایر بخش های جاده گسترش خواهیم داد. تحقیقات بیشتر سطوح مرتبه دوم و بالاتری از همبستگی را برای ثبت دقیق تر پویایی ترافیک ترکیب می کند. مسئله دیگری که باید به آن توجه شود کمبود داده است. وقتی داده‌های ترافیکی تاریخی و بی‌درنگ برای یک زمان وجود ندارد، این مدل نمی‌تواند سفر پیوند را پیش‌بینی کند. این مشکل موضوع مهمی است که در آینده به بررسی آن خواهیم پرداخت. نتایج تجربی ما بر اساس بخش‌های جاده‌ای خاص است. ما در آینده آزمایشات خود را به سایر بخش های جاده گسترش خواهیم داد. نتایج تجربی ما بر اساس بخش‌های جاده‌ای خاص است. ما در آینده آزمایشات خود را به سایر بخش های جاده گسترش خواهیم داد. نتایج تجربی ما بر اساس بخش‌های جاده‌ای خاص است. ما در آینده آزمایشات خود را به سایر بخش های جاده گسترش خواهیم داد.

منابع

لیو، ک. یاماموتو، تی. Morikawa, T. امکان سنجی استفاده از سیستم اعزام تاکسی به عنوان کاوشگر برای جمع آوری اطلاعات ترافیک. جی. اینتل. ترانسپ سیستم تکنولوژی طرح. اپراتور 2009 ، 13 ، 16-27. [ Google Scholar ] [ CrossRef ]
وانگ، ی. ژنگ، ی. Xue, Y. تخمین زمان سفر یک مسیر با استفاده از مسیرهای پراکنده. در مجموعه مقالات بیستمین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، نیویورک، نیویورک، ایالات متحده آمریکا، 24 تا 27 اوت 2014.
تخمین و پیش‌بینی زمان سفر لینک برای ترانک شهری و خیابان ثانویه لی، جی. دکتری پایان نامه، دانشگاه جیلین، جیلین، چین، 2012. [ Google Scholar ]
یائو، ای جی. Zuo، T. الگوریتم تطبیق نقشه بلادرنگ بر اساس داده‌های خودروی کاوشگر با نرخ نمونه‌برداری پایین. پکن J. دانشگاه پکن. فنی 2012 ، 39 ، 909-913. [ Google Scholar ]
ژنگ، ی. لیو، ی. یوان، جی. Xie, X. محاسبات شهری با تاکسی. در مجموعه مقالات سیزدهمین کنفرانس بین المللی محاسبات همه جا حاضر، پکن، چین، 17 تا 21 سپتامبر 2011.
ژنگ، ی. لیو، اف. Hsieh، HP U-Air: زمانی که استنتاج کیفیت هوای شهری با داده های بزرگ روبرو می شود. در مجموعه مقالات نوزدهمین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، سیدنی، استرالیا، 10 تا 13 اوت 2013.
Min، W. Wynter، L. پیش‌بینی ترافیک جاده‌ای در زمان واقعی با همبستگی‌های مکانی-زمانی. ترانسپ Res. قسمت C Emerg. تکنولوژی 2011 ، 19 ، 606-616. [ Google Scholar ] [ CrossRef ]
فی، ایکس. لو، سی سی; لیو، ک. رویکرد مدل خطی پویا بیزی برای پیش‌بینی زمان سفر کوتاه‌مدت آزادراه. ترانسپ Res. قسمت C Emerg. تکنولوژی 2011 ، 19 ، 1306-1318. [ Google Scholar ] [ CrossRef ]
لی، ال. لی، ی. Li، Z. داده های گمشده کارآمد برای جریان ترافیک با در نظر گرفتن وابستگی زمانی و مکانی. ترانسپ Res. قسمت C Emerg. تکنولوژی 2013 ، 34 ، 108-120. [ Google Scholar ] [ CrossRef ]
حقانی، ع. حامدی، م. جمع‌آوری داده‌های حقیقت زمینی زمان سفر آزادراه سعدآبادی، KF با استفاده از سنسورهای بلوتوث. J. Transp. Res. هیئت 2010 ، 2160 ، 60-68. [ Google Scholar ] [ CrossRef ]
ویلیامز، بی. دورواسولا، پ. براون، دی. پیش‌بینی جریان ترافیک آزادراه شهری: استفاده از مدل‌های میانگین متحرک یکپارچه و هموارسازی نمایی فصلی. ترانسپ Res. ضبط J. Transp. Res. هیئت 1998 ، 1644 ، 132-141. [ Google Scholar ] [ CrossRef ]
اسمیت، بی. دمتسکی، ام. پیش‌بینی جریان ترافیک: مقایسه رویکردهای مدل‌سازی. J. Transp. مهندس 1997 ، 123 ، 261-266. [ Google Scholar ] [ CrossRef ]
وانگ، جی. شی، کیو. مدل ترکیبی پیش‌بینی سرعت ترافیک کوتاه‌مدت بر اساس تئوری ماشین برداری آشوب-تحلیل موجک-حمایت. ترانسپ Res. قسمت C Emerg. تکنولوژی 2012 ، 27 ، 219-232. [ Google Scholar ] [ CrossRef ]
وی، ی. چن، MC پیش بینی جریان کوتاه مدت مسافران مترو با تجزیه حالت تجربی و شبکه های عصبی. ترانسپ Res. قسمت C Emerg. تکنولوژی 2012 ، 21 ، 148-162. [ Google Scholar ] [ CrossRef ]
لی، ال. چن، ایکس. لی، ز. Zhang، L. تخمین زمان سفر آزادراه بر اساس مدل صف زمانی-مکانی. IEEE Trans. هوشمند ترانسپ سیستم 2013 ، 14 ، 1536-1541. [ Google Scholar ] [ CrossRef ]
ژانگ، ی. ژانگ، ی. حقانی، ع. روش ترکیبی پیش‌بینی کوتاه‌مدت جریان ترافیک مبتنی بر تحلیل طیفی و مدل نوسانات آماری. ترانسپ Res. قسمت C Emerg. تکنولوژی 2014 ، 43 ، 65-78. [ Google Scholar ] [ CrossRef ]
مونتگومری، دی سی؛ جنینگز، CL; کلاهچی، م. مقدمه ای بر تحلیل و پیش بینی سری های زمانی ; جان وایلی و پسران: هوبوکن، نیوجرسی، ایالات متحده آمریکا، 2015. [ Google Scholar ]
پیش‌بینی جریان ترافیک هنگ، WC توسط SVR فصلی با الگوریتم بازپخت شبیه‌سازی‌شده آشفته. محاسبات عصبی 2011 ، 74 ، 2096-2107. [ Google Scholar ] [ CrossRef ]
ون هینسبرگن، سی. ون لینت، جی. ون زویلن، کمیته شبکه های عصبی اچ بیزی برای پیش بینی زمان سفر با فواصل اطمینان. ترانسپ Res. قسمت C Emerg. تکنولوژی 2009 ، 17 ، 498-509. [ Google Scholar ] [ CrossRef ]
آنتونیو، سی. کوتسوپولوس، HN; Yannis, G. تخمین و پیش‌بینی وضعیت ترافیک محلی مبتنی بر داده‌های پویا. ترانسپ Res. قسمت C Emerg. تکنولوژی 2013 ، 34 ، 89-107. [ Google Scholar ] [ CrossRef ]
ولاهوگیانی، EI; Karlaftis، MG; گلیاس، جی سی پیش بینی ترافیک کوتاه مدت: کجا هستیم و به کجا می رویم. ترانسپ Res. قسمت C Emerg. تکنولوژی 2014 ، 43 ، 3-19. [ Google Scholar ] [ CrossRef ]
روش‌های گروه ژو، ZH : مبانی و الگوریتم‌ها . CRC Press: Boca Raton، FL، USA، 2012. [ Google Scholar ]
همنر، ب. پیش‌بینی زمان سفر با جنگل‌های تصادفی وابسته به بافت با مدل‌سازی جریان ترافیک محلی و کل. در مجموعه مقالات ICDMW 2010، سیدنی، استرالیا، 14-17 دسامبر 2010.
Wang, Y. پیش‌بینی آب و هوا بر ظرفیت فرودگاه با استفاده از یادگیری گروهی. در مجموعه مقالات کنفرانس سیستم های اویونیک دیجیتال (DASC) 2011، ساکرامنتو، کالیفرنیا، ایالات متحده آمریکا، 25-29 سپتامبر 2011.
احمد، م.م. Abdel-Aty، M. کاربرد تکنیک تقویت گرادیان تصادفی برای افزایش قابلیت اطمینان ارزیابی ریسک بلادرنگ. ترانسپ Res. ضبط J. Transp. Res. هیئت 2013 ، 2386 ، 26-34. [ Google Scholar ] [ CrossRef ]
چانگ، پیچیدگی عامل YS وقوع تصادف: یک نمایش تجربی با استفاده از درختان رگرسیون تقویت شده. اسید. مقعدی قبلی 2013 ، 61 ، 107-118. [ Google Scholar ] [ CrossRef ] [ PubMed ]
ژانگ، ی. حقانی، ع. روش افزایش گرادیان برای بهبود پیش‌بینی زمان سفر. ترانسپ Res. قسمت C Emerg. تکنولوژی 2015 . [ Google Scholar ] [ CrossRef ]
Polikar, R. سیستم های مبتنی بر گروه در تصمیم گیری. IEEE Circ. سیستم Mag. 2006 ، 6 ، 21-45. [ Google Scholar ] [ CrossRef ]
لایستنر، سی. صفاری، ع. سانتنر، جی. بیشوف، اچ. جنگل های تصادفی نیمه نظارت شده. در مجموعه مقالات دوازدهمین کنفرانس بین المللی IEEE در بینایی کامپیوتر، پورتو، پرتغال، 27 فوریه تا 1 مارس 2009.
استروبل، سی. مالی، جی. توتز، جی. مقدمه‌ای بر پارتیشن‌بندی بازگشتی: منطق، کاربرد و ویژگی‌های درختان طبقه‌بندی و رگرسیون، کیسه‌بندی و جنگل‌های تصادفی. روانی روش. 2009 ، 14 ، 323-348. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
هستی، تی. طبشیرانی، ر. فریدمن، جی. یادگیری بدون نظارت. در عناصر یادگیری آماری ; Springer: برلین/هامبورگ، آلمان، 2009; صص 485-585. [ Google Scholar ]
Quinlan، JR القای درختان تصمیم. ماخ فرا گرفتن. 1986 ، 1 ، 81-106. [ Google Scholar ] [ CrossRef ]
رویز، ر. Stützle, T. یک الگوریتم حریص تکراری ساده و موثر برای مسئله زمان‌بندی جریان جابجایی. یورو J. Operat. Res. 2007 ، 177 ، 2033-2049. [ Google Scholar ] [ CrossRef ]
بریمن، ال. آرسینگ لبه. گزارش فنی 486; گروه آمار، دانشگاه کالیفرنیا در برکلی: برکلی، کالیفرنیا، ایالات متحده آمریکا، 1997. [ Google Scholar ]
تقریب تابع فریدمن، JH Greedy: یک ماشین تقویت کننده گرادیان. سالانه. آمار 2001 ، 1189-1232. [ Google Scholar ] [ CrossRef ]
فریدمن، تقویت گرادیان تصادفی JH. محاسبه کنید. آمار داده آنال. 2002 ، 38 ، 367-378. [ Google Scholar ] [ CrossRef ]
میسون، ال. باکستر، جی. بارتلت، PL; فرین، ام. الگوریتم‌های تقویت به عنوان نزول گرادیان در فضای تابع. در مجموعه مقالات NIPS 1999، دنور، CO، ایالات متحده آمریکا، 29 نوامبر تا 4 دسامبر 1999.
ناتکین، ع. Knoll، A. ماشین های تقویت گرادیان، یک آموزش. جلو. ربات عصبی. 2013 . [ Google Scholar ] [ CrossRef ] [ PubMed ]
سوپر، HE; جوان، AW; غار، BM; لی، ا. پیرسون، ک. در مورد توزیع ضریب همبستگی در نمونه های کوچک. ضمیمه II به مقالات “Student” و RA Fisher. Biometrika 1917 ، 11 ، 328-413. [ Google Scholar ]
جعبه، جی. جنکینز، جی. تجزیه و تحلیل سری زمانی: پیش بینی و کنترل . Holden-Day: سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 1970. [ Google Scholar ]
موری، یو. مندیبورو، ا. آلوارز، م. Lozano, JA مروری بر تخمین و پیش‌بینی زمان سفر برای سیستم‌های پیشرفته اطلاعات مسافران. ترانسپ ترانسپ. علمی 2015 ، 11 ، 119-157. [ Google Scholar ] [ CrossRef ]
فوکو، سی. Bonnifait, P. تطبیق اندازه‌گیری‌های GPS خام روی نقشه قابل کشتی‌رانی بدون محاسبه موقعیت جهانی. IEEE Trans. هوشمند ترانسپ سیستم 2012 ، 13 ، 887-898. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
چن، توسط; یوان، اچ. لی، کیو. لام، WH; شاو، اس ال. Yan, K. الگوریتم تطبیق نقشه برای داده‌های ماشین شناور با فرکانس پایین در مقیاس بزرگ. بین المللی جی. جئوگر. Inf. علمی 2014 ، 28 ، 22-38. [ Google Scholar ] [ CrossRef ]
یوان، جی. ژنگ، ی. ژانگ، سی. Xie، X. Sun، GZ الگوریتم تطبیق نقشه مبتنی بر رای گیری تعاملی. در مجموعه مقالات یازدهمین کنفرانس بین المللی مدیریت داده های تلفن همراه، کانزاس سیتی، MI، ایالات متحده آمریکا، 23-26 مه 2010.
ژانگ، ی. یانگ، بی. Luan، X. تطبیق خودکار شبکه های جاده شهری با استفاده از آرامش احتمالی. Acta Geod. کاتوگر گناه 2012 ، 41 ، 933-939. [ Google Scholar ]
لی، کیو. هو، بی. Yue, Y. تطبیق نقشه داده های ماشین جریان بر اساس الگوریتم کوتاه ترین مسیر محدود. Geomat. Inf. علمی دانشگاه ووهان 2013 ، 7 ، 805-808. [ Google Scholar ]
یو، دی ایکس؛ گائو، XY؛ یانگ، ZS برآورد زمان سفر خودرو بر اساس داده های GPS و تجزیه و تحلیل ویژگی های در حال حرکت خودرو. J. Jilin Univ. 2010 ، 40 ، 965-970. (به زبان چینی). [ Google Scholar ]
دونگ، اچ. Wu, F. برآورد میانگین زمان سفر پیوند با استفاده از میانگین C فازی. گاو نر علمی تکنولوژی 2011 ، 27 ، 426-430. [ Google Scholar ]
جیانگ، جی. چانگ، آ. ژانگ، دبلیو. مقایسه روش‌های تخمین زمان سفر پیوند بر اساس ماشین شناور مجهز به GPS. J. Jilin Univ. 2009 ، 39 ، 182-186. (به زبان چینی). [ Google Scholar ]
لیو، ی. کانگ، سی. گائو، اس. شیائو، ی. Tian, Y. درک الگوهای سفر درون شهری از داده های مسیر تاکسی. جی. جئوگر. سیستم 2012 ، 14 ، 463-483. [ Google Scholar ] [ CrossRef ]
لیو، ایکس. گونگ، ال. گونگ، ی. لیو، ی. افشای الگوهای سفر و ساختار شهر با داده‌های سفر تاکسی. J. Transp. Geogr. 2013 ، 43 ، 78-90. [ Google Scholar ] [ CrossRef ]
ژانگ، اف. زو، ایکس. گوو، دبلیو. بله، X. هو، تی. Huang, L. تجزیه و تحلیل الگوهای تحرک انسانی شهری از طریق یک مدل موضوعی در مقیاس دقیق تر. ISPRS Int. J. Geo-Inf. 2016 . [ Google Scholar ] [ CrossRef ]
نیش، ز. لی، کیو. Shaw, SL در مورد افراد در مسیریابی عابر پیاده چطور؟ ژئو اسپات. Inf. علمی 2015 ، 18 ، 135-150. [ Google Scholar ] [ CrossRef ]
بریمن، L. جنگل های تصادفی. یادگیری ماشینی 2001 ، 45 ، 5-32. [ Google Scholar ] [ CrossRef ]
Tsay، تجزیه و تحلیل RS سری زمانی مالی ؛ جان وایلی و پسران: نیویورک، نیویورک، ایالات متحده آمریکا، 2005. [ Google Scholar ]

شکل 1. درخت رگرسیون منفرد.

شکل 2. ضریب همبستگی بین پیوند 77، پیوند 82 و پیوند 88.

شکل 3. نمودار شماتیک پیش بینی زمان سفر.

شکل 4. تجسم شبکه راه محلی در شهر ووهان، چین.

شکل 5. نمودار شماتیک جریان ترافیک.

شکل 6. توزیع سرعت های مشاهده شده در امتداد پیوند 88 به ترتیب در روزهای دوشنبه و چهارشنبه.

شکل 7. توزیع سرعت های مشاهده شده در امتداد پیوند 82 به ترتیب در روزهای دوشنبه و چهارشنبه.

شکل 8. توزیع سرعت های مشاهده شده در امتداد پیوند 77 به ترتیب در روزهای دوشنبه و چهارشنبه.

شکل 9. رابطه بین MAPE و تعداد درختان مورد استفاده.

شکل 10. نمودار خطی که اثر نرخ یادگیری را بر MAPE نشان می دهد.

شکل 11. فلوچارت که روش استفاده شده توسط مدل GBRT را برای پیش بینی زمان سفر پیوند نشان می دهد.

شکل 12. مقایسه پیش بینی های انجام شده 30 دقیقه و یک ساعت جلوتر برای چهار مدل، با استفاده از داده های 21 ژوئیه 2014. ( الف ) مقایسه پیش بینی های انجام شده 30 دقیقه جلوتر. ( ب ) مقایسه پیش‌بینی‌هایی که یک ساعت قبل انجام شده است.

شکل 13. مقایسه پیش بینی های انجام شده 30 دقیقه و یک ساعت جلوتر برای چهار مدل، با استفاده از داده های 22 ژوئیه 2014. ( الف ) مقایسه پیش بینی های انجام شده 30 دقیقه جلوتر. ( ب ) مقایسه پیش‌بینی‌هایی که یک ساعت قبل انجام شده است.

شکل 14. مقایسه MAPE ها برای پیش بینی های انجام شده 30 دقیقه و یک ساعت جلوتر، تولید شده توسط STGBRT، GBM، و ARIMA. ( الف ) مقایسه MAPE ها برای پیش بینی های انجام شده 30 دقیقه جلوتر. ( ب ) مقایسه MAPE ها برای پیش بینی های انجام شده یک ساعت قبل.

شکل 15. مقایسه انحراف استاندارد پیش بینی های انجام شده 30 دقیقه و یک ساعت جلوتر، ایجاد شده توسط STGBRT، GBM، و ARIMA. ( الف ) مقایسه انحرافات استاندارد پیش بینی های انجام شده 30 دقیقه جلوتر. ( ب ) مقایسه انحرافات استاندارد پیش بینی های انجام شده یک ساعت قبل.

شکل 16. زمان محاسباتی مورد نیاز STGBRT، GBM، RF و ARIMA.

شکل 17. نتایج پیش بینی زمان سفر از مدل STGBRT از دوشنبه تا جمعه. ( الف ) دوشنبه؛ ( ب ) سه شنبه؛ ج ) چهارشنبه ؛ ( د ) پنجشنبه؛ ( ه ) جمعه.

جدول 1. ضریب همبستگی سرعت مورد انتظار در جهت معین در زمان های مختلف بین لینک هدف 82، لینک مجاور 77 و لینک مجاور 88.

جدول 2. خودهمبستگی زمانی پیوند 82 برای زمان های تاخیر مختلف نسبت به زمان خاص t.

جدول 3. شبکه راه شریانی انتخابی مورد استفاده در آزمایش.

جدول 4. اطلاعات سفر از وسایل نقلیه کاوشگر منفرد.

جدول 5. آمار اولیه سرعت سفر (m/s) برای لینک 88.

جدول 6. آمار اولیه سرعت سفر (m/s) در مورد لینک 82.

جدول 7. آمار اولیه سرعت سفر (m/s) در مورد لینک 77.

جدول 8. ردیف های نمونه از مجموعه داده های آموزش و آزمایش (یعنی ورودی ها و خروجی ها برای مدل ها).

جدول 9. نقشه پیش بینی زمان سفر از مدل STGBRT از دوشنبه تا جمعه حاصل می شود.

© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب