1. معرفی
در بسیاری از زمینه ها و کاربردهای تحقیقاتی، ردیابی اجسام متحرک نقش مهمی ایفا می کند. این امر به ویژه در شرایطی که موقعیت ها و حرکات اشیا برای ارزیابی یا کسب دانش در مورد رفتار آنها تجزیه و تحلیل می شود، صادق است. سناریوهای کاربردی معمولی مشاهده افراد در حال حرکت در یک شهر، یک مکان یا یک ساختمان یا حیوانات در محیط خود هستند. گیرنده های سیستم ماهواره ای ناوبری جهانی (GNSS) و همچنین سیستم های ردیابی مبتنی بر ویدئو یا رادیو فناوری هایی هستند که معمولاً برای این منظور استفاده می شوند. این مشاهدات می توانند برای دوره های زمانی طولانی، اغلب برای چندین ماه، ادامه داشته باشند و بنابراین مجموعه داده های بزرگی را ارائه می دهند که منعکس کننده حرکات اجسام هستند. اغلب، تجزیه و تحلیل در زمان واقعی مورد نیاز است و تلاش برای تجزیه و تحلیل داده های حاصل آنقدر گسترده است که نمی توان آن را به صورت دستی انجام داد. از این رو،
یک برنامه مهم استفاده از سیستم های ردیابی در حوزه ورزش است، به عنوان مثال، فناوری های خط دروازه در فوتبال یا “Hawk-Eye” [ 1 ]] در تنیس که قادر است نقطه تماس توپ را با زمین تعیین کند و در شرایط نامشخص توسط بازیکن یا داور مشورت شود. در این برنامه ها موقعیت های شی در محدوده چند سانتی متر برای هر نقطه از زمان مورد نیاز است. به عبارت دیگر: اگر در حین مشاهده، تصمیماتی اتخاذ شود که نیاز به دقت در مقیاس سانتی متری داشته باشد، نه داده های از دست رفته و نه داده هایی با دقت کمتر قابل قبول نیستند. مثال های دیگر، تصمیم آفساید در فوتبال یا هر تصمیم دیگری است که به این سوال می پردازد که آیا توپ از خط عبور کرده است یا خیر. علاوه بر موقعیت توپ، موقعیت دقیق همه بازیکنان برای تجزیه و تحلیل تاکتیکی موقعیت های بازی اهمیت فزاینده ای دارد.
نه سیستم موقعیت یابی جهانی (GPS) و نه ردیابی ویدیویی که رایج ترین فناوری ها هستند، به عنوان راه حل های مستقل مناسب نیستند، که در مطالعات مرتبط توضیح داده شده است. تحقیقات متعددی در مورد اعتبار و پایایی اندازهگیریهای GPS در ورزش وجود دارد [ 2 ، 3 ، 4 ، 5 ، 6]. اکثر آنها دستگاه های مختلف را بر اساس دقت آنها ارزیابی می کنند و مقادیر عملکرد اندازه گیری شده را با داده های صحت زمین مقایسه می کنند. آنها نتیجه می گیرند که دستگاه ها دقت نسبی قابل قبولی را ارائه می دهند، به عنوان مثال، از نظر مسافت تحت پوشش. با این حال، اگر دقت مطلق بالا مورد نیاز باشد، دقت معمول GPS غیر دیفرانسیل تنها 3 متر در بهترین حالت کافی نیست. برعکس، در ردیابی مبتنی بر ویدئو، دقت هندسی بالا است و بین 0.5 تا چند سانتیمتر متغیر است [ 1 ]. بررسی گسترده ای از تحلیل حرکت مبتنی بر بینایی توسط باریس و باتن [ 7 ] ارائه شده است]. آنها بر حوزه ورزش تمرکز می کنند و محدودیت ها و قابلیت اطمینان سیستم های ردیابی مختلف را مورد بحث قرار می دهند. اغلب، آهنگ های ویدئویی به صورت دستی یا نیمه خودکار ارزیابی می شوند. وقتی صحبت از سیستم های خودکار می شود، باریس و باتن به مشکلات ردیابی اشیاء در محیط های پویا و شلوغ اشاره می کنند که منجر به مسیرهای ناقص می شود.
به طور خلاصه، ردیابی GPS به طور کلی فاقد دقت مطلق لازم است، و ردیابی مبتنی بر ویدئو اغلب از کامل بودن کمتری ناشی از مشکلات تشخیص و ردیابی که عمدتاً ناشی از انسداد اشیا است، رنج میبرد.
رویکردهای مختلفی برای مقابله با این مشکل وجود دارد. اغلب، از دوربین های متعدد برای دریافت دیدگاه های مختلف در مورد اشیا استفاده می شود [ 1 ، 8 ، 9 ، 10 ]. با این حال، چنین راهحلهایی به مکانهای نصب مناسب برای دوربینها، تلاش برای راهاندازی مربوطه نیاز دارند و معمولاً گران هستند. به عنوان مثال، سیستم های ردیابی دوربین حرفه ای به 6 تا 8 دوربین سطح بالا نیاز دارند. سایر کارهای مرتبط یا بر استفاده از هیستوگرام مولفه های رنگی RGB یا HSV تشخیص اشیاء [ 11 ]، الگوهای حرکتی [ 12 ] یا ویژگی های مستطیل علاوه بر هیستوگرام های جهت یاب [ 13 ] تمرکز دارند.] برای ردیابی و تمایز بین چندین شی.
پرداختن به این مشکل با استفاده از گیرندههای جیپیاس دیفرانسیل که میتوانند با دقت بسیار بالایی (تا 1 سانتیمتر) بومیسازی شوند، منجر به این میشود که هر یک از اجسام مشاهده شده باید به چنین دستگاهی مجهز شوند. این امر به خصوص در حوزه ورزش عملی نیست.
رویکرد ما ترکیب هر دو فناوری و در نتیجه بهره برداری از نقاط قوت نسبی آنها و کاهش نقاط ضعف آنهاست. به این معنی که ردیابی GPS مسیرهای پیوسته اجسام منفرد را فراهم می کند، اما معمولاً دقت موقعیتی پایینی دارند. از سوی دیگر، دوربینها دقت هندسی بالاتری ارائه میدهند، اما مستعد انسداد اجسام هستند که منجر به قطع یا ناقص مسیرها میشود. در مورد ما، ما مسیرهای GPS را با استفاده از موقعیتهای دقیق دریافتی از ردیابی ویدیو بهبود میبخشیم. برای انجام این کار، باید داده های هر دو منبع را ترکیب کنیم. این نوع مشکل را می توان به راحتی به عنوان یک شبکه بیز پویا مدل کرد، که در آن حالت در مراحل زمانی گسسته پیشرفت می کند، مشاهدات اندازه گیری موقعیت هستند. و تکالیف ناشناخته بین GPS و مشاهدات ویدیویی حالت های پنهانی هستند که باید تخمین زده شوند. از آنجایی که این شکل از یک مدل پنهان مارکوف (HMM) [14 ] یک شبکه خطی بدون چرخه است، که امکان حل دقیق و کارآمد محتملترین تخصیص شیء را با استفاده از الگوریتم معروف Viterbi [ 15 ] فراهم میکند. مناسب بودن آن نیز در کاربردهای مشابه نشان داده شده است [ 16 ، 17 ]. مزیت استفاده از این الگوریتم در رویکرد ما این است که اگر ردیابی ما به دلیل اشیاء مسدود شده یا گم شده با شکست مواجه شود، می تواند اشیاء را پس از روشن شدن وضعیت “بازیابی” کند و بر خلاف آنچه کاملاً محتمل است مسیر آنها را ردیابی کند. روش های مبتنی بر ویدئو
ساختار باقی مانده این مقاله به شرح زیر است. در بخش بعدی، این رویکرد شامل روشهای جمعآوری و پردازش دادهها به تفصیل شرح داده میشود. پس از آن، یک آزمایش ارائه می شود و پس از ارائه و بحث در مورد نتایج. مقاله با یک نتیجه گیری و چشم انداز بسته شده است.
2. روش های اکتساب و پردازش داده ها
2.1. رویکرد
با توجه به یک سناریوی فوتبال، تنظیمات برای وظیفه ردیابی به شرح زیر است: ما یک دوربین برای مشاهده کل صحنه داریم. در مرحله بعد، هر فرد مشاهده شده را به یک واحد GPS مجهز می کنیم. بسته به سخت افزار مورد استفاده، رویکرد ما می تواند به صورت متمرکز یا غیرمتمرکز طراحی شود [ 18 ]. مورد دوم به حسگرهایی نیاز دارد که قادر به انجام محاسبات و همچنین انتقال نتایج جمع شده خود باشند. از طرف دیگر، اگر حسگرها قادر به برقراری ارتباط نباشند، دادههای ثبت شده میتوانند پس از آن منتقل و پردازش شوند. از آنجایی که دستگاههای GPS ما فقط میتوانند دادهها را ثبت کنند، همه دادهها (از GPS و دوربین) را در یک پردازنده مرکزی پردازش میکنیم. همانطور که در شکل 1 نشان داده شده است ، حسگرها داده ها را در قالب نقاط ردیابی ( tp، شناسه واحد GPS) و تشخیص های دوربین (d i ، دوربین)، که مجموعه های اطلاعاتی هستند که حداقل موقعیت شی و مهر زمانی را در بر می گیرند. مورد دوم در مواردی که هیچ هماهنگی زمانی بین دوربین و دستگاه های GPS وجود ندارد ضروری است.
بخشهای زیر فرآیندهای متوالی را طبق طرح شکل 1 ، از دادههای ورودی تا مسیرهای نهایی توصیف میکنند.
شکل 1. ساختار کلی رویکرد ما.
2.3. پیش پردازش داده ها
با توجه به این واقعیت که ما قصد داریم داده های منابع داده های مختلف را با سیستم های مختصات مختلف (داده های GPS و دوربین) ادغام کنیم، باید آنها را از نظر زمانی و “مکانی” همگام سازی کنیم. برای این منظور، هر دو را با استفاده از یک هموگرافی از پیش محاسبهشده برای دادههای دوربین، به یک سیستم مختصات محلی مشترک تبدیل میکنیم. همگام سازی زمانی با کمک مهرهای زمانی انجام می شود. داده های ادغام شده ورودی روش فیوزینگ هستند ( شکل 1 را ببینید ).
2.4. همجوشی داده ها
ادغام نقاط ردیابی ورودی دوربین با مسیرهای GPS بر اساس HMM و الگوریتم Viterbi است که محتمل ترین مسیرهای اجسام مشاهده شده را تعیین می کند. همانطور که به صورت شماتیک در شکل 3 نشان داده شده است، چالش شناسایی نقاط داده مربوطه بین تشخیص دوربین از یک سو و مسیرهای GPS از سوی دیگر است.
شکل 3. وظیفه تخصیص داده ها: تنظیم اولیه شامل دو مسیر GPS پیوسته (نقاط قرمز و زرد متصل) و تشخیص های دوربین تعیین نشده (جعبه های آبی جدا شده)، هر دو در سیستم مختصات محلی مشترک است. پیشرفت زمانی در زیر نشان داده شده است.
2.4.1. مدل های پنهان مارکوف
از آنجایی که توضیحات و آموزش های متعددی در مورد HMM ها وجود دارد [ 14 ، 21 ، 22 ]، ما فقط آنها را به اختصار معرفی می کنیم و بر روی سازگاری های خود تمرکز می کنیم. HMM ها به صورت پنج گانه تعریف می شوند λ = ( S; V; الف _ ب _ π )λ=(�;�;�;�;π)، جایی که اس= {اس1 ، اس2 , … , اسمتر ، }�={�1 , �2 ,…, �� ,}ایالت ها هستند و V= {V1 ، V2 , … , Vn ، }�={�1 ، �2 ،…، �� ،}مشاهدات علاوه بر این،
احتمالات انتقال حالت هستند که t مرحله زمانی است،
احتمالات اندازه گیری تحت شرایطی هستند که حالت واقعی S j و است
احتمالات حالت اولیه هستند.
در مورد ما، ما قصد داریم موقعیتهای GPS اشیاء را با استفاده از موقعیتهای دقیقتر بهدستآمده از طریق ردیابی ویدیویی بهبود دهیم. بنابراین، نمایش در قالب HMM به شرح زیر است. حالت فعلی (پنهان) S شامل موقعیت تخمینی، انتساب به یک منطقه شناسایی شده در تصویر دوربین و هیستوگرام رنگ است. مشاهدات Vبا موقعیت های اندازه گیری شده توسط دوربین و سنسور GPS داده می شود. ما تغییرات زیادی در این مدل ایجاد کرده ایم. اول، از آنجایی که انحرافات استاندارد اندازه گیری موقعیت دوربین بسیار کوچکتر از اندازه گیری های GPS است، بهترین تخمین موقعیت تقریباً مستقل از موقعیت GPS خواهد بود. همچنین، ما تا کنون یک مدل سینماتیکی (به عنوان مثال، شتاب، سرعت، پارامترهای عنوان) را به حالت و انتقال حالت وارد نکردهایم. این دو اصلاح منجر به یک نمایش ساده میشود که در آن مولفه موقعیت حالت بر روی اندازهگیری موقعیت دوربین به دست آمده از ناحیه تصویر اختصاصیافته تنظیم میشود. بنابراین، با توجه به یک حالت، احتمال اندازه گیری Bفقط به فاصله بین مؤلفه موقعیت وضعیت و موقعیت GPS بستگی دارد که به نوبه خود فاصله بین دوربین و اندازه گیری موقعیت GPS است.
احتمالات انتقال حالت B با مقایسه بردارهای ویژگی حالت های متوالی محاسبه می شود. در مورد ما، از شباهت های هیستوگرام و محدودیت های مدل حرکتی استفاده می کنیم. به عنوان اندازه گیری شباهت هیستوگرام، از تقاطع هیستوگرام استفاده می کنیم، که مقادیری را در محدوده بین 0 (بدون شباهت) و 1 (برابر) ارائه می دهد و به صورت تعریف می شود.
جایی که من تمام مقادیر رنگ را ایندکس می کنم. مجدداً، ما مدل را از این نظر ساده می کنیم که هیستوگرام رنگ را در وضعیت فعلی فیلتر نمی کنیم. بنابراین، پس از تخصیص یک منطقه تصویر، هیستوگرام رنگ در وضعیت با هیستوگرام رنگ به دست آمده از ناحیه تصویر جایگزین می شود (و به روز نمی شود).
جزء دوم احتمالات انتقال یک تابع نشانگر است که اگر موقعیت بعدی در دسترس موقعیت قبلی باشد، 1 است. یعنی ما نیاز داریم که سرعت v اجسام کمتر یا برابر با حداکثر سرعت باشد
که در آن v max بسته به سناریو انتخاب می شود.
یکی دیگر از اصلاحات اساسی مربوط به محاسبه همزمان چند مسیر است. تا اینجا، ما HMM را برای حالتی توصیف کردهایم که از یک موقعیت، تخصیص و هیستوگرام رنگ تشکیل شده است. با این حال، ما علاقه مند هستیم که چندین مسیر را به طور همزمان اختصاص دهیم، زیرا یکی از اهداف اصلی کشف تخصیص صحیح برای چندین مسیر است، به خصوص اگر آنها نزدیک به یکدیگر باشند. یعنی ما به تخصیص منحصر به فرد موقعیت های GPS به مناطق تصویر علاقه مند هستیم. مشابه [ 23 ]، ما حالات خود را به گونهای تعریف میکنیم که به جای تخصیصهای منفرد، چندین تکالیف را شامل شود. این تاپل ها تغییرات مجموعه فعلی تشخیص ها هستند. به عنوان مثال، با توجه به مجموعه l = 3 تشخیص { F ، G، H } همانطور که در مرحله 2 زمانی رخ می دهد ( شکل 3 ) و مشاهده k = 2 شی، وجود دارد m = ل !( l − k ) != 6متر= ل!(ل–ک)!=6تکالیف ممکن بدون تکرار، یعنی {( F , G ), ( F , H ), ( G , F ), ( G , H ), ( H , F , ( H , G ) } . بنابراین، هر توالی حالت، دنباله ای از تاپل های انتساب را تعریف می کند.
علاوه بر این، ما باید مشکل اشیاء کشف نشده را که یا مسدود شده اند یا میدان دید را ترک کرده اند، حل کنیم. برای این منظور، تخصیص های ساختگی را اضافه می کنیم که نشان دهنده وضعیت “تشخیص نشده” است. از آنجایی که این «تشخیصهای مجازی» نشاندهنده اندازهگیریهای گمشده هستند، تأثیر آنها این است که موقعیت قبلی و هیستوگرام رنگ (در حالت) بدون تغییر باقی میمانند. در مثال قبلی، مجموعه تشخیصها به { F ، G ، H ، Ø } تغییر میکند که Ø تشخیص ساختگی است. مجموعه تخصیص به m = 12 + 1 = 13 عنصر افزایش می یابد. توجه داشته باشید که یک تکلیف اضافی وجود دارد ( Ø ، Ø) برای حالتی که هر دو شی شناسایی نمی شوند. در شکل 4 HMM برای مثال داده شده در شکل 3 نشان داده شده است.
شکل 4. HMM برای چندین مسیر. در بالا، شبکه پویا بیز توسط توالی حالت ها (به رنگ سفید) تشکیل شده است. گره های رنگی زیر مقادیر حالت ممکن (تعددهای انتساب) برای توالی حالت S1 تا S6 هستند. رنگ ها تعداد تکالیف ساختگی را رمزگذاری می کنند (سبز: فقط واقعی؛ زرد: حداقل یک ساختگی؛ قرمز: فقط تکالیف ساختگی). لبه های خاکستری نمادی از احتمالات انتقال بین حالت های مربوطه است (برای انتقال بین t 0 و t 1 نشان داده شده است ).
حالت های اولیه مدل ما با احتمالات توزیع شده یکنواخت مقداردهی اولیه می شوند:
به طور موثر، این بدان معنی است که ما از یک پیشین غیر اطلاعاتی استفاده می کنیم، به عنوان مثال ، محتمل ترین مسیرها به حالت اولیه بستگی ندارند.
از آنجایی که حالت اکنون شامل تاپل های انتساب است، باید بر این اساس، انتقال حالت و احتمالات اندازه گیری را اصلاح کنیم. در مورد انتقال حالت، ما شباهت های هیستوگرام را به عنوان احتمالات متغیرهای تصادفی مستقل در نظر می گیریم به طوری که احتمال مشترک آنها توسط حاصل ضرب احتمالات حاشیه ای آنها به دست می آید. بنابراین، اگر تاپلهای S 1 و S 2 با K تعداد اجسام و H 1، i و H 2 داده شوند، i به ترتیب هیستوگرام i ام تاپل اول و دوم است.
شباهت کلی است، و از آنجایی که علاوه بر این یک محدودیت حداکثر سرعت را اعمال می کنیم، احتمالات انتقال حالت زیر را به دست می آوریم:
در مورد اندازهگیریها، ما مشاهدات GPS را مستقل و به طور یکسان نرمال توزیع میکنیم. بنابراین، احتمالات آنها را با توجه به حاصل ضرب چگالی آنها مدل می کنیم
جایی که d i فواصل اقلیدسی زوجی بین موقعیتهای حالت S و موقعیتهای مشاهدات اختصاص داده شده (GPS) V است. عدم دقت GPS با استفاده از انحراف استاندارد σ GPS مدلسازی میشود .
2.4.2. الگوریتم ویتربی
ما به مشکل تعیین توالی حالت محتمل می پردازیم اسV = (اس1 , … , استی ) ∈ اساس� =(اس1 ،…، استی )∈اس، با توجه به توالی مشاهدات O = (o1 , … , oتی ) ∈ V�=(�1 ،…، �تی )∈�با اعمال الگوریتم ویتربی [ 15 ]. به صورت بازگشتی کار می کند و به طور موثر با استفاده از برنامه نویسی پویا پیاده سازی می شود. الگوریتم را می توان با مراحل زیر خلاصه کرد. در حالی که اس∗Vتیاس�تی*محتمل ترین سلف حالت را در مرحله زمانی t دارد، P t احتمال محتمل ترین توالی حالت است.
در شکل 5 ، فرآیند و محتمل ترین مسیر (که مسیر ویتربی نیز نامیده می شود) برای مثال ارائه شده در شکل 3 به تصویر کشیده شده است. گرههای محاصرهشده آبی مسیر Viterbi را تشکیل میدهند که نشاندهنده توالی تخصیصها و موقعیتها برای هر دو مسیر جسم است.
2.5. مسیرهای خروجی
با محاسبه مسیر Viterbi، میتوانیم مسیرهای هر شی را ایجاد کنیم. برای این منظور ما مسیر را دنبال می کنیم و به سادگی موقعیت ها را در حالت (که در مورد ما با موقعیت های تشخیص تصویر اختصاص داده شده مطابقت دارد) همراه با مهرهای زمانی آنها (نگاه کنید به شکل 6 ) خروجی می دهیم.
شکل 5. مسیر Viterbi حاصل (آبی) برای مثال داده شده.
شکل 6. مسیرها (قرمز، نارنجی) از تاپل های تخصیص موجود در گره های مسیر Viterbi تولید می شوند. برخی از تشخیص ها دور ریخته شده اند (جعبه های خاکستری جدا شده).
3. بخش تجربی
3.1. آزمایش
از آنجایی که ما قصد داریم یک راه حل ردیابی ایجاد کنیم که مسیرهای دقیق، کامل و صحیح شی را ارائه دهد، سه آزمایش طراحی کرده ایم. در این آزمایشها، دادههایی تولید میشوند که از آنها برای تجزیه و تحلیل عملکرد الگوریتم خود استفاده میکنیم. در آزمایش اول ما دقت محلی سازی ردیابی GPS و ردیابی مبتنی بر دوربین را تجزیه و تحلیل می کنیم. در آزمایش دوم ما بر کیفیت ردیابی، به ویژه کامل بودن و درستی مسیرهای حاصل تمرکز می کنیم. از طریق آن آزمایش، ما میخواستیم ثابت کنیم که رویکرد ما قادر به مدیریت موقعیتهایی است که در آن اشیا برای مدتی دور از دید هستند. در آخرین آزمایش ما میخواستیم توانایی ردیابی چندین شی را نشان دهیم، حتی اگر آنها بسیار شبیه و گاهی مسدود شده باشند.
در همه آزمایشها، ما سعی میکنیم نتایج رویکردمان را با نتایج یک نسخه ویدیویی از رویکردمان و ردیابیهای GPS مقایسه کنیم. برای به دست آوردن نتایج یک روش کاملاً مبتنی بر ویدیو، الگوریتم خود را برای بار دوم بدون استفاده از اطلاعات GPS اجرا کردیم. سپس تخصیص منحصراً بر اساس هیستوگرام های رنگی اشیا و محدودیت های مدل حرکت است.
3.2. راه اندازی آزمایشی
3.2.1. آزمایش 1 – دقت
در آزمایش اول، افراد مشاهده شده را به ثبتکنندههای GPS مجهز کردیم که از ثبت 5 هرتز پشتیبانی میکنند. سازنده دقت موقعیت آنها را با 3.0 متر 2D-RMS بدون کمک مشخص می کند. یک دوربین گوشی هوشمند با وضوح فول اچ دی (1920 × 1080 پیکسل) با قابلیت فوکوس خودکار غیرفعال استفاده شد. برای اینکه زاویه دید بهتری در صحنه داشته باشد، در مکان بالاتری قرار گرفت. نقشه طرح در شکل 7 تنظیمات را در نمای بالا نشان می دهد.
برای تعیین دقت، یک فرد چندین دور را روی یک مسیر مستطیلی از پیش تعریف شده حرکت می دهد ( شکل 7 را ببینید ). علاوه بر این، به فرد دستور داده میشود که برای هر دور، راه رفتن، دویدن و دویدن با سرعت بیشتری حرکت کند. به عنوان داده های حقیقت زمین، اتصالات خطی بین چهار نقطه گوشه را فرض می کنیم که مختصات آن مشخص است.
شکل 7. نمای کلی تنظیمات آزمایش اول و دوم: نقاط بین چهار نقطه لبه برای آزمایش اول با رنگ قرمز مشخص شده اند. ردهای خاکستری محل تشخیص دوربین هستند.
3.2.2. آزمایش 2 – کامل بودن و درستی
در آزمایش دوم از همان تنظیمات فنی و نصبی آزمایش قبلی استفاده می کنیم. ما دو نفر را به مدت حدود 4 دقیقه (نرخ نمونه برداری 5 هرتز از واحدهای دوربین و GPS) مشاهده می کنیم که به طور تصادفی در صحنه حرکت می کنند، با نزدیک شدن به یکدیگر باعث انسداد می شوند و حتی میدان دید را ترک می کنند. این بار، داده های حقیقت زمینی با تخصیص دستی تشخیص دوربین به افراد تولید می شود. ما هیچ خط سیر حقیقت زمینی را به عنوان مرجعی برای مقایسه نداریم، زیرا این آزمایش به منظور ارزیابی تکالیف است. از آنجایی که ما از تجهیزات فنی و نصب یکسانی استفاده می کنیم، دقت را همانند آزمایش اول فرض می کنیم. با این حال، با کمک داده های حقیقت زمینی موجود می توانیم صحت انتساب ها را ارزیابی کنیم. که در واقع هدف این آزمایش است. ما از تنظیمات پارامتر زیر استفاده کردیم: σGPS = 12 m , v max = 8 m / s .
3.2.3. آزمایش 3 – ردیابی چند شی
آخرین آزمایش شامل ردیابی 4 بازیکن از 16 بازیکن در طول یک بازی فوتبال است. برای این آزمایش ما از یک مجموعه داده فوتبال منتشر شده توسط Fraunhofer ISS در ارتباط با چالش داده ACM DEBS 2013 استفاده می کنیم [ 24 ]]. این شامل یک ویدیو (1920 × 1080 پیکسل) و همچنین مسیر حرکت 16 بازیکن، یک داور و توپ های استفاده شده است. مسیرها توسط سیستم ردیابی مبتنی بر رادیویی خود با دقت بالای چند سانتی متری ثبت شده است. از آنجایی که این کمی بهتر از چیزی است که ما از ما انتظار داریم، از آنها به عنوان مسیرهای مرجع استفاده می کنیم. از آنجایی که هیچ اطلاعات GPS در این مجموعه داده وجود ندارد، ما آن را با اضافه کردن نویز به مسیرهای مرجع بسیار دقیق تولید کردهایم. برای تقلید از عدم دقت GPS، ما از یک تغییر سیستماتیک کل مسیر در جهت تصادفی و نویز توزیع شده نرمال با انحراف استاندارد 5 متر استفاده کردیم. در ادامه لازم به ذکر است که بازیکنان هر تیم دارای لباس های مشابه هستند. به همین دلیل تشخیص ها نیز هیستوگرام های رنگی مشابهی خواهند داشت. این مهم است، زیرا رویکرد ما از هیستوگرام برای تمایز بین اشیا استفاده می کند. بنابراین در این آزمایش میخواهیم نشان دهیم که رویکرد ما قادر به مقابله با چندین اشیاء رنگی مشابه است. تنظیم پارامتر این است: σGPS = 12 m , v max = 8 m / s .
4. نتایج
4.1. آزمایش 1 – دقت
در شکل 8، نتایج آزمایش اول تجسم می شود. همانطور که انتظار می رفت، دوربین به طور قابل توجهی دقیق تر از اندازه گیری GPS مستقل است. خطای مسیر دوربین عمدتاً به الگوریتم تشخیص شی مورد استفاده بستگی دارد. در مورد ما، الگوریتم تفریق پسزمینه تشخیصهایی را با انحراف استاندارد حدود 0.25 متر نسبت به مسیر حقیقت زمین ارائه میکند. لطفا توجه داشته باشید که این خطا توسط شخص ردیابی شده نیز ایجاد می شود که دقیقاً در مسیر تعریف شده حرکت نمی کند. ما مسیر GPS را با استفاده از مسیر بهدستآمده از مشاهدات دوربین بهعنوان حقیقت زمین ارزیابی کردیم و انحراف معیار تقریباً 10 متر را بهدست آوردیم. ما روشهای صرفا مبتنی بر ویدیو را با رویکرد ترکیبی خود از نظر دقت مقایسه نمیکنیم، زیرا هر دو از تشخیصهای دوربین یکسانی استفاده میکنند و بنابراین دقت یکسانی را به دست میدهند.
شکل 8. مسیرهای حاصل از آزمایش دقت: GPS (سیاه) و نتیجه رویکرد ما (قرمز). نقطه ها موقعیت فعلی شی هستند که توسط GPS (سیاه) و رویکرد ما (قرمز) تعیین می شود. چند ضلعی حقیقت زمین با یک خط آبی چین مشخص شده است.
حداقل دو موضوع دیگر وجود دارد که بر بومی سازی دقیق افراد با رویکرد فعلی ما تأثیر می گذارد. اول، به شدت به نحوه شناسایی موقعیت بستگی دارد. به عنوان مثال، ما تشخیص را به عنوان یک جعبه مرزی نشان میدهیم و از مرکز پایین این کادر برای تعیین موقعیت فرد استفاده میکنیم، با این فرض که این یک نمایش به اندازه کافی دقیق از مرکز بدن (ساختی) است که به زمین میتابد. با این حال، اگر شخصی دست یا پای خود را دراز کند، این نقطه دیگر نشان دهنده درستی از مرکز بدن نخواهد بود. دوم، خطای محلی سازی مربوط به فاصله جسم تا دوربین است. با توجه به پرسپکتیو تصویر، خطا در ناحیه مشاهده شده همگن نیست، بلکه با افزایش فاصله افزایش می یابد. در شکل 9b (منطقه C)، این اثر را می توان به وضوح در قسمت پایین سمت چپ زمین فوتبال مشاهده کرد، جایی که به نظر می رسد مسیرها به شدت ناهموار هستند.
4.2. آزمایش 2 – درستی تکالیف
نتایج آزمایش دوم ما با دو نفر در شکل 9 a,b نشان داده شده است. با توجه به این واقعیت که ردیابی GPS نمی تواند منجر به تخصیص اشتباه شود، ما فقط راه حل ترکیبی خود را با داده های حقیقت زمینی تولید شده مقایسه می کنیم. برای انجام این کار، مطابق جدول 1 ، تعداد تخصیص صحیح و نادرست را محاسبه کردیم. ما نسبت فراخوانی 94.2% و 5.8% خطاها را برای تعداد کل 2238 شناسایی به دست آوردیم. لطفاً توجه داشته باشید که تشخیصهای حاوی مناطق تصویر ادغام شده از هر دو نفر، ناشی از انسداد جزئی، در دادههای حقیقت زمینی اشتباه علامتگذاری شدهاند، زیرا نتوانستیم آنها را بهطور واضح برچسبگذاری کنیم. بنابراین، اگر مدیریت حبابهای ادغامشده را بهبود ببخشیم، نسبت فراخوانی بهتر و تعداد تشخیصهای نادرست کمتری را انتظار داریم. همچنین خطاهایی در تشخیصها همچنان شامل میشوند، مانند تشخیص اشتباه ناشی از حرکت اجسام در پسزمینه. بنابراین نرخ خطای حدود 10% را می توان با تنظیم الگوریتم تشخیص، به عنوان مثال، با مشخص کردن منطقه مورد نظر، کاهش داد. در شکل 9c مسیرها نشان داده می شوند که در صورت عدم استفاده از اطلاعات GPS نتیجه می گیرند. در این تنظیمات، که در آن افراد لباس مشابهی ندارند، مسیرها نیز خوب به نظر می رسند، به جز برخی از تکالیف نادرست، که می توانند به عنوان پرش در ردیابی (خطوط مستقیم طولانی) شناسایی شوند. بر این اساس مقادیر عملکرد کمتر است.
جدول 1. عملکرد الگوریتم ردیابی ما.
علاوه بر این، ما نگاه دقیقتری به موقعیتهایی داشتیم که به نظر میرسد در بسیاری از راهحلهای ردیابی مبتنی بر ویدیو مشکلساز هستند. این رویکرد همچنین قادر به رسیدگی به موقعیت هایی است که یک شی از صحنه خارج شده و دوباره وارد صحنه می شود. به عنوان مثال، در ناحیه A از شکل 9 ب، مسیر قرمز رنگ از مرز سمت راست تصویر خارج می شود و دوباره در زمان بعدی ظاهر می شود ( شکل 10 را ببینید ). علاوه بر این، چندین فریم وجود دارد که در آن شخص توسط شخص دیگری یا توسط مانعی مانند میله پرچم در سمت چپ مسدود می شود. به عنوان مثال، یکی از آنهایی را که به ترتیب در ناحیه B شکل 9 b و در شکل 11 قرار دارند نشان می دهیم. در این موارد، الگوریتم موفق می شود تا زمان روشن شدن وضعیت، تخصیص صحیح را حفظ کند.
شکل 9. نتایج آزمایش دوم: ( الف ) صحنه ای که هم اشیاء ردیابی شده و هم مسیر آنها را در بر می گیرد. ( ب ) نمای بالای مجموعه داده کامل شامل مسیرهای تولید شده توسط GPS (هر دو به رنگ سیاه) و رویکرد ما (قرمز، سبز). علاوه بر این، سه منطقه A، B و C (آبی) مشخص شدهاند که شامل موقعیتهایی است که در متن به آنها اشاره شده است. ( ج ) نتیجه زمانی که از اطلاعات GPS استفاده نمی شود.
شکل 10. وضعیتی که در آن فرد میدان دید را برای حدود 8 ثانیه ترک می کند. الگوریتم موفق می شود تخصیص صحیح را حفظ کند (توالی از بالا سمت چپ به پایین سمت راست).
شکل 11. موقعیت دیگری که در آن فرد با علامت سبز برای حدود 1.5 ثانیه (8 فریم) مسدود شده است. پس از روشن شدن وضعیت، تکلیف به درستی ادامه می یابد.
در صورتی که یک تخصیص ناموفق باشد، الگوریتم Viterbi این توانایی را دارد که تخصیص ها را به صورت ماسبق تغییر دهد، برخلاف سایر الگوریتم های ردیابی که فقط قادر به تصمیم گیری برای مرحله زمانی فعلی هستند. این به دلیل این واقعیت است که الگوریتم Viterbi از همه مشاهدات برای محاسبه محتمل ترین مسیر استفاده می کند، در حالی که الگوریتم های ردیابی متوالی با توجه به همه مشاهدات قبلی، محتمل ترین حالت (جاری) را محاسبه می کنند. در شکل 12 مثالی برای چنین تصحیح انتساب به ماسبق نشان داده شده است. در حالی که در شکل 12 a آخرین قسمت های مسیرها با هم عوض شده اند (تخصیص صحیح فرد آبی پوش به مسیر قرمز است)، تخصیص ها در شکل 12 تصحیح شده اند.ب، چند قدم بعد. البته، این اصلاحات انتساب در صورت نیاز به تحلیل حرکت بلادرنگ مناسب نخواهد بود (مگر اینکه تاخیر زمانی قابل تحمل باشد).
4.3. آزمایش 3 – ردیابی چند شی
در شکل 13 و شکل 14 نتایج آزمایش سوم ما آورده شده است. این آزمایش نشان میدهد که رویکرد ما میتواند چندین اشیاء را که اغلب مسدود شدهاند و لباسهای مشابهی دارند، ردیابی کند. هنگام مقایسه مسیرهای حاصل با ردهای مرجع آنها (سیاه) در شکل 14 (سمت چپ) دقت کمتری را مشاهده می کنیم (که عمدتاً مشکل الگوریتم تشخیص اشیاء است) اما همچنین متوجه انتساب صحیح بازیکن می شویم. این را می توان با شکل بسیار مشابه مسیرهای مربوطه تشخیص داد. با این حال، گاهی اوقات بازیکنان به درستی ردیابی نمی شوند، اما زمانی که وضعیت روشن شد با موفقیت بازیابی می شوند. همانطور که در مثال نشان داده شده است، پخش کننده سبز با بازیکن دیگری در شکل 13 ادغام شده است(1) و به طور کامل در (2) گم شده است (نماد یک جعبه مرزی خاکستری رنگ است)، در (3) بازیابی شده و تا (4) با موفقیت ردیابی شده است. وقتی به بازیکن قرمز نگاه می کنیم که با بازیکن دیگری در (3) اشتباه گرفته شده و در (4) بهبود یافته است، وضعیت مشابه است. این اساساً می تواند به ادغام اطلاعات GPS برگردد. اگر از مکان های GPS استفاده نکنیم، نتیجه مانند شکل 14 (سمت راست) به نظر می رسد. این تعجب آور نیست، زیرا بازیکنانی که لباس یکسانی دارند را نمی توان بر اساس هیستوگرام رنگی تشخیص داد. در این مورد افزودن و/یا جایگزین کردن ویژگیها (مانند موارد پیشنهادی در [ 11 ] یا [ 12 ]) قابلیت تمایز اشیاء را بهبود میبخشد.
شکل 12. مثالی برای تصحیح تخصیص “عطف به ماسبق”: ( الف ) آخرین قسمت های مسیر (جعبه زرد) به اشتباه اختصاص داده شده اند. ( ب ) تکلیف چند مرحله بعد تصحیح شده است.
مقادیر عملکرد تعیینشده در آزمایشهای قبلی و توانایی توصیفشده برای رسیدگی به مسائل دشوار ردیابی نشان میدهد که ما اساساً به هدف خود برای به دست آوردن دقت اندازهگیری دوربین همراه با قابلیت اطمینان برچسبگذاری GPS دست یافتیم.
شکل 13. مسیرهای حاصل از رویکرد ما که توانایی مقابله با انسداد را نشان می دهد.
شکل 14. مسیرهای رنگی تولید شده بازیکنان ردیابی شده نزدیک به ردهای مرجع آنها (سیاه) است ( سمت چپ ). نقاط رنگی نشان دهنده موقعیت های فعلی بازیکن است که توسط رویکرد ما تعیین می شود. خاکستری ها موقعیت های مرجع هستند. مسیرهای بهدستآمده از نسخه فقط ویدیویی رویکرد ما ( سمت راست ). به طور قابل توجهی، بازیکنان قرمز و سبز اغلب با بازیکنان دیگر مخلوط می شوند.
5. نتیجه گیری و چشم انداز
در این کار ما روشی برای ردیابی اشیا با ادغام دو فناوری ردیابی مختلف ارائه کردهایم. با استفاده از یک مدل HMM و الگوریتم Viterbi، ما توانستیم دادههای دستگاههای مختلف را ترکیب کنیم و مسیر اجسام را محاسبه کنیم. نتایج ارزیابی نشان میدهد که رویکرد ما قادر است تخصیص صحیح ردیابی GPS را با دقت هندسی ردیابی مبتنی بر ویدیو ترکیب کند.
الزامات کلی رویکرد ارائه شده به شرح زیر است: اول از همه، اشیاء مشاهده شده باید به سنسورهای GPS مجهز شوند که باید اطلاعات مکان خود را ارائه دهند. علاوه بر این، اجسام نیز باید توسط دوربین قابل تشخیص باشند، یعنی در بیشتر مواقع باید در میدان دید دوربین قرار گیرند. برای آزمایشهای خود، از یک سیستم کمهزینه استفاده کردیم که شامل یک گوشی هوشمند و گیرندههای GPS ارزانقیمت است. موقعیت های GPS ثبت شد و همجوشی مسیر در پس پردازش بر روی رایانه شخصی محاسبه شد.
اگر حسگرهای GPS بتوانند مکان فعلی را به یک پردازشگر داده در زمان واقعی انتقال دهند (اگر دوربین هوشمند است، این می تواند خود دوربین باشد)، ردیابی شی آنلاین امکان پذیر است، به عنوان مثال ، یک راه حل بلادرنگ. این به دلیل پیچیدگی الگوریتمی O (m 2 ) برای هر فریم است که در آن mتعداد حالت های ممکن است که عمدتاً با تعداد شناسایی ها تعیین می شود. اگرچه نشان دادهایم که این رویکرد به خوبی کار میکند، اما چندین موضوع باز برای کار آینده وجود دارد. ابتدا، رویکرد ارائه شده را می توان پالایش و گسترش داد. به عنوان مثال، ما میتوانیم یک مدل حرکت سینماتیکی برای اجسام و همچنین مدلسازی دقیقتری از مشاهدات را ادغام کنیم که اساساً منجر به یک مرحله فیلتر کالمن کامل برای متغیرهای حالت پیوسته میشود. این امر ادغام انواع دیگر مشاهدات را در فرکانسهای اندازهگیری مختلف، بهعنوان مثال، GPS و ردیابی رادیویی، ردیابی دوربین و رادیو یا ردیابی دوربین چندگانه، آسانتر میکند. با توجه به رویکرد پردازش تصویر ما، چندین پیشرفت ممکن وجود دارد. اگر اطلاعات قبلی در مورد موقعیت مورد انتظار در دسترس بود، تشخیص تصویر میتواند قویتر شود. مانند موقعیت پیش بینی شده توسط یک مدل حرکت سینماتیکی. شباهتهای ویژگی محاسبهشده، تا کنون شباهتهای هیستوگرامهای رنگی، میتواند با روشهای همبستگی تصویر یا ردیابی گسترش یابد، که انتظار میرود اگر افراد لباسهای رنگی مشابه بپوشند، بهتر عمل میکنند. همچنین ویژگی های حاصل از مشاهدات تصویر باید بخشی از حالت باشند تا در هر مرحله زمانی به جای جایگزینی به روز شوند.
علاوه بر این، این رویکرد را می توان به موارد استفاده دیگر خارج از حوزه ورزشی منتقل کرد. یک مثال نظارت بر سناریوهای ترافیکی است، مانند مشاهده مناطق عبوری یا مکان های شلوغ که می تواند توسط عابران پیاده و همچنین سایر کاربران جاده استفاده شود. این قطعاً میتواند توسط GPS یا ردیابی دوربین مستقل نیز انجام شود، اما در مواردی که دقت بالاتری مانند پیشبینی حرکت و تشخیص برخورد یا قابلیت اطمینان بالاتر مانند ردیابی اشیا در صحنههای شلوغ مورد نیاز است، این رویکرد میتواند مفید باشد برای مثال، دادههای موقعیت مکانی مشترک تلفنهای هوشمند یا دادههای GPS خودرو که توسط سیستمهای ناوبری ارائه میشوند را میتوان با توالیهای ویدئویی از دوربینهای ترافیک موجود ترکیب کرد تا مسیرهای بسیار دقیق خودرو را به دست آورد.
بدون نظر