بررسی چهل سال تغییرات تکنولوژیک در ژئوماتیک به سمت پارادایم کلان داده

خلاصه

با نگاهی به چهار دهه گذشته، فناوری‌هایی که برای رصد و نقشه‌برداری زمین ایجاد شده‌اند، می‌توانند فناوری‌هایی را که امروزه در حال پیشرفت هستند و چالش‌های آن‌ها را روشن کند. چهل سال پیش، اولین تصاویر دیجیتالی سرنوشت سنجش از دور، مهندسی فتوگرامتری، GIS یا به طور خلاصه: ژئوماتیک را رقم زدند. این موج ناگهانی حجم داده‌ها باعث آغاز تحقیقات در زمینه‌هایی شد که امروزه Big Data در حال شخم زدن است: این مقاله این انتقال را بررسی خواهد کرد. اول، بررسی سریع فناوری از طریق متوالی اصطلاحات انتخاب شده، به شناسایی دو دوره اصلی در چهار دهه گذشته کمک خواهد کرد. اطلاعات مکانی در سال 1970 با تهیه Landsat و Big Data در سال 2010 ظاهر شد. بررسی هر یک از “Vs”هایی است که امروزه برای مشخص کردن دومی استفاده می شود: حجم، سرعت، تنوع، تجسم، ارزش، صحت، اعتبار و تغییرپذیری. ژئوماتیک در طول این دوره با هر یک از این جنبه ها مواجه بوده است. این بحث، پاسخ‌های اولیه ارائه شده توسط geomatics را با وضعیت امروز در Big Data مقایسه می‌کند. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. سرعت، تنوع، تجسم، ارزش، صحت، اعتبار و تنوع. ژئوماتیک در طول این دوره با هر یک از این جنبه ها مواجه بوده است. این بحث، پاسخ‌های اولیه ارائه شده توسط geomatics را با وضعیت امروز در Big Data مقایسه می‌کند. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. سرعت، تنوع، تجسم، ارزش، صحت، اعتبار و تنوع. ژئوماتیک در طول این دوره با هر یک از این جنبه ها مواجه بوده است. این بحث، پاسخ‌های اولیه ارائه شده توسط geomatics را با وضعیت امروز در Big Data مقایسه می‌کند. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. ژئوماتیک در طول این دوره با هر یک از این جنبه ها مواجه بوده است. این بحث، پاسخ‌های اولیه ارائه شده توسط geomatics را با وضعیت امروز در Big Data مقایسه می‌کند. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. ژئوماتیک در طول این دوره با هر یک از این جنبه ها مواجه بوده است. این بحث، پاسخ‌های اولیه ارائه شده توسط geomatics را با وضعیت امروز در Big Data مقایسه می‌کند. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. در طیف وسیعی از مسائل، از پردازش سیگنال گرفته تا معناشناسی اطلاعات، ژئوماتیک به بسیاری از مدل‌ها و الگوریتم‌های داده کمک کرده است. Big Data اکنون به اطلاعات جغرافیایی امکان می دهد تا بسیار گسترده تر منتشر شود و از منابع اطلاعاتی جدید بهره مند شود و از طریق اینترنت اشیا به سمت زمین دیجیتالی آینده گسترش یابد. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. گسترش از طریق اینترنت اشیا به سمت زمین دیجیتال آینده. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد. گسترش از طریق اینترنت اشیا به سمت زمین دیجیتال آینده. برخی از درس های آموخته شده در طول چهار دهه ژئوماتیک نیز می تواند درس هایی برای داده های بزرگ امروزی و برای آینده ژئوماتیک باشد.

کلید واژه ها:

ژئوماتیک ; کلان داده ؛ سنجش از دور ؛ انبار داده ; داده کاوی ; تاریخچه فناوری

1. معرفی

بیگ دیتا علاوه بر اینکه یک کلمه کلیدی است، راه ظهور، تکامل، ادغام با هم، جایگزینی با قدیمی‌ترها، یا آوردن زندگی جدید به فناوری‌های فراموش شده را نشان می‌دهد. علاوه بر این، زمینه جدیدی را که در آن این تغییرات در حال ظهور هستند روشن می کند. اجازه دهید به آنچه حرفه ای ها از Big Data انتظار دارند گوش دهیم: وب سایت IBM (مه 2016) بیان می کند که ” فناوری داده های بزرگ باید از خدمات جستجو، توسعه، حاکمیت و تجزیه و تحلیل برای همه انواع داده ها – از داده های تراکنش و برنامه گرفته تا داده های ماشین و حسگر پشتیبانی کند. به داده های اجتماعی، تصویری و جغرافیایی و موارد دیگر. ”

با این حال، زندگی قبل از کلان داده چگونه بود؟

این مقاله به بررسی مسائل اصلی می‌پردازد که علم اطلاعات جغرافیایی (از جمله ژئواطلاعات ، علم داده‌های مکانی ، ژئوماتیک و غیره (همه ± 1990)، ترجیحاً از دومی استفاده می‌کنیم.) از مراحل اولیه خود با آن‌ها مواجه بوده است. این گذشته‌نگر تحت نوری که واژگان کلان داده‌ها می‌ریزد انجام می‌شود: ما از سه V محبوب (حجم، سرعت و تنوع) و Vهای اضافی که اغلب پیشنهاد می‌شوند (مقدار، اعتبار، صحت، تغییرپذیری، و گاهی اوقات، آسیب‌پذیری و تجسم) استفاده می‌کنیم.

با تصاویر لندست در سال 1972، “چالش های مدیریت داده” به وجود آمد: چگونه می توان با چنین حجم عظیمی از داده ها مقابله کرد. چگونه می توان ساختار را به یک سیگنال نمونه برداری شده دوبعدی رساند و آن را با اطلاعات زمین مرتبط کرد. و چگونه می توان چنین مجموعه داده های عظیمی را در زمان واقعی پردازش کرد؟ بلافاصله پس از ورود به چالش تجزیه و تحلیل داده ها. اطلاعات جغرافیایی مربوط به “دنیای واقعی” است. واقعا چیه؟ چه چیزی با رادیومتری پیکسلی اندازه گیری می شود، یا چه چیزی با لیست مختصات مشخص می شود؟ نتایج ارائه شده توسط الگوریتم‌های طبقه‌بندی تصویر، یا مدل‌های تجمیع/تجزیه فضایی، از اواخر دهه 1970، ارزش افزوده زیادی برای داده‌های جمع‌آوری‌شده (ارزش) به ارمغان آورد، اما ارزشی که توسط یک عدم قطعیت ذاتی فراگرفته شده بود، مانع استفاده مستقیم از آنها در تصمیم‌گیری شد. صحت). علاوه بر این، هنگام ادغام منابع مختلف داده، که بیشتر و بیشتر اتفاق می افتد، سوالات جدیدی وجود دارد. آیا ادغام از نظر معنایی مرتبط است؟ با رسیدن به اعتبار، آیا از نظر نحوی سازگار است؟ در نهایت، استفاده از داده‌های جغرافیایی بسیار، که برای چندین دهه در سرتاسر جهان انباشته شده‌اند، نیاز به شفاف‌سازی‌هایی دارد که تنوع را بررسی می‌کند. این داده ها چه داده هایی هستند؟ آنها چه تکامل یا تفاوت های واقعی را اندازه گیری می کنند؟ چه نوع تصمیمی می توانیم بر آنها بنا کنیم؟

در زمینه داده‌های جدید، این پرسش‌های دیرینه همچنان مطرح می‌شوند، به علاوه برخی مسائل جدید نیز (به عنوان مثال، موقعیت جغرافیایی و حریم خصوصی، اعتماد به داده‌ها، و مسئولیت قانونی). توسط ژئوماتیک، که نادیده گرفته شده است، و اگر چه درس هایی می توان از این چهار دهه آموخت.

2. چهار دهه ژئوماتیک بازبینی شده از طریق داده های بزرگ

2.1. حجم: ذخیره سازی و نیازهای پردازش عددی

2.1.1. داده ها، داده های مکانی، ذخیره سازی، دسترسی و تجزیه و تحلیل: یک گذشته نگر

اجازه دهید ۴۰ سال پیش را با نگاهی زبان‌شناختی، با استفاده از ابزار Google Ngram Viewer [ 1 ] نگاه کنیم: این ابزار تعداد اصطلاحات را در ادبیات عمومی شمارش می‌کند و کاملاً دقیق نشان می‌دهد که چه زمانی یک اصطلاح رایج شد. علم پشت این اصطلاح عموماً دو تا پنج سال قبل در مقالات علمی منتشر شده است، اما Ngram نشانگر ارتباط فناوری توصیف شده توسط این اصطلاح است. ما چندین گروه از اصطلاحات را با این ابزار محک زده ایم ( شکل 1 ):

ابزارهای پیشرو برای استدلال و پردازش تصویر: تجزیه و تحلیل داده ها 1958، تشخیص الگوی 1958، هوش مصنوعی 1961، تجزیه و تحلیل اجزای اصلی 1960، تجزیه و تحلیل مکاتبات 1975، پردازش تصویر 1965، درک تصویر 1970، و یادگیری ماشینی 1981.
داده ها و دانش شرکتی: پایگاه های داده 1965-1970، انبار داده 1988-1992، ابرداده 1991، OLAP 1994، داده کاوی 1995، هوش تجاری 1996، و تجزیه و تحلیل 2004.
داده‌ها، دستگاه‌ها و ابزارهای اطلاعات مکانی: تصاویر ماهواره‌ای یا سنجش از دور 1970، Landsat 1972، GPS 1975، و کیفیت داده‌های مکانی 1990. و
ابزارهای اینترنتی: اینترنت 1990، ایمیل 1992، مرورگر 1992، وب و وب سایت 1994 (توجه داشته باشید: “وب” و اینترنت، نشان داده نمی شوند – خارج از مقیاس در مقایسه با اصطلاحات دیگر – “مرورگر” یک پروکسی خوب است).

متأسفانه، در حالی که Ngram هنوز در دسترس بود، در سال 2008 از گنجاندن کتاب ها خودداری کرد، بنابراین اصطلاحات “رایانش ابری” و “داده های بزرگ” بسیار “جوان” هستند و در Ngram وجود ندارند.

چه درس هایی می توانیم از این مرور تاریخی بیاموزیم؟

سال تولد Big Data حدود 2010 است، در حالی که داده های مکانی به سال 1970، قبل از داده های Landsat باز می گردد.
پایگاه داده و ابزارهای هوش مصنوعی بین سال‌های 1975 و 1985 در اوج خود قرار داشتند و به طور گسترده برای پردازش حجم خارق‌العاده داده‌های جمع‌آوری‌شده توسط ماهواره‌ها استفاده می‌شدند: یک پتابایت در طول دهه، در زمانی که حافظه مرکزی رایانه‌های بزرگ به چند مگابایت محدود بود.
1995 به عنوان یک نقطه اوج ظاهر می شودبا استفاده گسترده از ابزارهای اینترنتی، و با داده کاوی، تجزیه و تحلیل، هستی شناسی ها که پایگاه های داده و هوش مصنوعی را در اختیار گرفته اند، که وزوز آن تا حدودی محو می شود. این نقطه عطف نشان دهنده یک تغییر پارادایم مهم، به دنبال «ساختار انقلاب های علمی» توماس کوهن است. این یک کشف (مثلاً ترانزیستور در سال 1947) یا یک موفقیت تکنولوژیکی (مثلاً پرتاب لندست در سال 1972) نیست، بلکه یک آگاهی جمعی است (اصطلاحی که توسط نظریه پردازان اجتماعی مانند دورکیم، آلتوسر و یونگ برای توضیح چگونگی ظهور الگوهای مشترک استفاده می شود. در میان گروه‌های بزرگی از افراد مستقل.) که همه فناوری‌های مربوط به محاسبات (الگوریتم‌ها، دستگاه‌های شخصی، شبکه و غیره) و اطلاعات (مجموعه‌های داده، نظرسنجی، ادبیات، اخبار و غیره) باید با هم ادغام شوند.

2.1.2. داده های مکانی = داده های عظیم قبل از داده های بزرگ

چهل سال پیش نه گوشی هوشمند، نه جی پی اس و نه ایمیل وجود داشت. رایانه‌ها کنسول‌های الفبایی عددی بودند، اما ماهواره‌ها شروع به پر کردن تصاویر زمینی ما کردند. ناگهان، داده‌ها وجود داشتند، مجموعه‌های عظیمی از پیکسل‌ها، که به سختی تبدیل به عکس می‌شد (بدون صفحه نمایش، فقط کنسول‌های الفبایی عددی، و تصاویر باید روی دستگاه‌های گران قیمت چاپ می‌شد): دانشمندان آن زمان را مجبور کرد که داده‌ها را بدون فرصت خرد کنند. برای مشاهده آنها! مقدار داده برای یک پوشش سیاره توسط Landsat خارق العاده است: یک ترابایت. یک پتابایت، فقط از داده های جغرافیایی، در حدود سال 1980 به دست آمد. در سال 2010، مقدار داده های ذخیره شده برای کل سیاره به یک زتابایت رسید [ 2]]. این بهمن پیکسل ها با دیجیتالی شدن بسیاری از داده های دیگر همراه شد که همان ویژگی اساسی را به اشتراک می گذاشتند: آنها مربوط به زمین بودند. اطلاعات جغرافیایی متولد شد. در آوریل 1994، رئیس جمهور ایالات متحده کلینتون فرمان اجرایی را امضا کرد: ” هماهنگی جمع آوری و دسترسی به داده های جغرافیایی: زیرساخت ملی داده های مکانی” (NSDI) . این NSDI به جمع آوری داده های جغرافیایی در سراسر کشور، کاهش هزینه های عملیاتی، و بهبود خدمات داده و تصمیم گیری کمک کرد.

2.2. تنوع و سرعت: ساختار داده قبل از داده های بدون ساختار

2.2.1. از داده های جانبی تا فراداده

ماهواره های مخابراتی فضا را برای بهره برداری اقتصادی باز کردند. بلافاصله پس از آن، ماهواره های آب و هوا و رصد زمین فرصت بعدی بود. سنجش از دور، در ابتدا یک پردازش سیگنال صرف (نمونه‌برداری و کالیبراسیون)، به دلیل گسترش سریع حسگرهای جدید، با لزوم پیوند تصاویر با مختصات زمین یا با تصاویر دیگر مواجه شد: بنابراین استفاده از ابرداده آغاز شد، حتی اگر اولین اصطلاح “داده های جانبی” بود. کتابخانه ها که در دهه 1960 با مشکلات فهرست نویسی مواجه شدند، زبان نشانه گذاری MARC را توسعه دادند که HTML مدیون آن است. سپس، از زمان هسته دوبلیندر سال 1995، پیشوند “meta” نشان‌دهنده بررسی بهتر این است که اولین روش فنی برای ترجمه روابط داده‌ها در زبان کامپیوتر چیست. این کار با اولین پیکسل لندست در سال 1972 آغاز شد: یک سلول تصویری (پیکسل) تقریبی از سطح زمین است که ما سیگنال نمونه برداری منعکس شده (یا گسیل شده) را در محدوده طول موج اندازه گیری می کنیم، اثرات پراش، جذب و غیره را یکپارچه می کنیم. هدف بهبود داده ها از وضعیت «خام» به وضعیت «داده های تصحیح شده» بود. پیکسل‌ها یک به یک پردازش نمی‌شوند، بلکه به‌عنوان یک متغیر آماری که به یک کلاس اختصاص داده می‌شود، به ویژگی‌ها (مثلاً یک پیکسل حاشیه)، که باید در برخی اطلاعات اضافی توضیح داده شود، پردازش می‌شوند. یک “تصویر پردازش شده” چنین اطلاعات زیادی دارد. در اینجا دو نمونه وجود دارد:

رصد زمین: برنامه ” CORINE ” ( “هماهنگی اطلاعات در مورد محیط زیست “: برنامه ای که در سال 1985 توسط کمیسیون اروپا آغاز شد.) که تغییر کاربری زمین در اروپا را با به روز رسانی داده ها از طبقات استخراج شده از تصاویر ماهواره ای نظارت می کند. از فراداده به طور گسترده استفاده می کند [ 3 ].
نقشه کشی خودکار: چگونه توپولوژی را در نمایش بردار داده مشخص می کنید؟ توپولوژی در یک هندسه صحیح، ضمنی است، اما بار محاسبه مجدد آن در هر بار بسیار سنگین است. بنابراین، در دهه 1990، چندین NGI در حال کار بر روی چیزی بودند که در نهایت به ISO 19101 تبدیل شد : مدل مرجع GI (مفهوم زیربنایی مدل چند ضلعی-قوس-گره، با تمام روابط توپولوژیکی است)، مانند جدول 1 ، که می گوید بسته ها ” 2″ و “3” مجاور هستند و اتحاد آنها یک سوراخ واحد را در بسته “1” تشکیل می دهد. مضامین و قوانین را می توان اضافه کرد: ابرداده برای رمزگشایی همه آن اطلاعات اجباری است.

بنابراین، پایگاه‌های اطلاعاتی و پردازش سیگنال باید در هر نقطه‌ای به یکدیگر ملحق شوند.

2.2.2. از ستون های داده تا مکعب های داده

مدل رابطه‌ای یکی از پیشرفت‌های مهم در مهندسی داده بود. بر اساس یک پس‌زمینه ریاضی محکم، به ساختن سیستم‌های «معامله‌ای» قابل اعتماد کمک کرد، که تجارت الکترونیک را شعله‌ور کرد. کهن الگوی مدل رابطه ای صفحه گسترده است که هنوز در دفاتر بسیار محبوب است.

روند جدیدی برای اهداف «تحلیلی» پدیدار شد که در اوایل دهه 1990 سیستم‌های OLAP مورد استفاده در «انبار داده‌ها» توسط اکثر شرکت‌های بزرگ را با وعده کشف رفتار پنهان مشتریان به وجود آورد. کهن الگو «مکعب» است ( شکل 2 را ببینید )، بر اساس مفاهیم: ( الف ) «ابعاد»، در امتداد یک سلسله مراتب خاص (به عنوان مثال، سال، ماه، روز)، که می تواند یک نظم جزئی باشد (به عنوان مثال، هفته ها و ماه ها)؛ ( ب ) “معیارها”، مقادیر ثبت شده برای ابعاد مختلف (به عنوان مثال، نرخ سرطان). و ( ج ) “حقایق”، هر ترکیبی از ابعاد و معیارها. تجمع آنها یک مکعب داده را تشکیل می دهد [ 4 ]. دو بعد (ماتریس) یا سه (مکعب) را می توان به راحتی مشاهده کرد، اما بیشتر (هیپر مکعب) را نمی توان مشاهده کرد.

ماهیت جغرافیایی بیشتر داده‌ها مدت‌هاست که مورد توجه قرار گرفته است: « […] تقریباً 80 درصد از نیازهای اطلاعاتی یک سیاست‌گذار دولت محلی به یک موقعیت جغرافیایی مربوط می‌شود. (“80٪” از آن زمان تا حد زیادی مورد استناد قرار گرفته و به ندرت مورد مناقشه قرار گرفته است). این بیانیه به مقاله ای در سال 1987 توسط ویلیامز برمی گردد [ 5 ]. انبارهای داده با موضوع مدیریت داده‌های مکانی مواجه بودند و ابعاد جدیدی به ابعاد «موضوعی» اضافه می‌کردند: ابعاد توصیفی (مثلاً «کبک»)، یا ابعاد مکانی هندسی (مثلاً خطوط برداری کبک)، که دوباره با مسئله اختلاط مواجه شدند. دو یا چند نمایش بسیار متفاوت از فضا [ 6 ].

هندسه به خوبی با جداول مطابقت ندارد: اگر بخش اطلاعات جغرافیایی اطلاعات جغرافیایی را بتوان در RDBMS ذخیره کرد، بخش “قوس” (مختصات) نه تصاویر (پیکسل) نمی تواند. در طی دو دهه، اطلاعات جغرافیایی به بازار نسبتاً بسته GIS محدود شد. (چند شرکتی GIS را می فروختند: ESRI، Intergraph، MapInfo، و غیره اغلب به عنوان بسته های سخت افزاری-نرم افزاری). در پایان دهه 1990، چندین پیشگام پیشنهاد کردند که OLAP و پایگاه‌های داده فضایی را ترکیب کنند: نمونه اولیه GeoMiner در Simon Fraser [ 7 ]، ترکیبی از GIS–OLAP، که منجر به SOLAP شد (اصطلاح OLAP فضایی یا SOLAP توسط Bédard (1997) معرفی شد. با اشاره به اصطلاح پایگاه داده فضایی) سیستم ها، در دانشگاه لاوال [ 8 ].

آزمایش‌ها بر روی کاربردهای پیچیده، در حمل‌ونقل عمومی یا بهداشت عمومی به صورت آزمایشی انجام شد. به عنوان مثال، ادغام شاخص های ارجاع جغرافیایی ، برای نظارت بر اثرات تغییرات آب و هوایی [ 9 ]، ابزار جدیدی برای کاوش داده ها در مقیاس های مختلف، مناطق و دوره های مختلف و برای تجسم نتایج در نقشه ها، جداول همگام شده فراهم کرد. ، و نمودارها ارتباط آن توسط کاربران نهایی پروژه در جامعه نظارت تایید شد. شکل 2 نحوه ترکیب نسبت (طبقه) جمعیتی که به تنهایی زندگی می کنند (نقشه choropleth)، و نسبت جمعیت با درآمد کم (نمادها) را نشان می دهد که در همان سطح فضایی ترجمه شده است.

2.2.3. جریان، موازی سازی، و پیش پردازش در ژئوماتیک

جنبه سرعت این دوره چندشکل بود. اندازه عظیم تصاویر سنجش از دور آنها را محدود به نوارهای مغناطیسی می کرد. بارگذاری آنها در حافظه اصلی غیرممکن بود: الگوریتم های توسعه یافته بر اساس مفاهیم تقسیم، جریان، و موازی سازی، به محض در دسترس قرار گرفتن اولین پردازنده های به اصطلاح برداری (اواخر دهه 1970) بودند. در سیستم‌های OLAP، گلوگاه، عملیات «پیوستن» زمان‌بر است، در DBMS رابطه‌ای: پاسخ این است که همه اتصال‌های ممکن را از قبل محاسبه کنیم – یا تا آنجا که ممکن است – به منظور ارائه پاسخ سریع برای تجسم تعاملی. یک اشکال این است که پیش محاسباتی باید پس از هر درج/حذف در پایگاه داده، که مستلزم توسعه روش‌های کارآمد برای تحقق مکعب‌های فضایی است، دوباره انجام شود [ 10 ].

با این حال، جنبه سرعت هرگز در ژئوماتیک تحت محدودیت‌های یکسانی مانند Big Data امروز مورد توجه قرار نگرفته است. سرعت در ژئوماتیک یک مسئله بود: (الف) در پردازش حجم بالای داده. و (ب) برای تجسم تعاملی، همانطور که در بالا با مکعب داده مشاهده شد. در آن زمان، AOL-Mapquest نقشه برداری اینترنتی را افتتاح کرد و نقشه های گوگل برای اولین بار در سال 2004 برای ایالات متحده منتشر شد. سپس، بزرگترین آژانس های نقشه برداری ملی پورتال های دسترسی عمومی خود را راه اندازی کردند: Ordnance Survey، IGN، USGS، Geomatics Canada، محیط مبتنی بر شبکه برای این آژانس‌ها محیطی آشنا یا دوستانه نبود و آنها باید با مشکلاتی مواجه می‌شدند که برای آنها آماده نبودند، مانند تأخیر زمانی و خروج بسته‌های داده [11] .]. حل این مشکلات بیرونی بود. در نتیجه، انتشار و در نهایت بازار اطلاعات جغرافیایی به دست بازیگران اصلی Big Data افتاد.

علاوه بر این، امروزه استفاده گسترده از ویدئو در اینترنت باعث توسعه الگوریتم‌های جریان بسیار کارآمدتر شده است، که بعداً می‌تواند استفاده از ابزارهای جدید در ژئوماتیک (مثلاً دوربین‌های نظارتی و ویدئویی پهپادها) را امکان‌پذیر کند.

2.3. ارزش، اعتبار، صحت و تغییرپذیری: تبدیل داده ها به دانش

2.3.1. ارزش افزوده شده توسط پردازش داده: از تجزیه و تحلیل داده تا داده کاوی

از اوایل قرن بیستم (Nyquist (1928) و Shannon (1949) از نویسندگان مشهور در تئوری انتقال هستند)، پردازش سیگنال زمینه تحقیقاتی در رویکردهای آماری، تصادفی یا تبدیل داده‌ها و همچنین برای روش‌های محاسباتی فشرده بوده است. الگوریتم های کارآمد الگوریتم Cooley-Tukey برای FFT در سال 1965 منتشر شد. تجزیه و تحلیل داده های اکتشافی (EDA)، منتشر شده در سال 1977 [ 12 ]، به تحلیل فوریه مرتبط است. این اصطلاح ممکن است قدیمی به نظر برسد، اما EDA به ترویج تحقیقات در محاسبات پیشرفته کمک کرد. به عنوان مثال، اجازه دهید الگوریتم‌های سلسله مراتبی را برای طبقه‌بندی پیکسل‌ها، که با تصاویر Landsat استفاده می‌شوند [ 13 ]، یا رویکردهای پیچیده‌تر برای طبقه‌بندی بدون نظارت، مانند «خوشه‌های پویا» [ 14] به یاد بیاوریم.].

Alpilles-ReSeDA (همسان سازی داده های سنجش از دور)، کنسرسیومی متشکل از 10 شریک اروپایی طی دوره 1995-1998، با تمرکز بر پایش خاک و پوشش گیاهی در مقیاس های مختلف [15]، یکی از اولین تلاش های بین المللی برای دستیابی به ادغام چندگانه در مقیاس بزرگ بود. داده های حسگرها (مانند شکل 3 ): تصاویر ماهواره ای (مرئی، مادون قرمز، رادار)، نمونه های خاک، سوابق آب و هوا، بررسی های کشاورزی. حداکثر شش تاریخ و 14 طول موج در کل سایت آزمایش (25 کیلومتر مربع ^{) جمع آوری شد.}، و پس از ثبت پیکسل، albedo و سایر کالیبراسیون ها قابل بهره برداری می شود. LAI (شاخص سطح برگ)، نسبت نرمال شده بین طول موج سبز و نزدیک به مادون قرمز، برای پوشش گیاهی، در هر تاریخ، و بین انواع پوشش گیاهی در تاریخ های مختلف بسیار متمایز است [16 ] . این قدرت تمایز با تجزیه و تحلیل مؤلفه اصلی 6 تاریخ LAI نشان داده شده است.

ساختن کلاس‌ها از داده‌های شطرنجی (خوشه‌بندی)، در فضای برداری چند تاریخ LAI (یک دوجین کیلو هشتت) محاسبه می‌شود. اختصاص یک کلاس به صدها هزار پیکسل توسط یک جدول جستجوی ساده انجام می شود. این عدم تقارن در کاردینالیته باعث شد متخصصان سنجش از دور به جای خوشه‌بندی «سلسله مراتبی تجمعی» از «تقسیم‌کننده» استفاده کنند. با کل مجموعه شروع می شود، سپس با دوگانگی های متوالی از بالا به پایین کار می کند. خوشه‌بندی از بالا به پایین عموماً پیچیده‌تر از خوشه‌بندی از پایین به بالا است: O(2 ⁿ )، به جای O(n2 ⁾ برای اکثر روش‌های انباشته. با این حال، اگر ما یک سلسله مراتب کامل ایجاد نکنیم، این مزیت را دارد که کارآمدتر باشد [ 17]]. این فرآیند دوگانگی‌های متوالی را با یک الگوریتم k-means (k=2) ایجاد می‌کند، که با دو مرکز اولیه شروع می‌شود: در هر مرحله، مرکز اول از مقدار پیک هیستوگرام‌های کمترین خوشه منسجم (سانتروید دوم) مقداردهی اولیه می‌شود. می تواند حالت دوم هیستوگرام یا هر مقدار بسیار متفاوتی باشد). بهترین عدم تشابه با به حداکثر رساندن “عدم تشابه بین خوشه ای” یا به حداکثر رساندن “شباهت درون خوشه ای” به دست می آید. دندروگرام ( شکل 4 ، سمت چپ) از بالا به پایین ساخته می شود، تا زمانی که به تعداد مناسبی از کلاس ها (چند ده) برسد. ارتفاع دندروگرام متناسب با شباهت درون خوشه ای است: می توان از آن برای مشخص کردن “کیفیت” خوشه های به دست آمده برای یک سطح خاص استفاده کرد (نسخه ای از این الگوریتم، DIANA–Divisive Analysis Clustering-، اکنون بخشی از بسته R است.

در نهایت، تمام پیکسل‌های یک قطعه زمین بر اساس کلاس میانگین ارزش پیکسل آن قطعه طبقه‌بندی می‌شوند، که امکان ترسیم آنها را بر روی نقشه فراهم می‌کند ( شکل 4 ، سمت راست: سه سایه سبز برای سه کلاس).

جالب است بدانید که در سال 1990، کافمن و روسو در حال نوشتن « در ادبیات، روش های تفرقه افکنی تا حد زیادی نادیده گرفته شده است. (در واقع، وقتی مردم در مورد خوشه‌بندی سلسله مراتبی صحبت می‌کنند، اغلب منظورشان خوشه‌بندی تجمعی است.) » [ 17 ]. علاوه بر این، برای یادآوری احیای اخیر (2008): « شواهدی وجود دارد که الگوریتم‌های تقسیم‌کننده سلسله مراتب دقیق‌تری نسبت به الگوریتم‌های پایین به بالا در برخی شرایط ایجاد می‌کنند. روش‌های پایین به بالا تصمیمات خوشه‌بندی را بر اساس الگوهای محلی بدون در نظر گرفتن اولیه توزیع جهانی می‌گیرند. این تصمیمات اولیه قابل لغو نیستند. خوشه‌بندی از بالا به پایین از اطلاعات کامل در مورد توزیع جهانی هنگام تصمیم‌گیری پارتیشن‌بندی سطح بالا سود می‌برد .» [ 18].

اکنون می‌توانیم انتظار داشته باشیم که برای چندین موقعیت، کاردینالیته فضای متغیر بسیار بیشتر از کاردینالیته فضای ارزش افزایش یابد و وضعیت مطلوب خوشه‌بندی در سنجش از دور را بازتولید کند: خوشه‌بندی از بالا به پایین ممکن است در داده‌های بزرگ احیا شود.

اصطلاح مهم دیگر، “داده کاوی” به اواسط دهه 1990 باز می گردد و برای دانشمندان پایگاه داده به عنوان یک رویکرد عملیاتی “یادگیری ماشینی” آشنا است. یادگیری ماشین، که پایه های آن ماشین تورینگ است، بیشتر نظری است: بر اساس منطق و حساب لامبدا. ماشین‌های بردار پشتیبان (SVM) – کهن‌الگوریتم‌های یادگیری ماشین – به‌عنوان طبقه‌بندی‌کننده‌های خطی باینری غیراحتمالی [ 19 ] توسعه یافتند، و مانند ابزارهای مشابه، ارزش غیرقابل انکاری به تجزیه و تحلیل بسیاری از داده‌های جغرافیایی اضافه کردند. امروزه، این اصطلاحات کم و بیش در کلمات متوالی هوش تجاری، تجزیه و تحلیل داده ها و داده های بزرگ پیچیده شده اند. با وجود تفاوت‌های دیگر، واقعیت این است که جریان اصلی از پردازش سیگنال به تجارت الکترونیکی تغییر کرده است.

2.3.2. صحت، عدم قطعیت داده: از دقت تا شاخص های کیفیت

اطلاعات جغرافیایی با «دنیای واقعی» سروکار دارد. از نظر فنی، بیان می‌کند که جهان واحدی وجود دارد که می‌توان آن را با ابزارهای مختلف، در مقیاس‌های مختلف، از دیدگاه‌های متعدد اندازه‌گیری کرد، اما در نهایت همه چیز باید قابل مکان‌یابی و سازگار ( منطقی ) باشد، زیرا یک جهان واحد وجود دارد.

در ابتدا، کیفیت اندازه‌گیری‌ها به دقت محدود بود: یک پیکسل خاص چه نقطه خاصی را در زمین نشان می‌دهد؟ سهم رادیومتری این نقطه در مقدار پیکسل چقدر است؟ ثبت تصویر و ادغام حسگرها سخت ترین کارها در دهه 1970 بودند. کمی بعد، اعتماد به طبقه بندی داده ها مسئله بزرگی بود. اتحاد جماهیر شوروی واقعا چقدر گندم دارد؟ بزرگ‌ترین رایانه‌های ایالات متحده در آن زمان، در طول هفته‌ها، روز و شب، پیکسل‌ها را برای پاسخ به چنین سؤالی در هم می‌کوبیدند (اکنون، ابررایانه‌های NSA در حال پردازش تریلیون‌ها ایمیل هستند).

هنگامی که ادغام تصاویر سنجش از دور و پایگاه‌های اطلاعاتی جغرافیایی آسان‌تر شد، سؤالات پیچیده‌تری در دسترس بود. افزایش وضوح زمین زمینه های جدیدی را برای ما باز می کند: از محصولات مستطیلی بزرگ غرب میانه در اولین تصاویر Landsat تا باغ های پشت بام شهری. در حال حاضر ژئوماتیک می تواند علم را با جامعه شناسی صحبت کند، همانطور که با کشاورزی در دهه 1980 انجام داد.

چالش در مورد کیفیت دیگر صرفاً در مورد دقت داده ها نیست. چندین شاخص کیفیت طراحی شده است و حوزه کیفیت بر اساس اجماع بین المللی ساختار یافته است. (کمیته فنی ISO TC211 برای انتشار استانداردهای اطلاعات جغرافیایی ایجاد شد). استانداردهای ISO 19101: “مدل مرجع” و ISO 19113: “اصول کیفیت” در سال 2002 صادر شدند که منعکس کننده یک زمینه مشترک هستند ( جدول 2 را ببینید).) بین سازمان های مختلف نشنال جئوگرافیک. دفاتر ملی آمار، و نهادهای بین المللی، مانند سازمان ملل متحد، OECD (سازمان همکاری اقتصادی و توسعه) و یورواستات. یکی از نتایج مهم دقیقاً تمایز بین علل عدم اطمینان (دقت، سازگاری و نامگذاری) بود که به نحوی منعکس کننده تفاوت بین صحت، اعتبار و تنوع بود.

2.3.3. روایی، سازگاری داده ها: دانش منطقی از دانش نامطمئن

درک بسیاری از علل عدم قطعیت داده ها، تقریب های زیادی را که در طول فرآیند جمع آوری و اندازه گیری داده ها، حتی ساده ترین داده ها (به عنوان مثال، دمای زمین) انجام می شود، روشن می کند.

با توجه به اینکه داده ها همیشه تا حدودی نادرست هستند و همیشه به یک مدل بستگی دارند که به طور ناقص جنبه ای از واقعیت را نشان می دهد، ارائه دستورالعمل ها مهم است. هر بار که می‌توانیم یک محدودیت وارد کنیم، می‌توانیم با داده‌ها مقابله کنیم و برای هر درگیری شناسایی شده یک هشدار صادر کنیم. شکل 5 زیر یک تصویر فوری از آزمایشی است که در طول پروژه اروپایی REV!GIS (بازبینی در GIS: پروژه برنامه چارچوب پنجم، شامل دانشگاه‌های Keele، Laval، Leicester، Marseilles، Pisa، TUW Vienna، Twente ITC) توسعه یافته ^است . داده های سیل نامشخص با استفاده از جهت های جریان به عنوان محدودیت [ 20]. نمودارهای بالا-چپ و پایین-چپ نشان می دهند که چگونه دو مدل، برای دو ناحیه فضایی مجاور، می توانند به طور مستقل از نظر منطقی سازگار باشند، اما در صورت ادغام می توانند به یک مدل ناسازگار منجر شوند. با استفاده از جهت جریان و محدودیت ها، حداقل و حداکثر برآورد ارتفاع آب را می توان بهبود بخشید (کوچک کردن فواصل)، یا گاهی اوقات برای ایجاد مجدد سازگاری جهانی، بزرگتر شد. این فرآیند از نظر محاسباتی گران است: چنین الگوریتم‌های هوش مصنوعی NP-hard (برای غیر چند جمله‌ای) نامیده می‌شوند: هوش مصنوعی ممکن است راه‌حل‌هایی به همراه داشته باشد و همچنین ممکن است مشکلات جدیدی را ایجاد کند.

این مثال شرایطی را نشان می دهد که در آن نیاز به ادغام (یا برای “تلفیقی”: این اصطلاح در جامعه بازنمایی دانش و استدلال رایج تر است) اطلاعات کمی (مثلاً اندازه گیری مستقیم یا تجزیه و تحلیل پیکسل) و اطلاعات کیفی (مثلاً دامنه) وجود دارد. قوانین خاص یا متخصص، محدودیت ها، غیرممکن های شناخته شده یا استثنائات). این احتمالا یکی از چالش های بعدی برای تجزیه و تحلیل داده های بزرگ است.

در سال 2008، انتشار “گرایش های آنفولانزا” توسط گوگل به دنبال جستجوهای اینترنتی مورد توجه رسانه ها قرار گرفت. در سال 2011، کامپیوتر IBM Watson دو قهرمان “Jeopardy” را شکست داد: پروژه DeepQA پشت سر واتسون از استدلال اطلاعات جغرافیایی برای پاسخ دادن به سوالاتی مانند ” این دو ایالت هستند که در صورت عبور از فلوریدا می توانید دوباره وارد آن شوید.” مرز شمالی » [ 21 ]. جبر بازه‌ای آلن، جبرهای RCC «Mereotopology» یا «حساب اتصال منطقه» [ 22 ، 23 ] که در دهه 1980 توسعه یافت، دقیقاً توسط IBM Watson برای محدود کردن پرس و جوها و محدود کردن و کارآمدتر کردن پاسخ‌ها استفاده می‌شود.

استدلال تحت محدودیت ها به خوبی با استدلال تصادفی هماهنگ است و الگوریتم های شبکه بیز با موفقیت برای توسعه شبیه سازی فضایی استفاده شده است [ 24]]. به عنوان مثال، پیروی از یک رویکرد سه مرحله‌ای: (الف) یک نمودار اولیه – یک شبکه بیز – از مجموعه‌ای از پارامترها مشتق شده است که احتمالاً با روابط علی همبستگی دارند و در یک قلمرو در دو سال متوالی مشاهده می‌شوند. (ب) محدودیت های اضافی (مثلاً قوانین ژئوفیزیک) برای “بهبود” نمودار محاسبه شده با دانش پیشینی متخصص استفاده می شود. و در نهایت، (ج) این نمودار بهبودیافته که با مقادیر جمع‌آوری‌شده در تاریخ جدید تغذیه می‌شود، یک پیش‌بینی از آنچه باید در سال آینده اتفاق بیفتد ارائه می‌دهد. این رویکرد، که می‌تواند «سیستم‌های خبره» دهه 1970 را به ما یادآوری کند، با ظهور تحلیل‌های تجاری محبوبیت زیادی پیدا می‌کند. مایکروسافت رویکردهای مشابهی را در الگوریتم MS Naive Bayes خود پیاده‌سازی کرده است، که این شرکت آن را برای تولید سریع مدل‌های استخراج برای کشف روابط بین ستون‌های ورودی و ستون‌های قابل پیش‌بینی مفید توصیف می‌کند.

2.4. هستی شناسی ها و تنوع: داده ها اعمال هستند نه واقعیت

جغرافی دانان هنوز ویژگی های زمین را طبقه بندی می کنند، هنوز زمین را منطقه بندی می کنند، اما توجه بسیار بیشتری به معنای فرآیند، تفسیرپذیری یک نتیجه، و مناسب بودن برای تصمیم گیری معطوف شده است. Geomatics همچنین این سوال را مطرح کرد که در داده ها چه چیزی وجود دارد. توافق مشترک، کیفیت داده ها و قابلیت استفاده تنها برخی از جنبه های مختلف چیزی است که اغلب به عنوان “هستی شناسی شما چیست؟” خلاصه می شود. و مشکل بعدی “همسویی هستی شناسی” [ 25 ، 26 ].

اصطلاح “هستی شناسی” با معرفی مفهوم وب معنایی (استفاده از نشانه گذاری به عنوان کمکی برای روبات های اینترنتی برای ایجاد روابط بهتر بین قطعات وب) مورد توجه عموم قرار گرفته است. در ژئوماتیک، تحقیقات در مورد هستی شناسی ها به دلیل تنوع شدید نامگذاری و نمایش اشیاء جغرافیایی توسعه یافت. سوال “جنگل چیست؟” یک نمونه علامتی از تنوع است که می تواند بسته به کشورها و کاربران معرفی شود [ 27 ، 28 ]. این نشان می‌دهد که نه «استفاده از زمین» و نه «پوشش زمین» واژه‌های خنثی نیستند، بلکه همیشه انتخاب‌هایی هستند که در یک زمینه خاص در زمان و هدف انجام می‌شوند. یک سوال کلی تر که توسط فیلسوف کواین پرسیده شده است: « آنجا چیستاست؟»، «هستی‌شناسی‌ها» (علم اطلاعات) و هستی‌شناسی (فلسفه) [ 29 ] را از طریق فرض یک جهان جغرافیایی واحد نزدیک‌تر می‌کند.

بافت فضایی که توسط «آنجا» به ارمغان می‌آید، ماهیت اطلاعات جغرافیایی است و اگر دو مشاهده در یک مکان انجام شود، رابطه‌ای بین آنها وجود دارد ، هر چه که باشند، حتی اگر متعلق به دو متفاوت باشند. هستی شناسی ها علاوه بر این، می‌توان پرسید که آیا «همسویی هستی‌شناسی» به نحوی امکان‌پذیر است. مشکل ادغام سلسله مراتب مفهومی با استفاده از اتصالات Galois، در اواخر دهه 1990 مورد بررسی قرار گرفت [ 30 ].

پروژه CLC اروپایی پوشش CORINE-Land که قبلاً ذکر شد [ 5 ]، با این مسئله هم ترازی مواجه شد، زمانی که چندین کشور مجبور بودند با بررسی‌های قبلی پوشش زمین خود، با لزوم هماهنگی با اروپا مقابله کنند. به طور خاص، LCMGB بریتانیا (نقشه برداری پوشش زمین بریتانیای کبیر) بر اساس طبقه بندی تقسیم شده به 27 کلاس و 72 نوع، در مقابل 44 کلاس برای CLC ساخته شد [31 ] .

شکل 6 نمودارهای (ساده شده) حاصل از دو بررسی مختلف از یک منطقه را نشان می دهد. هر قطعه زمین یک ارزش کلاسی از هر دو بررسی دریافت می کند، و ما می توانیم دو شبکه گالویز را استخراج کنیم ( شکل 6 ): نظم جزئی (به عنوان مثال، جنگل > نیمه طبیعی) این واقعیت را منعکس می کند که هر قطعه مشاهده شده و طبقه بندی شده به عنوان “جنگل” ، به عنوان “نیمه طبیعی” نیز گفته می شود . هدف این نیست که یک طبقه‌بندی را مجبور کنیم که در طبقه‌بندی دوم قرار گیرد، بلکه بهتر درک کنیم که کدام کلاس‌ها می‌توانند هنگام مقایسه هستی‌شناسی‌ها مشکل‌ساز باشند [ 32]]. ما دو فرض را می پذیریم: (1) قطعات زمین متعلق به یک جهان جغرافیایی هستند و می توانند مستقیماً شناسایی شوند، مشروط بر اینکه اشتباهات هندسی به درستی تصحیح شده باشد. و (2) طبقات “گیاهی” دو شبکه قرار است همان جهان مشترک باشند. جغرافیا اجازه می دهد تا چنین فرضیه هایی را ایجاد کنید، چیزی که لزوماً برای سایر منابع اطلاعاتی در داده های بزرگ، مانند پروفایل های مشتری، صادق نیست.

روش به دست آوردن نمودار شکل 7 مراحل زیر را دنبال می کند:

با استفاده از همان مجموعه بسته ها به عنوان کلید یکتا، یک رابطه جدید ساخته می شود، به عنوان اتحاد دو رابطه اصلی: این یک رابطه عملکردی است.
یک شبکه Galois مشتق شده است: گره های جدید پدیدار می شوند، و نظم جزئی جدید مستقیماً از مشاهدات مشتق می شود، نه از دو مرتبه جزئی اصلی.
گره های جدید باید بر حسب ترکیبی از دو طبقه بندی اصلی تفسیر شوند: اشاره می کند که برخی از کلاس های اصلی مشکل سازتر هستند، به عنوان مثال، یک قطعه چمنزار از دنیای واقعی می تواند در طبقه بندی 2 به عنوان علفی (زرد) طبقه بندی شود. اما یا علفزار، سپس نیمه طبیعی، یا کشاورزی، در طبقه بندی 1 (سبز).
شاخص‌های کیفیت را می‌توان به طبقه‌بندی‌های اصلی، سنجیده با مناطق انباشته بسته‌های مرتبط، یا با هر داده زمینه‌ای، برای تعیین کمیت عدم قطعیت متصل به هر گره جدید، پیوست کرد.

فرآیند کلی، نشانه‌های مفیدی در مورد چگونگی تصمیم‌گیری ارائه می‌دهد، برای مثال اگر منطقه مورد نظارت بسیار بزرگ‌تر از منطقه آزمایشی بالا باشد، و هدف این است که هر بسته طبقه‌بندی‌شده در یک طبقه‌بندی را مجبور کنیم تا به دیگری ترجمه شود. این مشکل ترجمه LCMGB به CLC بود.

این یک تراز هستی شناسی پسینی تحت محدودیت های فضایی است. محدودیت‌های قبلی اضافی (ترتیب جزئی) ممکن است مانند مثال خالص Bayes در بخش قبل معرفی شده باشند.

بدیهی است که تصمیم گیرندگان به طور فزاینده ای برای تهیه و تصمیم گیری خود به داده ها تکیه می کنند، اما تعداد کمی از آنها از آنچه در پس این داده ها نهفته است آگاه هستند و این که آنها از بسیاری از انتخاب های غیرمستند و فرآیندهای کوچک تصمیم گیری در همه مراحل ناشی می شوند. . از این رو، داده‌ها از مجموعه‌ای از تصمیم‌گیری‌ها، در زمینه خاصی که می‌تواند توسط هستی‌شناسی‌ها نمایش داده شود، حاصل می‌شود.

توجه: آژانس محیط زیست اروپا مجموعه داده های CORINE-Land-Cover را از سال های 1990، 2000، 2006 و 2012 ارائه می دهد. برخی از تغییرات در روش طبقه بندی در طول زمان ارائه شده است. مجموعه داده های 1990 اصلاح شده است تا با سال 2000 “سازگارتر” باشد، اما تغییرات جدیدی بعداً ارائه شد و مجموعه داده اصلی 1990 دیگر در دسترس نیست. از این رو بخشی از معناشناسی از بین رفته است. این می‌تواند درسی برای Big Data باشد: چندین نسخه تاریخی از مجموعه داده‌های مشابه را می‌توان به‌جای نگه‌داشتن آخرین نسخه‌ها، در لحظه پردازش کرد.

در یک زمینه علمی متفاوت، آموختن اینکه چگونه باستان شناسان داده های مربوط به مصنوعات را جمع آوری می کنند، و چگونه فرآیند جمع آوری را مستند می کنند، آموزنده است: “داده ها حقایق نیستند، بلکه اعمال هستند”، پایان نامه اصلی [33] است که بیان می کند که اطلاعات جغرافیایی باید با مجموعه ای از فعالیت ها نشان داده شود، نه با مجموعه داده ها. موضوع کیفیت داده‌های مکانی از هستی‌شناسی‌ها استفاده می‌کند، به‌ویژه برای تمایز مفهوم کیفیت خارجی (کیفیت برای کاربر، یا کیفیت «فعال‌شده»)، در مقابل کیفیت (داخلی یا غیرفعال) اعلام‌شده توسط ارائه‌دهندگان داده. 34 ].

3. بحث

آیا می توانیم بگوییم که ژئوماتیک قبل از ابداع این اصطلاح با داده های بزرگ سروکار داشت؟

بیایید سعی کنیم موانعی را که ژئوماتیک طی چهار دهه بر آن ها غلبه کرده است، خلاصه کنیم، و اجازه دهید آنها را از طریق منشور هفت V که برای مشخص کردن داده های بزرگ فراخوانی می کنند، دوباره مرور کنیم. برخی از درس های آموخته شده توسط ژئوماتیک ممکن است هنوز برای Big Data مفید باشد. متقابلا، اهمیت Big Data به عنوان تبدیل شدن به مخزن منحصر به فرد برای هر روش جمع‌آوری و انتشار اطلاعات، و برای همه روش‌ها و الگوریتم‌های پردازش اطلاعات، دانشمندان و مهندسان ژئوماتیک را وادار می‌کند تا خود را در این زمینه جدید تغییر مکان دهند.

3.1. جلد

از سال 1972، حجم داده‌ها بسیار زیاد بوده است، بیش از ظرفیت‌های محاسباتی معمول آن زمان، که توسعه ابزارهای خاصی را برای کاهش زمان محاسبات تا حد قابل قبول ضروری می‌کند. اکنون، تفاوت اصلی در استفاده بسیار گسترده‌تر از این داده‌ها، توسط افراد بسیار بیشتر است. ذخیره سازی کارآمد دیروز یک مشکل برای سنجش از راه دور بود، همانطور که امروز برای Big Data، احتمالاً با ریسک های مشابه بالا، مشکلی بود. ارتباط از طریق شبکه ها در آن زمان وجود نداشت و ضرورت دسترسی سریع به داده ها اکنون یک چالش است. مفهوم ” MapReduce ” پیشرفت عمده سیستمی است که “داده های بزرگ برای همه” را امکان پذیر می کند، اگرچه محاسبات موازی 40 سال پیش لکنت داشتند.

3.2. سرعت

نوع داده ها و همچنین نوع کاربرانی که در ژئوماتیک می توانستیم ببینیم تا اواسط دهه 2000 به مسائل مربوط به انتشار داده ها وابسته نبود. بیشتر تصاویر، تصاویر ثابت بودند. نقشه ها هر روز به روز نمی شوند. برخی استثناها، مانند پردازش تصاویر آب و هوا، به متخصصان خاصی محدود می شد. انتشار نقشه های آنلاین، از جمله نماهای هوایی و خیابانی، بازار را عمیقاً تغییر داده است. استفاده اخیر و به سرعت رو به رشد از پهپادها برای تصاویر هوایی نزدیک، تغییری عمیق را ایجاد می کند، مانند معرفی گسترده حسگرهای محیطی (اینترنت اشیا) – بدون فراموش کردن دوربین های نظارتی. اکنون این فرصتی برای بازیکنان Big Data است تا دامنه فعالیت‌های خود را به تقریباً همه بخش‌های Geomatics گسترش دهند.

3.3. تنوع (و تجسم)

داده های ژئوماتیک در ابتدا عمدتاً اندازه گیری، سیگنال، هندسه، سری زمانی بودند. پیوند با اطلاعات زبان ساده محدود به نوع متن کمیاب بود که می‌توانیم روی نقشه‌ها چاپ کنیم. چالش با داده‌هایی که به‌طور هم‌زمان بزرگ و متنوع هستند، با آوردن ساختاری برطرف شد: از حداقل داده‌های جانبی، برای تصاویر، تا منطق‌های مرتبه اول (مدل رابطه‌ای) برای داده‌ها با پایگاه‌های داده. در دهه 1990، رویکرد تحلیلی، پیش پردازشگرهای دیگری را معرفی کرد که به بازسازی (به عنوان مثال، ETL، استخراج-تبدیل-بار) اطلاعات اولیه، در امتداد چندین بعد انتخاب شده اختصاص داده شده بودند.

از سوی دیگر، قلمرو داده‌های بزرگ سرزمین «verbum» را در بر می‌گیرد، مانند انجیل یوحنا: « In principio erat Verbum ». Verbum استخراج شده از وب سایت ها، از شبکه های اجتماعی شامل تریلیون ها سند پراکنده، پراکنده و نامرتبط (بدون ساختار) در هر نقطه از اینترنت است. به اصطلاح «ربات‌ها» سعی می‌کنند پاسخ‌ها را به هر درخواست مرتبط و رتبه‌بندی کنند (یعنی فهرست‌بندی اینترنت)، از جمله درخواست‌های پیچیده و چند شکلی (تحلیل داده‌ها). این پیش پردازش “در حال پرواز” گسترش قابل توجهی از کاری است که “انبار داده ها” انجام می دهند، اگرچه تا همین اواخر ساختار بسیار کمتری داشتند. XML و هستی‌شناسی ابزارهای کلیدی برای ساختاردهی این قلمرو بدون ساختار از verbum هستند.

مفهوم داده های بدون ساختار 30 سال پیش مورد استفاده قرار نمی گرفت: پایگاه های داده رابطه ای در حال افزایش بودند. اصطلاح داده های نیمه ساختار یافته در سال 1995 ظاهر شد و XML برای اولین بار در سال 1997 ایجاد شد. با این حال، NoSQL SQL را پاک نمی کند: برای مثال، سرویس Big Query توسط Google از SQL استفاده می کند. در این میان، ظهور محاسبات ابری توسعه جهانی “داده های بزرگ به عنوان یک سرویس” (BDaaS) را بسیار تسهیل می کند. Teich می‌گوید [ 35 ]: « زبان برنامه‌نویسی SQL بهترین وسیله برای دسترسی و جستجوی داده‌ها است، چه در پایگاه‌های داده رابطه‌ای، چه سیستم‌های NoSQL یا خوشه‌های Hadoop ».

3.4. ارزش، صحت، اعتبار و تغییرپذیری

سه V – حجم، سرعت و تنوع – کار خوبی برای تعریف داده های بزرگ انجام می دهند. […] تغییرپذیری، صحت، اعتبار و ارزش از ویژگی‌های کلان داده تعریف ذاتی نیستند. آنها مطلق نیستند. در مقابل، آنها منعکس کننده کاربردهایی هستند که شما برای داده های خود در نظر دارید. آنها به نیازهای تجاری خاص شما مربوط می شوند » [ 36 ]. اگر داده های بزرگ را نه تنها به عنوان یک پلت فرم، بلکه به عنوان یک سرویس (BDaaS) در نظر بگیریم، این بیانیه اهمیت این مجموعه اضافی از “Vs” را آشکار می کند.

در دهه 1970، زرادخانه کامل ابزارهای ریاضی (تقریبا) آنجا بود. تجزیه و تحلیل اجزای اصلی، تشخیص الگو، پرس و جوهای فضایی پیچیده، تصمیم گیری، تجزیه و تحلیل داده های اکتشافی و غیره، پایه های یادگیری ماشین و تجزیه و تحلیل داده ها هستند. اگر عمیقاً به الگوریتم های امروزی نگاه کنید، می توانید میراث پردازش جغرافیایی را بیابید: از IBM Watson بخواهید که شهادت دهد!

صحت نزدیک به چیزی است که geomatics آن را “کیفیت داده” می نامد. این جنبه به طور گسترده توسط ارائه دهندگان داده های مکانی (به عنوان مثال، سازمان های غیر دولتی)، از جمله به دلایل قانونی، مورد مطالعه قرار گرفته است. این هنوز در مورد کلان داده صادق نیست، زیرا روابط و همبستگی ها بر روی اطلاعات متنی به جای اندازه گیری های فیزیکی محاسبه می شوند. با این حال، روند این است که به این جنبه و همچنین دو جنبه دیگر عدم قطعیت، که اعتبار و متغیر بودن است، توجه بیشتری شود. این عبارت بعدی به عنوان یک “V” دیگر برای داده های بزرگ اضافه شد: “[ بر اساس تغییرپذیری ]منظورم تنوع در معنا، در فرهنگ لغت است. بهترین مثال برای آن مشکل تغییرپذیری است که [ابر رایانه] واتسون در IBM در تلاش برای حل آن بود. [واتسون] پاسخی می‌گرفت و باید آن پاسخ را به معنای آن تشریح می‌کرد و سپس تلاش می‌کرد تا در آن زمان پاسخ سه ثانیه‌ای بفهمد که سؤال درست چیست » [ 37 ]. این چشم انداز کاملاً شبیه مفاهیمی است که با هستی شناسی ها و همسویی آنها بررسی شده است.

3.5. نتیجه گیری

حدود 40 سال پیش، تکثیر تصاویر سنجش از دور، نقشه‌برداری خودکار، و افزایش سریع قدرت محاسباتی فرصتی برای ادغام و پردازش حجم عظیمی از داده‌ها فراهم کرد. ژئوماتیک مانند زیست شناسی در آن لبه بود، زیرا توالی یابی DNA در دهه 1990 به الگوریتم های یادگیری ماشین کمک زیادی کرد، به ویژه برای پردازش متن. با این حال، ویژگی ژئوماتیک تنوع زیاد منابع اطلاعاتی آن است و بنابراین، تنوع زیادی از چالش ها برای غلبه بر آن است.

این یافته به این پرسش که چه درس هایی می توان از این چهار دهه گرفت، مشروعیت بخشید. ظهور ژئوماتیک، به عنوان یک سیستم جامع از فن آوری ها، شیوه ها و محصولات، و سپس با محو شدن نسبی فعلی آن، نشانه تغییرات بزرگتری است که در آن دوره رخ داده است. شکل 1 نشان می دهد که هوش مصنوعی و پایگاه های داده سرنوشت مشابهی را دنبال کرده اند. شکل 1 همچنین نشان می دهد که این تغییر در سال 1995 رخ داده است، زمانی که استفاده از اینترنت بردار اصلی تقریباً هر توسعه فناوری عددی دیگری شد.

درس 1: در ژئوماتیک، موضوع نمایش اطلاعات بالاترین چالش بوده است: (الف) غلبه بر فرمت های بسیاری برای داده های شطرنجی یا داده های برداری. (ب) برای نمایش ابرداده های پیچیده، تا هستی شناسی ها. و (ج) سپس برای کمک به فرآیندها برای تبدیل شدن به یکپارچه با یکدیگر، تا ادغام اطلاعات. Big Data می‌تواند بر اساس XML یا JSON ایجاد شود و برخی منطق‌ها را با RDF و OWL اضافه کند، اما چالش ادغام اطلاعات همچنان زیاد است.

درس 2: عدم قطعیت در همه جا وجود دارد، و مشاهدات دنیای واقعی با سطوح مختلف کیفیت متفاوت، که هر فرآیند ترکیب اطلاعاتی باید همراه با داده ها باشد، مانع مشاهدات دنیای واقعی می شود، چیزی که پیچیدگی را به صورت تصاعدی افزایش می دهد. حدود دو دهه طول کشید تا مسائل کیفیت به یک دغدغه اصلی در ژئوماتیک تبدیل شود. در Big Data که عمدتاً توسط اتوماسیون بازاریابی هدایت می شود، آگاهی از کیفیت هنوز یک نگرانی عمده نیست، اما باید به زودی رخ دهد، به عنوان مثال برای تجزیه و تحلیل شکست Google به [ 38 ] مراجعه کنید.

درس 3: کوهن نوشت [ 39 ]: «تصمیم به رد یک پارادایم همیشه تصمیم به پذیرش پارادایم دیگر است». انتشار نقشه های AOL و Google و به دنبال آن گسترش گسترده ناوبرهای GPS همراه با تلفن های هوشمند، در نهایت تصمیم گرفت که ژئوماتیک اکنون بخشی از داده های بزرگ است. اگرچه همه آگاه نیستند. تأثیر آن برای شرکت‌ها، برنامه‌های درسی دانشگاه‌ها و برای نوع مشاغلی که ارائه خواهد شد، مهم خواهد بود. آینده احتمالاً برای نسل گسترده‌ای از «دانشمندان داده» است که به مدارک تحصیلی جزئی در علوم اجتماعی یا طبیعی یا مطالعات حقوق مجهز هستند.

چالش‌های بزرگی پیش روی ما هستند، از جمله برای ژئوماتیک: جمع‌سپاری و اطلاعات جغرافیایی داوطلبانه، استفاده گسترده از تصاویر پهپاد، دوربین‌های نظارتی، اینترنت اشیا در فضاهای شهری و طبیعی، برای ذکر واضح‌ترین آنها.

اختصارات

در این نسخه از اختصارات زیر استفاده شده است:

هوش مصنوعی	هوش مصنوعی
BDaaS	کلان داده به عنوان یک سرویس
DBMS	سیستم مدیریت پایگاه داده (RDBMS: Relational DBMS)
GIS	سیستم اطلاعات جغرافیایی
ISO	سازمان بین المللی استاندارد
LAI	شاخص سطح برگ (پایش پوشش گیاهی)
NGO	سازمان نشنال جئوگرافیک
OECD	سازمان همکاری اقتصادی و توسعه
OLAP	فرآیند تحلیل آنلاین (SOLAP: Spatial OLAP)
PCA	تجزیه و تحلیل مؤلفه های اصلی
یونسکو	سازمان آموزشی، علمی، فرهنگی ملل متحد

منابع

میشل، جی بی. شن، YK; آیدن، AP; ورس، ا. خاکستری، MK; پیکت، جی پی؛ هویبرگ، دی. کلنسی، دی. نورویگ، پی. Orwant, J. تحلیل کمی فرهنگ با استفاده از میلیون ها کتاب دیجیتالی شده. Science 2011 ، 331 ، 176-182. [ Google Scholar ] [ CrossRef ] [ PubMed ]
تامسون رویترز. در دسترس آنلاین: http://blog.thomsonreuters.com/index.php/Big%20Data-graphic-of-the-day (در 24 اوت 2016 قابل دسترسی است).
کیمبال، آر. Ross, M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling , 2nd ed.; John Wiley & Sons, Inc.: New York, NY, USA, 2002. [ Google Scholar ]
دمپسی، سی. عبارت “80% داده ها جغرافیایی هستند” کجاست. در دسترس آنلاین: https://www.gislounge.com/80-percent-data-is-geographic/ (در 24 آگوست 2016 قابل دسترسی است).
آژانس محیط زیست اروپا پوشش زمین CORINE—بخش 1: روش شناسی. در دسترس آنلاین: http://www.eea.europa.eu/publications/COR0-part1 (در 24 اوت 2016 قابل دسترسی است).
Bédard، Y.; لام، اس. پرولکس، ام.-جی. کارون، P.-Y. Létourneau, F. انبار داده برای داده های مکانی: مسائل تحقیق. در مجموعه مقالات سمپوزیوم بین المللی: ژئوماتیک در عصر رادارست (GER’97)، اتاوا، ON، کانادا، 25 تا 30 مه 1997.
استفانوویچ، ن. طراحی و پیاده سازی پردازش تحلیلی آنلاین (OLAP) داده های مکانی. دکتری پایان نامه، دانشکده علوم محاسباتی، دانشگاه سایمون فریزر، ونکوور، BC، کانادا، ژانویه 1997. [ Google Scholar ]
ریست، اس. Bédard، Y.; Proulx، MJ; نادو، م. هوبرت، اف. پاستور، J. SOLAP: ادغام هوش تجاری با فناوری مکانی برای اکتشاف و تجزیه و تحلیل فضایی-زمانی تعاملی داده ها. ISPRS J. Photogramm. Remote Sens. 2005 ، 60 ، 17-33. [ Google Scholar ] [ CrossRef ]
برنیر، ای. گوسلین، پی. بدارد، ت. Bédard، Y. نظارت آسان تر از آسیب پذیری های بهداشتی مرتبط با آب و هوا از طریق یک برنامه کاربردی OLAP فضایی مبتنی بر وب. بین المللی ج. جغرافی بهداشت. آوریل 2009 ، 8 ، 18. [ Google Scholar ] [ CrossRef ] [ PubMed ]
هان، جی. استفانوویچ، ن. Koperski، K. متریال سازی انتخابی: یک روش کارآمد برای ساخت مکعب داده های مکانی. در تحقیق و توسعه در کشف دانش و داده کاوی ; Springer: برلین/هایدلبرگ، آلمان، 1998; صص 144-158. [ Google Scholar ]
کیو، جی. گائو، اچ. Ding، SX پیشرفت‌های اخیر در سیستم‌های کنترل غیرخطی شبکه‌ای مبتنی بر مدل فازی: یک بررسی. IEEE Trans. الکترون صنعتی 2016 ، 63 ، 1207-1217. [ Google Scholar ] [ CrossRef ]
Tukey، JW تجزیه و تحلیل داده های اکتشافی ; Addison-Wesley: Reading، MA، ایالات متحده آمریکا، 1977. [ Google Scholar ]
ژانسولین، آر. فونتین، ی. فری، دبلیو. تقسیم بندی چند زمانی با استفاده از مجموعه های فازی. در مجموعه مقالات هفتمین سمپوزیوم LARS در مورد پردازش ماشینی داده های سنجش از دور، با تاکید ویژه بر ارزیابی محدوده، جنگل و تالاب ها، دانشگاه پردو، لافایت غربی، IN، ایالات متحده، 23-26 ژوئن 1981. صص 336-340.
دیدی، ای. روش خوشه‌های پویا در خوشه‌بندی غیر سلسله مراتبی. بین المللی جی. کامپیوتر. Inf. علمی 1973 ، 2 ، 61-88. [ Google Scholar ] [ CrossRef ]
اولیوسو، ا. پریوت، ال. بارت، اف. Vlevers، JGPW جنبه های فضایی در پروژه Alpilles-ReSeDA. در مجموعه مقالات مقیاس گذاری و مدل سازی کارگاهی در جنگلداری: کاربردها در سنجش از دور و GIS، مونترال، QC، کانادا، 19-21 مارس 1998.
Jonckheere، I. فلک، اس. Nackaerts، K. مییز، بی. کاپین، پی. ویس، م. Baret, F. بررسی روش‌های تعیین شاخص سطح برگ در محل. کشاورزی برای. هواشناسی 2004 ، 121 ، 19-35. [ Google Scholar ] [ CrossRef ]
کافمن، ال. Rousseeuw, PJ یافتن گروه‌ها در داده‌ها: مقدمه‌ای بر تحلیل خوشه‌ای . جان وایلی و پسران: نیویورک، نیویورک، ایالات متحده آمریکا، 1990. [ Google Scholar ]
منینگ، سی دی; رغوان، پ. Schütze, H. Introduction to Information Retrieval ; انتشارات دانشگاه کمبریج: نیویورک، نیویورک، ایالات متحده آمریکا، 2008. [ Google Scholar ]
کورتس، سی. Vapnik، VN پشتیبانی شبکه های بردار. ماخ فرا گرفتن. 1995 ، 20 ، 273-297. [ Google Scholar ] [ CrossRef ]
ژانسولین، آر. ویلسون، ن. کیفیت اطلاعات جغرافیایی: رویکرد هستی‌شناختی و ابزارهای هوش مصنوعی در پروژه Revigis. در مجموعه مقالات هشتمین کارگاه آموزشی EC-GI&GIS، دوبلین، ایرلند، 3 تا 5 ژوئیه 2002.
فروچی، دی. براون، ای. چو-کارول، جی. فن، جی. گوندک، دی. Kalyanpur، AA; لالی، ا. مرداک، جی دبلیو. نایبرگ، ای. پراگر، جی. ساختمان واتسون: مروری بر پروژه DeepQA. AI Mag. 2010 ، 31 ، 59-79. [ Google Scholar ]
راندل، دی. کوی، ز. Cohn, AG یک منطق فضایی مبتنی بر مناطق و اتصال. در مجموعه مقالات سومین کنفرانس بین المللی اصول بازنمایی و استدلال دانش، سن متئو، کالیفرنیا، ایالات متحده آمریکا، اکتبر 1992; صص 165-176.
اوزنات، ج. بسیر، سی. ژانسولین، آر. Revault، J. Schwer, S. Dossier Raisonnement spatial et temporel. گاو نر de l’Assoc. Fr. de l’Intell. آرتیف. 1997 ، 29 ، 2-13. [ Google Scholar ]
کاواروک، M.-A. بنفرهات، اس. Jeansoulin، R. مدل سازی تغییرات کاربری اراضی با استفاده از شبکه های بیزی. در مجموعه مقالات بیست و دومین کنفرانس بین المللی IASTED در زمینه هوش مصنوعی و کاربردها، اینسبروک، اتریش، 16 فوریه 2004.
گروبر، تی. اولسن، جی. هستی شناسی برای ریاضیات مهندسی. در مجموعه مقالات چهارمین کنفرانس بین المللی اصول بازنمایی و استدلال دانش، بن، آلمان، 24-27 مه 1994; صص 258-269.
Halevy، A. چرا داده های شما با هم ترکیب نمی شوند؟ صف ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2005. [ Google Scholar ]
کامبر، ای جی. فیشر، پی. Wadsworth، R. جنبه‌های هستی‌شناختی پوشش زمین را در معرض خطر نادیده بگیرید: درخواستی برای فراداده گسترده. در مجموعه مقالات کنفرانس انجمن سنجش از دور و فتوگرامتری، آبردین، بریتانیا، 6 سپتامبر 2004.
Lund، HG تعاریف جنگل، جنگل زدایی، جنگل کاری و احیای جنگل ; خدمات اطلاعات جنگل: Gainesville، VA، ایالات متحده آمریکا، 2007. [ Google Scholar ]
Quine، WV در مورد آنچه وجود دارد . انتشارات دانشگاه هاروارد: کمبریج، TN، ایالات متحده آمریکا، 1948. [ Google Scholar ]
گانتر، بی. ویل، آر. تحلیل مفهومی رسمی: مبانی ریاضی . Springer: برلین، آلمان، 1999. [ Google Scholar ]
اسمیت، جنرال موتورز; براون، نیوجرسی؛ Thomson, AG CORINE Land Cover 2000: به روز رسانی نیمه خودکار پوشش زمین CORINE در بریتانیا . مرکز اکولوژی و هیدرولوژی، شورای تحقیقات محیط طبیعی بریتانیا: Monks Wood، UK، 2005. [ Google Scholar ]
فام، TT; Phan-Luong، V. Jeansoulin، R. همجوشی مبتنی بر کیفیت داده: کاربرد در پوشش زمین. در مجموعه مقالات هفتمین کنفرانس بین المللی در همجوشی اطلاعات (FUSION’04)، استکهلم، سوئد، 28 ژوئن تا 1 ژوئیه 2004.
ژانسولین، آر. کوره، او. احمد، ع. گادمر، ا. رودانت، ج.-پی. اطلاعات جغرافیایی یک عمل است نه یک واقعیت. در مجموعه مقالات دوازدهمین کنفرانس بین المللی AGILE در علم اطلاعات جغرافیایی، دانشگاه لایبنیتس، هانوفر، آلمان، 2 تا 5 ژوئن 2009.
واسور، بی. ژانسولین، آر. دیویلر، آر. فرانک، ای. ارزیابی کیفیت خارجی کاربردهای جغرافیایی: یک رویکرد هستی شناختی. در مبانی کیفیت داده های مکانی ; Devillers, R., Jeansoulin, R., Eds. انتشارات ISTE: لندن، انگلستان، 2006; صص 255-270. [ Google Scholar ]
Teich, DA SQL -vs- NoSQL: بحث طراحی پایگاه داده حتی یک مبارزه واقعی نیست. فوریه 2016. در دسترس آنلاین: http://searchdatamanagement.techtarget.com/tip/SQL-vs-NoSQL-database-design-debate-isnt-even-a-real-fight (در 24 اوت 2016 قابل دسترسی است).
Grimes، S. Big Data: اجتناب از سردرگمی “Wanna V”. در دسترس آنلاین: http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077 (در 24 آگوست 2016 قابل دسترسی است).
هاپکینز، بی. فارستر، تحلیلگر اصلی، در مصاحبه TechTarget، توسط مارک برونلی. در دسترس آنلاین: http://searchdatamanagement.techtarget.com/news/2240036228/Will-your-organization-benefit-from-big-data-processing-technology (در 24 آگوست 2016 قابل دسترسی است).
لازر، دی. کندی، آر. آنچه می توانیم از شکست حماسی روند آنفولانزای گوگل بیاموزیم. در دسترس آنلاین: http://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/ (در 24 آگوست 2016 قابل دسترسی است).
کوهن، ساختار انقلاب های علمی TS ; انتشارات دانشگاه شیکاگو: شیکاگو، IL، ایالات متحده آمریکا، 1962. [ Google Scholar ]

شکل 1. مهندسی داده: رویدادهای مهم و کلیدواژه های اصلی در 50 سال گذشته.

شکل 2. ( بالا ) مکعب چند بعدی: دو نمونه از میزان بروز بر اساس قلمرو، زمان و بیماری ها. ( پایین ) ترکیب حقایق: افرادی که به تنهایی زندگی می کنند (نقشه رنگی) و افراد با درآمد پایین (نمادها).

شکل 3. بسیاری از موضوعات شناسایی شده توسط کمیته داده های جغرافیایی فدرال، جمع آوری شده توسط آژانس های ایالات متحده.

شکل 4. مثال خوشه بندی سلسله مراتبی (گاهی اوقات به عنوان درخت فیلوژنتیک نیز شناخته می شود).

شکل 5. برآورد یک رویداد سیل، با ترکیب دو منبع داده: جهت جریان ( بالا سمت چپ ) و ارتفاع (تخمین تکه‌ای: بالا سمت راست ). خط پایین طرح می‌کند که چگونه می‌توان ناسازگاری‌ها را بین مدل‌های محلی شناسایی کرد ( پایین سمت چپ )، و سپس در یک مدل یکپارچه ( پایین سمت راست ) تصحیح کرد.

شکل 6. دو هستی شناسی که به صورت شبکه های گالویز محاسبه شده اند که از دو مجموعه مشاهده به دست آمده اند.

شکل 7. تراز هستی شناسی: ترکیب دو شبکه Galois و نامگذاری گره های اضافی.

جدول 1. رمزگذاری هندسه و توپولوژی مجموعه ای از قطعات زمین.

جدول 2. فراداده برای نمایش کیفیت داده های مکانی (ISO 2002).

© 2016 توسط نویسنده; دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب