استفاده از پایگاه‌های اطلاعاتی جامع شرکت‌های خرد برای جغرافیای اقتصادی: مسائل مربوط به کدگذاری جغرافیایی و قابلیت استفاده در مورد پایگاه داده آمادئوس

خلاصه

جغرافیای اقتصادی شروع به بررسی گزینه های موجود در داده های خرد کرده است. پایگاه‌های اطلاعاتی جدیدی در دسترس قرار گرفته‌اند و تکنیک‌های جدید و افزایش قدرت رایانه امکان درمان آن‌ها را فراهم می‌کند. با این حال، دو موضوع عمده مانع استفاده از این مجموعه داده‌ها می‌شود: فقدان موقعیت مکانی مکانی کدگذاری‌شده جغرافیایی و عدم جامعیت در پوشش. در این مقاله، من به بررسی امکانات استفاده از پایگاه‌های اطلاعاتی شرکت در مقیاس خرد برای جغرافیای اقتصادی در اروپا می‌پردازم. من نشان می‌دهم که تکامل کنونی در انتشار رسمی داده‌های مکانی اروپایی، امکان کدگذاری جغرافیایی چنین پایگاه‌هایی را با استفاده از ابزارهایی فراهم می‌کند که برای محققانی با حداقل دانش برنامه‌نویسی قابل دسترسی است. برای مورد خاص پایگاه داده آمادئوس از Bureau Van Dijk، نشان می‌دهم که محدودیت‌های آن از نظر پوشش باید در نظر گرفته شود، اما مانع استفاده از آن برای تجزیه و تحلیل نمی‌شود.

کلید واژه ها:

داده های خرد ؛ شرکت ها ؛ جغرافیای اقتصادی ; اروپا ؛ آمادئوس ; ژئوکدینگ ; الهام بخشیدن

1. معرفی

جغرافیای اقتصادی تجربی از طریق داده ها، داده ها برای مشاهده و داده ها برای تلاش برای توضیح تمایزات فضایی در توسعه اقتصادی زندگی می کند. عموماً چنین داده‌هایی به صورت مجموع برای تقسیمات سرزمینی خاص در دسترس هستند، یا به این دلیل که داده‌ها فقط به این شکل جمع‌آوری می‌شوند، یا به این دلیل که جمع‌آوری در زمان انتشار به دلایل محدودیت منابع، قوانین محرمانگی یا صرفاً سنت اتفاق می‌افتد (به [ 1 ] مراجعه کنید.] برای مروری انتخابی از وضعیت در اروپا). با این حال، سال‌های اخیر شاهد ورود بیشتر و بیشتر مجموعه داده‌های حاوی داده‌های خرد بوده‌ایم. برای اکثر مجموعه‌های داده‌های رسمی، اطلاعات مکانی هنوز فقط در قالب مقیاس‌های خاص تقسیم‌بندی‌های سرزمینی در دسترس است، یا به این دلیل که فقط یک سطح سرزمینی خاص در طول بررسی ثبت می‌شود یا به این دلیل که قوانین محرمانگی انتشار اطلاعات مکان دقیق را ممنوع می‌کند (برای مثال رجوع کنید به [ 2]). با این حال، در برخی از مجموعه‌های داده، عمدتاً تجاری، اطلاعات مکانی به شکل آدرس‌های پستی در دسترس است، بنابراین امکان محلی‌سازی بسیار دقیق موضوع داده‌ها را فراهم می‌کند. با این حال، برای اینکه این آدرس ها برای تجزیه و تحلیل جغرافیایی قابل استفاده باشند، باید از طریق فرآیند geocoding به مختصات جغرافیایی ترجمه شوند که کلاس جدیدی از مشکلات را برای محققانی که با مجموعه داده های بزرگ سروکار دارند ایجاد می کند.

در عین حال، این مجموعه داده های خصوصی همیشه دارای همان سطح جزئیات مجموعه داده های عمومی نیستند. پایگاه داده آمادئوس دفتر ون دایک، برای مثال، حاوی اطلاعاتی در مورد واحدهای تولید محلی نیست، بلکه فقط در مورد دفتر مرکزی (حداقل برای اکثر کشورها) اطلاعاتی را در بر می گیرد، در حالی که ثبت رسمی کسب و کار که مبنایی برای آمارهای ساختاری کسب و کار یورواستات است، حاوی اطلاعاتی است. اطلاعات مربوط به واحدهای تولید محلی در مجموعه داده های منطقه ای. بنابراین، محققان باید مراقب باشند تا بررسی کنند که آیا داده ها هنوز برای کار تعیین شده قابل استفاده هستند یا خیر.

این مقاله تحلیلی از قابلیت استفاده پایگاه داده آمادئوس برای مطالعه بومی سازی و تمرکز شرکت در چندین کشور اروپایی ارائه می دهد. این بر دو سؤال اصلی تمرکز دارد: چگونه مجموعه داده‌های بزرگی از چنین داده‌های خرد را به صورت جغرافیایی کدگذاری کنیم و اینکه آیا داده‌ها واقعاً برای جغرافیای اقتصادی قابل استفاده هستند، جایی که هم تمایز مکانی و هم بخشی مهم است. ساختار مقاله به شرح زیر است: من با مرور مختصر برخی بحث‌ها در مورد استفاده از داده‌های خرد، از جمله نمونه‌هایی از این کاربردها در جغرافیای اقتصادی، شروع می‌کنم. سپس به ارائه داده های مورد استفاده برای این مطالعه، پایگاه داده آمادئوس از Bureau Van Dijck می پردازم. سپس دو بخش اصلی به جزئیات بیشتری در مورد اول، فرآیند کدگذاری جغرافیایی با استفاده از داده‌های عمومی و سرویس‌های وب می‌پردازند و دوم، تجزیه و تحلیل دقیق در مورد قابلیت استفاده از داده ها با توجه به برخی از محدودیت های آن. در بخش پایانی، نقشه‌هایی را ارائه می‌کنم که از داده‌ها بیرون می‌آیند و سپس نتیجه‌گیری خود را در مورد استفاده از چنین پایگاه‌های اطلاعاتی و مسائلی که محققان در استفاده از آنها با آن مواجه هستند، ارائه می‌کنم.

2. داده های خرد در جغرافیای اقتصادی

اخیراً، استفاده از داده های خرد در جغرافیای اقتصادی (و اقتصاد، به طور کلی) افزایش یافته است. این را می‌توان با افزایش دسترسی به چنین مجموعه‌های داده‌ای و نیز با ظهور فناوری‌هایی که امکان درمان مجموعه‌های داده بزرگ‌تر را فراهم می‌کند، توضیح داد. یکی از استدلال‌های اصلی برای استفاده از داده‌های خرد، توانایی آن برای جلوگیری از مشکلات مربوط به واحد منطقه‌ای قابل تغییر است. مورد دیگر این است که ریز داده ها بینش های جدیدی را ارائه می دهند که در مجموعه داده های انباشته نامرئی هستند.

2.1. مسئله واحد مساحتی قابل اصلاح

در جغرافیای اقتصادی، الگوها و روابط فضایی پایه‌های تحلیل هستند. علاوه بر این، بر کسی پوشیده نیست که محتوای این آجرها بسیار وابسته به مقیاس است. نتیجه‌گیری‌های گرفته‌شده در سطح NUTS 2 در اروپا، با ترکیب مناطق روستایی و شهری، بسیار متفاوت از نتیجه‌گیری‌های حاصل از مشاهدات جمع‌آوری‌شده در سطح شهرداری خواهد بود. این می‌تواند شامل سؤال ساده تمایز فضایی داخلی محلی‌سازی‌ها باشد، اما بر نتایج تحلیل‌های آماری روابط بین متغیرها نیز تأثیر می‌گذارد. مسئله واحد منطقه ای قابل اصلاح (MAUP) مفهومی فراگیر است که با این مسائل سروکار دارد.

MAUP برای مدت طولانی شناخته شده است [ 3 ]، اما به عنوان Briant و همکاران. [ 4 ]، “به طرز شگفت انگیزی، اقتصاددانان تا همین اواخر توجه کمی به این مشکل داشتند.” با این حال، جغرافی دانان در مورد این موضوع بسیار نوشته اند. بحث‌ها از تأثیر واقعی MAUP تا بهترین راه‌های «حل» مشکل تا این تصور که MAUP به‌عنوان یک مشکل نیست، بلکه بخشی درون‌گرایانه از تحلیل جغرافیایی است (برای یک مرور کلی به [ 5 ] مراجعه کنید) را شامل می‌شود. . برایانت و همکاران [ 4] همچنین نشان می دهد که برای مثال، حداقل در بیشتر موارد، حداقل در سلسله مراتب فضایی اداری و آماری فرانسه، مشخصات مدل یا تعاریف متغیر در واقع تأثیر بسیار قوی تری بر نتایج نسبت به MAUP دارند، اگرچه این بستگی به نحوه تجمیع متغیرها در واحدهای فضایی

با این حال، ایده این نیست که در اینجا در مورد این بحث ها وارد جزئیات شویم، بلکه دنبال کردن یک رشته است که از آن بیرون می آید و فرض می کند که بهترین پاسخ به این سؤالات استفاده از داده های خرد است. همانطور که توسط Grasland و Madelin [ 5 ] بیان شده است، «البته دسترسی به داده‌های فردی وضعیت ایده‌آل است، نه به این دلیل که سطح فردی در همه موارد مناسب‌ترین سطح برای مشاهده یا مدل‌سازی یک پدیده است، بلکه عمدتاً به این دلیل که انتخاب می‌کند. برای مشاهده اطلاعات در تمام سطوح ممکن و برای همه اشکال پارتیشن های فضایی.” طرفداران برجسته استفاده از داده های خرد عبارتند از Tobler [ 6 ، 7 ]، Grasland [ 8 ] و همچنین، و به طور خاص در زمینه جغرافیای اقتصادی، Arbia [ 9 ]., 10 , 11 ]. آنها استفاده از فضای پیوسته را به منظور فراتر رفتن از مسائل مطرح شده توسط مرزهای گسسته یا استفاده از انعطاف پذیری تجمع ارائه شده توسط داده های خرد در نقطه پیشنهاد می کنند.

2.2. بینش جدید از طریق داده های خرد

همانطور که قبلاً ذکر شد، داده‌های خرد روز به روز در دسترس محققان قرار می‌گیرند، و قدرت محاسباتی و آمار بهبود یافته اکنون امکان پردازش این داده‌ها را با روش‌های پیچیده‌تر و بیشتر می‌دهد. چندین نمونه از تحقیقات موجود وجود دارد که نشان می دهد استفاده از داده های خرد در جغرافیای اقتصادی مسیر امیدوارکننده ای به نظر می رسد.

آربیا چندین مثال از کاربردهای مدل‌سازی پیوسته فضایی، به ویژه در تحلیل تولد، بقا و رشد شرکت‌ها ارائه می‌کند [ 9 ، 11 ، 12 ] که کاربردهای نوآورانه‌ای از مدل‌سازی فرآیندهای فضایی را پیشنهاد می‌کنند. با این حال، او اذعان می‌کند که یکی از ضعف‌های موجود در وضعیت کنونی این است که مجموعه‌های داده‌ها اغلب در محتوای خود محدود هستند و «لازم است به مجموعه اطلاعات بزرگ‌تری در مورد متغیرهای ساختاری غیر از صرفاً موقعیت جغرافیایی شرکت‌ها، مانند، برای مثال، ویژگی‌های تقاضای محلی، مهارت نیروی کار و ساختار شهری» [ 11 ]]. همانطور که در ادامه خواهیم دید، پایگاه داده آمادئوس در حال حاضر دامنه اطلاعات موجود را گسترش می دهد، اگرچه هنوز به ویژگی های خود شرکت ها محدود است.

یکی دیگر از کاربردهای خرد داده ها در سال های اخیر در مطالعه انباشتگی یا خوشه بندی شرکت ها بوده است. بوکس و همکاران [ 13 ] با استفاده از نمونه‌ای از تقریباً 600000 شرکت از پایگاه داده آمادئوس، با استفاده از خوشه‌بندی سلسله مراتبی نزدیک‌ترین همسایه فضایی برای شناسایی خوشه‌ها در هر صنعت، خوشه‌های خلاق را در اروپا کاوش کنید. آنها نتیجه می‌گیرند که استفاده از داده‌های خرد، نتایج بسیار غنی‌تر و دقیق‌تری را نسبت به روش‌های کلاسیک با داده‌های انبوه می‌دهد. از نظر روش شناسی، مارکون و پوچ، و همچنین دورانتون و اورمن [ 14 ، 15 ، 16 ]] یک خط بازتاب را در مورد بهترین راه برای اندازه گیری الگوهای محلی سازی و تمرکز بر اساس داده های خرد، عمدتاً در راستای یا به صراحت بر اساس تابع K ریپلی، آغاز کرده اند.

در اقتصاد، یک زمینه تحقیقاتی اخیر که وابسته به داده های خرد است، ناهمگونی شرکت است [ 17 ، 18 ، 19 ، 20 ]]. اگرچه، در این مرحله، پژوهش یک فضایی است، به این معنا که الگوهای فضایی را به عنوان عاملی در تحلیل لحاظ نمی‌کند، اما استفاده از داده‌های خرد برای درک بهتر محرک‌های واقعی اقتصاد منطقه‌ای، مورد جالبی است. توسعه. یک نتیجه تحریک آمیز از این تحقیق این است که صادرات به خارج از مناطق محدود به چند شرکت صادرکننده با بهره وری بالا است، در حالی که بیشتر شرکت ها فقط به بازارهای محلی می پردازند. اگرچه این نتیجه‌گیری‌ها بر اساس نظرسنجی‌هایی است که تعداد زیادی متغیر را ارائه می‌کند، اما آنها تنها نمونه محدودی از شرکت‌ها را نشان می‌دهند، و بنابراین اغلب از نظر الگوهای فضایی چندان نماینده نیستند. بنابراین، استفاده از داده‌های خرد جامع‌تر، اگرچه از نظر متغیرها محدودتر است، ممکن است مسیر جالب دیگری را برای کاوش در آن زمینه فراهم کند.21 ، 22 ]. همراه با کار فوق الذکر در مورد مکان و تمرکز در فضای پیوسته، این ادبیات اخیر در مورد پیوندهای بین تجمع و صادرات مطمئناً موضوع جالبی برای آینده است.

3. داده ها

داده های شرکت مورد استفاده از پایگاه داده آمادئوس تولید شده توسط Bureau Van Dijck و حاوی داده های خرد در مورد شرکت های همه کشورهای اروپایی است [ 23 ]. در مجموع شامل حدود 17 میلیون شرکت در سراسر قاره است. این بر اساس حساب های تجاری است که در ثبت ملی ثبت شده و قبل از وارد شدن به پایگاه داده توسط نقاط تماس ملی جمع آوری شده است. منشا داده ها توضیح می دهد که عمدتاً حاوی اطلاعات مالی است و تعداد زیادی متغیر برای ارزیابی ترازنامه هر شرکت در دسترس است. همچنین حاوی اطلاعات مالکیت است که امکان مطالعه شبکه های شرکت را فراهم می کند [ 24]، اگرچه این داده ها برای مطالعه حاضر در دسترس نبود. در نهایت، این شامل آدرس پستی رسمی کامل دفتر مرکزی است (اگرچه برای برخی از کشورها این داده ها باید با هزینه اضافی خریداری شوند)، یک موقعیت جغرافیایی در سطح NUTS2 (سطح جغرافیایی که مستقیماً در پایگاه داده AMADEUS موجود است در واقع به طور قابل توجهی بهبود یافته است. در طول نگارش و بازنگری این مقاله از سطح NUTS2 به NUTS3 یا حتی وضوح بهتر – تا شهرداری‌ها در برخی کشورها – پایگاه داده را مستقیماً برای انواع خاصی از تحلیل‌ها در جغرافیای اقتصادی قابل استفاده می‌کند.) و ویژگی‌های اساسی مانند NACE 4 رقمی کدها و شکل قانونی اطلاعات اندازه در قالب تعداد کارمندان و گردش مالی موجود است، اگرچه این داده ها در بسیاری از کشورها کامل نیست.

یکی از اهداف این مطالعه ارزیابی این بود که چه داده‌ها یا خدمات عمومی در حال حاضر برای امکان رمزگذاری جغرافیایی چنین ریز داده‌ها بدون نیاز به توسل به راه‌حل‌های تجاری گران قیمت موجود است. تلاشی برای شناسایی داده‌های موجود در هر کشور در اروپا انجام شد، اگرچه هیچ ادعایی مبنی بر جامع بودن نمی‌توان داشت، زیرا یافتن داده‌ها اغلب آسان نیست، اگرچه این مسئله باید به زودی با زیرساخت‌هایی که در زمینه ایجاد شده حل شود. دستورالعمل INSPIRE (به زیر مراجعه کنید).

با ترکیب داده‌های آدرسی که در پایگاه داده آمادئوس به آنها دسترسی داشتم و داده‌های آدرس یا خدمات رمزگذاری جغرافیایی که پیدا کردم، در نهایت با داده‌های کشورهای زیر کار کردم: بلژیک، دانمارک، فرانسه، هلند، اسپانیا و بریتانیا، در مجموع 5232318 شرکت.

4. منابع عمومی برای کدگذاری جغرافیایی

در هر تحلیل فضایی، قرار دادن داده ها در مکان مناسب ضروری است. در بسیاری از کاربردها، مکان در ابتدا داده می شود، چه برای داده های جمع آوری شده در واحدهای اداری شناخته شده یا برای داده های جمع آوری شده در میدان با GPS، ماهواره یا سایر ابزارها. با این حال، مجموعه‌ای از داده‌ها در حال افزایش است که مکان آن‌ها با آدرس‌های پستی داده می‌شود، و هر گونه تحلیلی را غیرممکن می‌کند، زیرا آدرس‌ها اجازه درمان کمی را نمی‌دهند، و به صراحت اطلاعاتی درباره فواصل و سایر روابط فضایی بین مشاهدات ارائه نمی‌دهند.

برای به دست آوردن موقعیت جغرافیایی قابل استفاده از این داده ها، آدرس های پستی باید از طریق کدگذاری جغرافیایی به مختصات نقطه ای تبدیل شوند. راه‌حل‌های تجاری وجود دارند، اما اغلب برای کاربران در حوزه دانشگاهی بسیار گران هستند. خدمات رمزگذاری جغرافیایی آنلاین تجاری رایگان مانند APIهای Google، Yahoo و Bing به شدت استفاده از نتایج کدگذاری جغرافیایی را به مشاهده ساده بر روی نقشه های مربوطه محدود می کند. هر گونه رفتار تحلیلی از نظر قانونی مستثنی است، بنابراین این خدمات به قرار دادن ساده نشانگرها بر روی نقشه ها کاهش می یابد. دلیل اصلی این محدودیت ها در واقع خود سرویس نیست، بلکه داده های پشت سرویس است. ارائه دهندگان داده های خصوصی منابع مهمی را برای نگهداری پایگاه داده های خود سرمایه گذاری می کنند که آدرس ها را به مختصات جغرافیایی پیوند می دهد. همانطور که APIهای فوق یا سایر راه حل های تجاری از این پایگاه داده ها استفاده می کنند، محدودیت‌هایی که با هدف حفاظت از این داده‌ها انجام می‌شود، خدمات رمزگذاری جغرافیایی مرتبط را نیز مختل می‌کند (ارتباط شخصی از سرویس‌های پشتیبانی Google با نویسنده). در یک محیط دانشگاهی که در آن استفاده انعطاف پذیر از داده ها اولیه است، چنین محدودیت هایی نتایج کدگذاری جغرافیایی را تقریباً بی فایده می کند. در ایالات متحده آمریکا، یک جایگزین به شکل داده های اداره سرشماری ببر وجود دارد و راه حل های رایگان بر اساس این داده ها وجود دارد. در اروپا دسترسی به چنین داده هایی در گذشته بسیار دشوارتر بود. یک جایگزین در قالب داده های اداره سرشماری ببر وجود دارد و راه حل های رایگان بر اساس این داده ها وجود دارد. در اروپا دسترسی به چنین داده هایی در گذشته بسیار دشوارتر بود. یک جایگزین در قالب داده های اداره سرشماری ببر وجود دارد و راه حل های رایگان بر اساس این داده ها وجود دارد. در اروپا دسترسی به چنین داده هایی در گذشته بسیار دشوارتر بود.

در نهایت، یک راه‌حل جمع‌سپاری در سال‌های گذشته به وجود آمده است (اغلب داده‌های عمومی را در صورتی که تحت شرایط مجوز کافی در دسترس باشد، یکپارچه می‌کند)، در قالب OpenStreetMap. بسته به کشورها، داده ها در حال حاضر کاملاً کامل است، اگرچه در برخی مناطق شماره خانه هنوز در دسترس نیست. برای مطالعه استفاده از این داده ها برای کدگذاری جغرافیایی به [ 25 ] مراجعه کنید.

با این حال، زمان در حال تغییر است و در حال حاضر تحولات اساسی در دیدگاه و سیاست دولت های اروپایی در مورد داده های تولید شده توسط دولت رخ می دهد. جنبش OpenData در حال شتاب گرفتن است [ 26 ]، که توسط اصلاح عمومی دسترسی به داده های مکانی عمومی که توسط دستورالعمل اتحادیه اروپا INSPIRE حمایت می شود، پشتیبانی می شود، و بنابراین چندین کشور داده های آدرس رسمی خود را به صورت عمومی و رایگان در دسترس قرار داده اند، بنابراین امکان بسط راه حل های کدگذاری جغرافیایی مبتنی بر آن را فراهم کرده اند. روی آن داده ها برخی کشورها و مناطق از این هم فراتر رفته اند و خدمات وب ژئوکدینگ را ارائه می دهند.

4.1. نقش دستورالعمل INSPIRE

انتشار داده های مکانی در اروپا به شدت تحت تأثیر دستورالعمل INSPIRE اروپا در سال 2007 است که قوانین و زیرساخت های یک سیستم داده مکانی اروپایی را ایجاد می کند [ 27 ]. این یک سری موضوعات را مشخص می کند که کشورهای عضو باید داده ها را در قالب انواع خدمات، از کشف تا دانلود، در دسترس قرار دهند. طبق ماده 14 این دستورالعمل، تنها خدمات کشف و مشاهده باید رایگان باشد، زیرا سایر کشورهای عضو می توانند هزینه دریافت کنند. داده‌های آدرس بخشی از پیوست I است که مهم‌ترین داده‌ها را فهرست می‌کند. کلیه خدمات از جمله خدمات دانلود باید از دسامبر 2012 توسط کشورهای عضو اجرا شود [ 28]. علاوه بر این، کشورهای عضو همچنین می توانند خدمات داده های مکانی را همانطور که در قوانین اجرایی مربوطه تنظیم شده است ارائه دهند که در حال حاضر در مراحل نهایی سازی است.

کشورهای عضو مسیرهای بسیار متفاوتی را در اجرای دستورالعمل و مقررات INSPIRE انتخاب کرده اند. بسیاری محدودیت های دسترسی را از نظر هزینه و مجوز تغییر نداده اند، بلکه فقط شکل دسترسی را مطابق با INSPIRE ساخته اند. با این حال، در برخی کشورها، دستورالعمل INSPIRE الهام بخش یک حرکت اساسی تر به سمت باز کردن مجموعه داده های عمومی برای دسترسی و استفاده عمومی است.

محتوای مجموعه داده ها نیز در فرآیند INSPIRE تعیین می شود. به عنوان مثال، دستورالعمل INSPIRE در ضمیمه I خود، داده های آدرس را به عنوان “موقعیت دارایی ها بر اساس شناسه های آدرس، معمولاً بر اساس نام جاده، شماره خانه، کد پستی” تعریف می کند [ 27 ]. مشخصات داده‌های INSPIRE برای آدرس‌ها با توضیح اینکه «یک آدرس دارای یک شناسه است، به عنوان مثال، یک شماره آدرس یا یک نام ساختمان، که کاربر را قادر می‌سازد آن را از آدرس‌های همسایه متمایز کند، و همچنین موقعیت جغرافیایی، که این امکان را فراهم می‌کند. برنامه برای مکان یابی آدرس به صورت مکانی. شناسه قابل خواندن توسط انسان در طرحواره برنامه به عنوان آدرس “مکان یاب” تعریف شده است. موقعیت جغرافیایی به عنوان یک نقطه جغرافیایی نشان داده می شود» [ 27]. بنابراین، کشورها باید داده‌های خود را ساختاربندی کنند تا با این مشخصات مطابقت داشته باشند و استفاده از داده‌ها هنگام کار در بین کشورها آسان‌تر شود.

4.2. مروری بر اشکال مختلف انتشار داده ها

حتی اگر دستورالعمل INSPIRE سطح مشخصی از هماهنگی را فراهم می کند، کشورها در مورد شکلی که در آن داده های خود را منتشر می کنند، آزادی عمل دارند. میز 1نمای کلی از اشکال مختلفی که کشورها داده های خود را عمومی می کنند ارائه می دهد. این یک موجودی جامع نیست، به ویژه از آنجایی که هدف موجودی در حال حاضر یک هدف متحرک است، با داده‌های جدید و سرویس‌های جدید که اغلب ظاهر می‌شوند. در عوض، جدول مجموعه داده هایی را که من در زمینه تحقیق خود استفاده کردم را ارائه می دهد، اما حتی در این انتخاب محدود، بسیاری از اشکال مختلف انتشار داده ها نشان داده شده است. هدف نشان دادن این موارد به عنوان نمونه‌هایی از نحوه رسیدگی کشورها به تعهدات INSPIRE و خط‌مشی کلی داده‌هایشان، با استفاده از داده‌های آدرس به عنوان مطالعه موردی است، اما همچنین ارائه اطلاعات دقیق در مورد مشکلاتی که ممکن است در تلاش برای استفاده از چنین داده‌های آدرسی برای آنها پیش بیاید، ارائه شود. ژئوکدینگ به طور خاص، جدول نمای کلی از اشکال انتشار از نظر دسترسی به داده ها و انواع مجوزهای مورد استفاده را ارائه می دهد.مبنای موردی برای تحقیق در بسیاری از کشورهای دیگر، داده‌ها وجود دارد، اما فقط در ازای هزینه‌ای در دسترس هستند که می‌تواند به سطوح بسیار چشمگیر برسد (برای مثال، در آلمان، دسترسی به مجموعه داده‌های تمام آدرس‌های آلمانی با مختصات جغرافیایی به قیمت بیش از 100000 یورو فروخته می‌شود، از جمله برای استفاده تحقیقاتی و تا لحظه نگارش این مقاله، هیچ سرویس آنلاینی برای کاربران غیر از ادارات دولتی در دسترس نبود، که باعث می شود در اکثر زمینه های دانشگاهی غیر قابل دسترس باشد.

جدول 1. مروری بر اشکال انتشار داده های آدرس.

4.3. خصوصیات ملی در قالب ها و محتوای داده ها

در هر کشوری، آدرس ها به گونه ای متفاوت مدیریت می شوند. مسائل اصلی که ساده بودن ژئوکدینگ را تعیین می کند عبارتند از:

جزئیات مکانی کدهای پستی که می‌تواند هر چیزی را از ساختمان‌ها و خیابان‌ها تا مجموعه‌ای از شهرداری‌ها نشان دهد: از آنجایی که کدهای پستی عنصری نسبتاً آسان برای تطبیق هستند، هر چه منطقه کد پستی کوچک‌تر باشد، پیدا کردن یک خیابان خاص در آن آسان‌تر است. حوزه.
(در ترکیب با قبلی) وجود یا نبودن بیش از یک خیابان با همان نام در یک منطقه کدپستی واحد.
تمایل در کشور به استفاده از نام مکان های غیررسمی (“lieux-dits”)، نام ساختمان ها و غیره به عنوان آدرس های قابل قبول برای تحویل پست.
وجود آدرس‌های قدیمی و متروکه با تاریخ اعتبار در مجموعه داده‌های مرجع: این امکان را می‌دهد تا داده‌ها را حتی اگر تغییر نام خیابان، شماره‌گذاری مجدد یا تغییر کدپستی صورت گرفته باشد، ژئوکدگذاری شود.
انتشار آدرس‌ها بر خلاف داده‌های GIS (خیابان‌ها، بسته‌ها و غیره ) که نیاز به استفاده از نرم‌افزار تخصصی دارند و اغلب قبل از به‌دست‌آوردن آدرس‌های واقعی نیاز به پیش‌پرداخت دارند.

جدول 2 برخی از ویژگی های مجموعه داده های مورد استفاده واقع در تحقیق را از نظر محتوا و سهولت استفاده فهرست می کند. باز هم وضعیت متفاوت است. برخی از کشورها داده های نوع صفحه گسترده ساده را با آدرس های تجزیه شده و مختصات مربوطه ارائه می دهند. برخی دیگر داده های پیچیده XML را ارائه می دهند که استفاده مستقیم از آنها آسان نیست.

جدول 2. محتوا، قالب و مشخصات مجموعه داده آدرس ملی.

5. مسائل کاربردی در ژئوکدینگ

5.1. معرفی

فرآیند geocoding در واقع ترکیبی از دو فرآیند است: (الف) رمزگشایی آدرس به بخش‌های تشکیل‌دهنده آن (خیابان، شماره خانه، کد پستی و شهر) و (ب) تطبیق هر یک از این بخش‌ها با داده‌های مربوطه در پایگاه داده مرجع. نحوه اعمال این موارد به داده ها یا خدمات ارائه شده در هر کشور بستگی دارد.

اکثر کشورهای ارائه دهنده خدمات وب، خدمات تجزیه آدرس را نیز ارائه می دهند که گاهی در یک سرویس ادغام می شود، گاهی اوقات به عنوان یک سرویس جداگانه. در مورد دوم، بنابراین ابتدا باید سرویس تجزیه آدرس را برای یافتن بهترین تطابق و سپس سرویس کدگذاری جغرافیایی برای بازیابی مختصات آدرس یافت شده فراخوانی کرد.

هنگام استفاده از داده های مرجع مکانی برای رمزگذاری جغرافیایی، یا زمانی که هیچ سرویس تجزیه ای ارائه نمی شود، یا زمانی که استفاده از سرویس تجزیه تا حدودی چالش برانگیزتر است، می توان آدرس ها را قبل از ارسال به یک سرویس یا تطبیق آنها با آدرس های موجود در داده های مرجع، به صورت دستی تجزیه کرد. .

هدف در این بخش بررسی تئوری geocoding در تمام جنبه های آن نیست (برای یک نمای کلی به [ 30 ] مراجعه کنید)، بلکه بیشتر به بررسی مسائل عملی در زمینه داده های عمومی فعلی و در دسترس بودن خدمات است.

5.2. خدمات وب یکپارچه

در تئوری، آن دسته از کشورهایی که خدمات وب یکپارچه تجزیه و کدگذاری جغرافیایی را ارائه می‌دهند، ساده‌ترین روش برای کاربر هستند: فقط آدرس «همان‌طور که هست» را به سرویس ارسال کنید و مختصات بهترین تطابقی را که سرویس می‌تواند پیدا کند، بازیابی کنید. این شبیه حالت استفاده عمومی از خدمات آنلاین تجاری مانند Google Maps یا API مربوطه است. در این مورد نیازی به تجزیه آدرس دستی نیست. با این حال، گاهی اوقات آدرس ها در وضعیت بدی قرار می گیرند یا حاوی اطلاعات بسیار بیشتر از حد لازم هستند، در نتیجه وب سرویس را گیج می کند. در این صورت، برخی از تجزیه و تمیز کردن دستی ممکن است برای افزایش قابل توجه نرخ تطابق ضروری باشد. یک سری آزمایش با یک نمونه محدود و تصادفی از آدرس‌ها اغلب برای شناسایی مشکلات رایج و مداخلات ضروری ضروری است.

بنابراین چالش اصلی این سرویس ها هنگام کار با پایگاه داده های بزرگ، خودکارسازی فرآیند است. در بیشتر مواقع، این سرویس به درخواست‌ها برای یک آدرس در یک زمان اجازه می‌دهد، بنابراین نیاز به حلقه‌ای دارد که از همه آدرس‌ها عبور می‌کند، آنها را یک به یک بررسی می‌کند و نتایج را ذخیره می‌کند. خدمات به صورت REST [ 31 ] یا به صورت SOAP [ 32 ] ارائه می شود] خدمات. در مورد اول، استفاده از سرویس یک موضوع ساده فراخوانی یک URL HTTP حاوی آدرس به عنوان پارامتر و بازیابی نتیجه در فرم ارائه شده (JSON، XML و CSV) است. در مورد دوم، ارسال اطلاعات در فرم XML کمی پیچیده تر است. در هر دو مورد، مطالعه مستندات مربوط به API برای درک محتوای بازگردانده شده توسط سرویس مهم است. یک اطلاعات ضروری که توسط اکثر سرویس ها ارائه می شود، معیاری برای سنجش کیفیت مسابقه است. اگرچه مقادیر مطلق این معیارها لزوماً معنای روشنی ندارند، می توان از آنها برای مقایسه بین مسابقات و برای دریافت احساس کیفیت بالقوه مسابقه استفاده کرد. در تکمیل،

حداقل دانش یک زبان سازگار با اسکریپت مانند Python، Ruby یا سایرین برای ارائه حلقه و مدیریت خطای اساسی ضروری است. در مورد سرویس SOAP، کتابخانه های تخصصی برای اکثر زبان های برنامه نویسی وجود دارد که دسترسی به چنین خدماتی را تسهیل می کند. در مورد ارائه شده در این مقاله، من از زبان Python استفاده کردم، با کتابخانه suds [ 33 ] که یک رابط برای پروتکل SOAP فراهم می کند.

5.3. تجزیه آدرس

برای همه کشورهایی که برای آنها ضروری بود، تجزیه آدرس در سیستم مدیریت پایگاه داده رابطه‌ای PostgreSQL (با پسوند آن PostGIS برای مدیریت مجموعه‌های داده‌ای که به شکل هندسه برداری هستند) انجام شد. زبان مورد استفاده SQL خالص بود.

به دلیل اشکال بسیار متفاوت آدرس‌ها در هر کشور، و این واقعیت که آدرس‌های پایگاه داده آمادئوس توسط خبرنگاران ملی به سبک خاص کشور ارائه می‌شد، من قوانین خاص کشور به کشور را برای جداسازی نام خیابان‌ها و شماره خانه‌ها ایجاد کردم. در پایگاه داده آمادئوس، آدرس شامل یک خیابان یا نام مکان و به طور کلی یک شماره خانه است، گاهی اوقات با اصلاح کننده ها. نام شهرها و کدهای پستی قبلاً در فیلدهای جداگانه پایگاه داده هستند. به طور کلی، سبک‌های آدرس در هر کشور با شماره خانه قبل یا بعد از نام خیابان، استفاده احتمالی از کاما بین شماره خانه و نام خیابان و غیره سازگار است.با این حال، هنوز هم تمیز کردن زیادی برای سازگاری نام خیابان‌ها و شهرها بین پایگاه‌های داده (جایگزینی کاراکترهای برجسته، گسترش اختصارات و غیره ) ضروری بود. به طور کلی، قوانین ad hoc برای رمزگشایی آدرس ها شامل قطع کردن آدرس طبق قوانین خاص است. کد SQL در فایل های اضافی جزئیاتی را که قوانین در مورد آنها اعمال شده است را ارائه می دهد.

یک سوال مهم در این مرحله این است که آیا شماره خانه ضروری است، و اگر بله، آیا اصلاح کننده ها و ترکیبات شماره خانه (به عنوان مثال، 7A 115-117، 234 جعبه 10A) باید حفظ شوند یا می توان آنها را حذف کرد. از آنجایی که در برخی کشورها خیابان‌ها طولانی هستند، تصمیم گرفتم شماره خانه‌ها را حفظ کنم. تلاش برای حفظ اصلاح‌کننده‌ها به‌طور قابل‌توجهی دشواری رمزگشایی آدرس را افزایش می‌دهد، بدون اینکه دقت موقعیت مکانی بهبود یابد، بنابراین تصمیم گرفتم بدون اصلاح‌کننده کار کنم، به جز کشورهایی که استخراج این اصلاح‌کننده‌ها آسان بود. باید توجه داشت که همه پایگاه‌های داده آدرس حاوی اصلاح‌کننده‌ها نیستند، یا حداقل همیشه به شیوه‌ای ثابت نیستند.

هنگامی که شماره خانه و اصلاح کننده ها شناسایی و استخراج شدند، بقیه را می توان به طور کلی به عنوان نام خیابان در نظر گرفت. با این حال، استثنائات زیادی برای این قاعده وجود دارد، با نام مکان‌ها، نام ساختمان‌ها، نام پارک‌های صنعتی و ترکیب‌های متعددی از این موارد. به منظور شناسایی نام واقعی خیابان، در این مرحله، توصیه می‌شود که از پایگاه داده مرجع به عنوان منبع نام‌های احتمالی خیابان‌ها استفاده کنید و بنابراین نام خیابان رسمی را که احتمالاً با آدرس موجود در پایگاه داده آمادئوس مطابقت دارد، شناسایی کنید. این جستجو مستلزم استفاده از الگوریتم‌های تطبیق رشته‌های فازی است که معیاری از شباهت بین دو رشته را ارائه می‌دهد، بنابراین امکان انتخاب شبیه‌ترین نام خیابان را فراهم می‌کند. الگوریتم های زیادی در ادبیات وجود دارند و با گذشت زمان الگوریتم های بیشتری توسعه می یابند.و غیره ترکیبی از تکنیک های مختلف می تواند برای ایجاد الگوریتم های تطبیق پیچیده تر، مانند درخت تصمیم [ 34 ] استفاده شود. پرداختن به جزئیات این تحقیق از حوصله این مقاله خارج است، اما برای تطبیق متون کوتاه مانند نام خیابان و شهر، دو الگوریتم به عنوان پرکاربردترین الگوریتم برجسته هستند: n-gram و فاصله Levenshtein. اولی همه زیررشته‌های ممکن n حرف را شناسایی می‌کند (من از n = 3 استفاده کردم) در هر رشته کاراکتری و سپس شباهت استاندارد شده بین دو رشته را به عنوان تعداد زیررشته‌های منطبق تقسیم بر اندازه‌گیری طول کل رشته‌ها محاسبه می‌کند. دومی فاصله ویرایش است که به عنوان تعداد ویرایش‌ها (حذف، درج و جایگزینی) لازم برای رسیدن از یک رشته به رشته دیگر تعریف می‌شود [ 35 ,36 ، 37 ]. برای انتخاب بین این دو، چند تست مختصر با الگوریتم های ارائه شده توسط PostgreSQL انجام دادم. هر دو نتایج تقریباً مشابهی را نشان دادند، با یک مزیت جزئی نسبت به تریگرام ها، بنابراین تصمیم گرفتم از آنها برای تطبیق الگو، با استفاده از پسوند pg_trgm استفاده کنم [ 38 ]. این به اندازه کافی خوب عمل کرد تا عدم ساخت موتور تطبیق الگوی پیچیده تر را توجیه کند.

در نتیجه، تجزیه آدرس، از جمله تطبیق فازی نام خیابان‌ها و شهرها، چالش‌برانگیزترین بخش فرآیند است که بسته به وضعیت آدرس‌ها، به راه‌حل‌های موقت زیادی نیاز دارد. با این حال، راه حل ها وجود دارند و می توانند در SQL خالص اعمال شوند، بنابراین به مهارت های برنامه نویسی زیادی نیاز ندارند. یکی از تلاش‌های توسعه تکنیک‌های تجزیه آدرس رایگان در دسترس که شایان ذکر است، geocoder PostGIS [ 39 ] است. در ابتدا برای داده های ببر ایالات متحده توسعه داده شد، بنابراین به فرمت های آدرس ایالات متحده محدود شد، اکنون تلاش ها برای توسعه ماژول های خاص برای هر کشور ادامه دارد که باید تجزیه آدرس را با استفاده از این نرم افزار رایگان تسهیل کند (سرویس آنلاین اسپانیایی بر اساس چنین ماژول سفارشی سازی شده است).

5.4. تکنیک های مورد استفاده برای ژئوکدینگ

هنگامی که آدرس رمزگشایی شد و نام خیابان و شهر مناسب یافت شد، کد جغرافیایی واقعی، یعنی ترجمه داده های آدرس به مختصات جغرافیایی در یک پایگاه داده نسبتاً آسان است و صرفاً شامل بازیابی مختصات مربوط به خیابان و شهر پیدا شده است. و شماره خانه خاص

با این حال، گاهی اوقات، شماره خانه در پایگاه داده شرکت در پایگاه داده مرجع وجود ندارد، یا به سادگی شماره خانه در آدرس وجود ندارد. در حالت اول، می توان مکان شماره خانه را بر اساس شماره خانه های همسایه در پایگاه مرجع درون یابی کرد. در مورد دوم، یا باید از یک نقطه مرجع که خیابان را نشان می‌دهد استفاده کرد (مثلاً نقطه مرکزی آن)، یا می‌توان یک مکان مرکزی را بر اساس شماره خانه‌های موجود در آن خیابان درون یابی کرد. این رویکرد اخیر به‌ویژه برای مناطق روستایی مفید است، جایی که خیابان‌ها می‌توانند بسیار طولانی باشند و ساختمان‌هایی که فقط در نقاط خاصی متمرکز شده‌اند، و به‌ویژه در کشورهایی که شهرداری‌ها کوچک هستند، مؤثر است، و به‌عنوان پایه‌ای برای درونیابی تنها از آن دسته از شماره‌های خانه استفاده می‌شود که در محدوده قرار می‌گیرند. همان شهرداری که آدرس جستجو شده است.

برای خدمات آنلاین، همه چیز به اجرای خاص سرویس پیشنهادی بستگی دارد. برخی از سرویس‌ها به‌طور خودکار آدرس‌های «مشابه» از جمله نزدیک‌ترین شماره خانه، نزدیک‌ترین نام خیابان یا مختصات کوچک‌ترین واحد فضایی بالاتری را که می‌توان شناسایی کرد (خیابان، منطقه پستی و غیره ) پیشنهاد می‌کند. در سرویس دسته ای فلاندری، در صورت عدم وجود شماره خانه، هیچ مختصاتی ارائه نمی شود. در این صورت، باید از وب سرویس دیگری برای دریافت مختصات در سطح خیابان استفاده شود.

از آنجایی که درون یابی اعداد خانه به یک سری آزمایش و محاسبات نیاز دارد، من تصمیم گرفتم از زبان برنامه نویسی داخلی PL/PGSQL برای این کار هنگام کدگذاری جغرافیایی در پایگاه داده استفاده کنم یا الگوریتم های درون یابی را در اسکریپت های پایتون که سرویس های وب را فراخوانی می کنند، پیاده سازی کردم. دور زدن نزدیکترین شماره خانه تا زمانی که مطابقت پیدا شود. الگوریتم اساسی پیاده سازی شده برای درون یابی عبارت است از:

نزدیکترین اعداد را در بالا و پایین شماره خانه داده شده جستجو کنید (احتمالاً فقط اعداد زوج یا فرد را در نظر بگیرید اگر سیستم محلی این اعداد را در طرفین خیابان های مخالف داشته باشد)
اگر عددی فقط در بالا یا پایین یافت شود

از نزدیکترین عدد یافت شده استفاده کنید و مختصات آن را بازیابی کنید (احتمالاً شعاع جستجوی اعداد نزدیک را محدود کنید)
اگر اعداد بالا و پایین یافت شوند،

تفاوت بین شماره خانه داده شده و نزدیکترین شماره خانه زیر و نسبت آن اختلاف در تفاوت بین نزدیکترین شماره خانه بالا و نزدیکترین شماره خانه زیر را محاسبه کنید.

مختصات x (y) را به عنوان نسبت معادل تفاوت بین مختصات x (y) عدد بالا و عدد زیر اضافه شده به کمترین مقدار x(y) محاسبه کنید.

جزئیات پیاده سازی های فردی را می توان در فایل های اضافی یافت. به منظور اطمینان از هماهنگی در اطلاعات محلی سازی، تمام مختصات در مجموعه داده های مرجع با تابع PostGIS ST_Transform به مختصات طولانی در درجه با استفاده از WGS84 مبدأ (کد EPSG 4326) قبل از کدگذاری جغرافیایی تبدیل شدند.

6. قابلیت استفاده

در حالی که geocoding یک موضوع مهم در ارزیابی قابلیت استفاده از پایگاه های داده میکرو مانند پایگاه داده آمادئوس است، مهم ترین سوال بدیهی است که اطلاعات واقعی موجود در پایگاه داده چقدر مفید است. اغلب پاسخ به سؤال تحقیقی خاص بستگی دارد، اما چند عنصر اساسی در اکثر اهداف تأثیرگذار است.

6.1. کامل بودن

پایگاه داده آمادئوس در نسخه فوریه 2012 خود که برای این مطالعه مورد استفاده قرار گرفت، شامل حدود 17 میلیون شرکت فعال در سراسر اروپا است. وقتی محدود به شرکت‌های درون اتحادیه اروپا باشد، این تعداد به حدود 14 میلیون کاهش می‌یابد. پایگاه داده آمار ساختاری کسب و کار (SBS) Eurostat، بر اساس ثبت ملی کسب و کار، در مجموع حدود 22 میلیون شرکت را در سال 2011 (سال گذشته که پوشش جامع برای EU28 در دسترس است) در NACE Rev. 2 بخش های B تا N و بخش 95 ارائه می دهد. این نشان می‌دهد که آمادئوس تمام مشاغل ثبت‌شده در ثبت‌های تجاری در سراسر اتحادیه اروپا را پوشش نمی‌دهد، اما همچنان دارای سهم عادلانه‌ای از شرکت‌ها است.

در مقایسه کشور به کشور ( جدول 3 )، مشخص می شود که وضعیت بین کشورها بسیار نابرابر است، مطابق با مشاهدات Boix و همکاران در مورد صنایع خلاق [ 12 ]. توجه داشته باشید که مجموع‌ها در اینجا فقط برای بخش‌هایی است که تحت پوشش پایگاه داده SBS هستند، بنابراین فقط زیر مجموعه‌ای از بخش‌های تحت پوشش پایگاه داده آمادئوس است.

جدول 3. تعداد شرکت ها در پایگاه داده آمادئوس و در آمارهای ساختاری تجاری Eurostat در بخش های تحت پوشش SBS.

تفاوت‌های بزرگ ناشی از قوانین مربوط به شرکت‌هایی است که باید حساب‌ها را ثبت کنند، زیرا پایگاه داده آمادئوس بر اساس این حساب‌های بایگانی است در حالی که ثبت کسب و کار بر اساس داده‌های اداری و نظرسنجی است، و همچنین می‌تواند شامل اشکال مختلف شرکت‌های عمومی، از جمله شرکت‌هایی باشد که به دولت‌های محلی مرتبط است و احتمالاً باید از تحلیل‌های بومی‌سازی حذف شود زیرا آزادی حرکت آنها محدود است. برای فرانسه، آمادئوس در واقع شرکت‌های بیشتری از آنچه در جدول نشان داده شده است، پیشنهاد می‌کند، اما نیمی از شرکت‌ها از منبع متفاوتی برای دسترسی به پایگاه‌داده می‌آیند که دسترسی به آن مشمول هزینه‌های اضافی است و بنابراین برای این مطالعه در دسترس نبودند. با این حال، به طور کلی، داده های پایگاه داده آمادئوس را می توان به عنوان نمونه ای به اندازه کافی بزرگ برای تجزیه و تحلیل محلی سازی سازمانی در نظر گرفت.

بومی سازی ساده شرکت ها بر اساس بخش در حال حاضر یک متغیر جالب برای مطالعه است، اما پایگاه داده آمادئوس تعداد زیادی متغیر دیگر را ارائه می دهد که می تواند برای جغرافیای اقتصادی جالب باشد. کلیه متغیرهای حساب‌هایی که شرکت‌ها موظف به تشکیل پرونده هستند و همچنین اطلاعات موجود در بازار سهام و مالکیت در بانک اطلاعاتی ثبت می‌شوند. اطلاعات شامل اطلاعات حقوقی مانند فرم حقوقی و داده های شرکت، کل ترازنامه و حساب سود و زیان شامل اطلاعات دارایی ها، کارکنان و بهره وری مبتنی بر کارمندان، و فروش، داده های سهام، اطلاعات مربوط به سهامداران و شرکت های تابعه است. بنابراین تحلیل‌های بالقوه شامل تولدهای شرکت، جغرافیای سود، جغرافیای روابط مالکیت در مقیاس‌های بسیار خوب، تحلیل‌های بهره‌وری و غیره است.. با این حال، اینکه کدام متغیرها برای کدام نوع شرکت ها اجباری هستند به هر کشوری بستگی دارد. با تغییر قوانین حسابداری و تکامل کیفیت گزارش‌دهی، پایگاه داده آمادئوس نیز در طول زمان تغییر می‌کند، و بنابراین نشانه‌ها در اینجا فقط یک عکس فوری در تاریخ داده‌های مورد استفاده (فوریه 2012) هستند. به محض در دسترس قرار گرفتن اطلاعات جدید، داده ها به روز می شوند. بنابراین برای ایجاد سری های زمانی، باید عکس های فوری معمولی گرفته شود. جدول 4نسبت داده های از دست رفته را برای انتخاب کوچکی از این متغیرها نشان می دهد. این به وضوح نشان می دهد که محققان باید در انتخاب متغیرها و قلمرو مطالعه دقت زیادی داشته باشند تا با یک نمونه به شدت محدود کار نکنند. با این حال، وقتی فقط به شرکت‌های بزرگ و بسیار بزرگ نگاه می‌کنیم (طبق تعریف آمادئوس)، وضعیت در حال حاضر بسیار دلگرم‌کننده‌تر است، زیرا این شرکت‌ها عموماً تابع قوانین حسابداری گسترده‌تری نسبت به شرکت‌های کوچک و متوسط هستند.

جدول 4. نسبت بر اساس کشور داده های از دست رفته برای مجموعه ای از متغیرها در پایگاه داده آمادئوس (EBIT = سود قبل از بهره و مالیات، ROE = بازده حقوق صاحبان سهام، L&VL = فقط شرکت های بزرگ و بسیار بزرگ، به عنوان مثال ، درآمد عملیاتی ≥ 10 میلیون یورو یا کل دارایی ها ≥ 20 میلیون یورو یا کارکنان ≥ 150).

از آنجایی که ما نه تنها به مجموع شرکت‌ها علاقه‌مندیم، بلکه به تمایز این شرکت‌ها از نظر بخش فعالیت نیز علاقه‌مندیم، من همبستگی‌های کشور به کشور را بین تعداد مطلق شرکت‌ها در هر بخش NACE2 بر اساس SBS و با توجه به آمادئوس ( جدول 5 – در کل مقاله، تمام همبستگی های اعداد مطلق با تابع corr() در PostgreSQL محاسبه شد، همبستگی های وزنی با تابع cov.wt() در R [ 40 ] محاسبه شد. وضعیت مجدداً بین کشورها با برخی از کشورها با همبستگی بسیار بالا متفاوت است، اما برخی دیگر، به ویژه بریتانیا، اسپانیا و هلند با مقادیر پایین‌تر متفاوت است. تصویر مشابه است اما هنگام استفاده از همبستگی های وزنی نسبت ها به همبستگی های پایین تر تغییر می کند (به عنوان مثال ، نسبت بخش NACE در کل کشور وزن شده با تعداد مطلق شرکت ها در NACE). جالب توجه است که به نظر نمی رسد هیچ رابطه ای بین نسبت بین شرکت های آمادئوس و SBS و این همبستگی ها وجود داشته باشد.

جدول 5. همبستگی در هر کشور بین تعداد شرکت ها در هر NACE2 در آمادئوس و SBS (وزن = تعداد متوسط شرکت ها بین آمادئوس و SBS).

بررسی وضعیت کمی بیشتر برای کشورهایی که همبستگی پایین است نشان می دهد که چند بخش دورتر تعیین کننده هستند. به عنوان مثال، در مورد انگلستان، حذف یک بخش، NACE 82 (اداره اداری، پشتیبانی اداری و سایر فعالیت های پشتیبانی تجاری)، همبستگی را از 0.69 به 0.89 افزایش می دهد (با ضریب وزنی از 0.27 به 0.75). این نشان می‌دهد که باید دقت ویژه‌ای انجام شود، و در هر کشور آداب و رسوم خاص مربوط به انتساب شرکت‌ها به بخش‌ها و محیط قانونی و نظارتی که شرکت‌ها در آن فعال هستند، تجزیه و تحلیل شود. برای نشان دادن این نکته، جدول 6همبستگی ها را برای بخش های تولیدی تنها نشان می دهد (حرف C). در اینجا، ما 80 درصد واریانس را در همه کشورها توضیح داده ایم (اما برای تعداد بسیار کمتری از شرکت ها).

جدول 6. همبستگی در هر کشور بین تعداد شرکت ها در هر NACE2 در آمادئوس و SBS (فقط تولید، وزن = میانگین تعداد شرکت ها بین آمادئوس و SBS).

6.2. استفاده از ستاد به جای تأسیسات

برای قضاوت واقعی درباره سودمندی پایگاه داده آمادئوس برای جغرافیای اقتصادی، فقط ارزیابی تعداد کل شرکت ها در هر کشور کافی نیست. ما باید ارزیابی کنیم که آیا الگوی جغرافیایی شرکت ها در پایگاه داده با الگوهای جغرافیایی که ما می خواهیم تجزیه و تحلیل کنیم مطابقت دارد یا خیر. یکی از عواملی که ممکن است قابلیت استفاده پایگاه داده آمادئوس را محدود کند این است که (به طور کلی) فقط اطلاعات مربوط به دفتر مرکزی شرکت و نه واحدهای تولیدی را ارائه می دهد. اگر بخواهیم تولید را در مقیاس منطقه ای تجزیه و تحلیل کنیم، در شرایطی که این تولید ممکن است توسط دفاتر مرکزی مستقر در مناطق دیگر کنترل شود، این می تواند یک سوگیری جدی باشد. با این حال، تجزیه و تحلیل نشان می دهد که این سوگیری آنقدر قوی نیست که می توان انتظار داشت.جدول 7 ). با این حال، توجه داشته باشید که تعداد کم موارد، محدود به تعداد مناطق NUTS2 در هر کشور است (حتی با چنین تعداد موارد کم، مقادیر p برای همه همبستگی‌های اندازه‌گیری شده در این مقاله کمتر از 0.001 است، حتی اکثر آنها بسیار کمتر است).

جدول 7. همبستگی در هر کشور بین تعداد شرکت ها در آمادئوس و تعداد واحدهای محلی در SBS توسط NUTS2.

وقتی به ترکیب NUTS2 و NACE2، یعنی تمایز فضایی و بخشی نگاه می‌کنیم، وضعیت کمتر واضح است، اما باید تعداد بسیار بالاتر موارد ناشی از عبور از مناطق NUTS2 با کدهای NACE2 را در نظر گرفت ( جدول 8). ). نتیجه زمانی که به همبستگی وزنی نسبت ها نگاه می کنیم دلسرد کننده تر است. با این حال، این تنها تاییدی است بر مشاهدات انجام شده در بالا در سطح ملی که تنها بر اساس بخش متمایز شده است. باز هم، حذف برخی از بخش‌ها بلافاصله همبستگی‌ها را افزایش می‌دهد (به استثنای NACE 82 در انگلستان، همبستگی را به 0.82 و همبستگی وزنی نسبت‌ها را به 0.64 افزایش می‌دهد).

جدول 8. همبستگی بر اساس کشور بین تعداد شرکت‌ها در آمادئوس و تعداد واحدهای محلی در SBS توسط NUTS2 و NACE2 (برای ترکیب‌هایی که تعداد شرکت‌ها در هر NUTS2 و NACE2 > 5- وزن = میانگین تعداد شرکت‌ها بین Amadeus و SBS).

به منظور ارزیابی تأثیر بخش‌های مختلف، من همبستگی‌های هر کشور را بین تعداد شرکت‌های آمادئوس و واحدهای محلی SBS به ازای کدهای تک حرفی NUTS2 و NACE محاسبه کردم. همانطور که در جدول 9 مشاهده می شود ، برخی از بخش ها با همبستگی بسیار کم وجود دارد، اما 10 بخش از 13 بالاتر از 0.8 هستند. این نتایج با حذف شرکت های بزرگ و بسیار بزرگ تغییر قابل توجهی نمی کند. با این حال، استفاده از همبستگی‌های وزنی نسبت‌ها، تمایز بیشتری را در بین بخش‌ها نشان می‌دهد، با برخی از بخش‌ها، به‌ویژه شرکت‌های برق، اما همچنین مجموعه‌ای از بخش‌های دیگر، همبستگی‌های کمتری را نشان می‌دهند.

6.3. نتیجه گیری در مورد قابلیت استفاده از پایگاه داده آمادئوس

از تحلیل‌های مقایسه‌ای فوق، مشخص می‌شود که محققان همیشه باید مراقب باشند که داده‌هایی که استفاده می‌کنند در واقع چه چیزی را نشان می‌دهند. با این حال، به طور کلی، به نظر می‌رسد که حداقل برای برخی کشورها و برای بیشتر بخش‌های اقتصادی، داده‌های خرد مبتنی بر دفتر مرکزی مانند پایگاه داده آمادئوس را می‌توان برای تجزیه و تحلیل در جغرافیای اقتصادی بدون ریسک نتایج کاملاً متفاوت از نتایج محلی استفاده کرد. داده های مبتنی بر واحد به طور خاص، متغیرهای اضافی موجود در پایگاه‌های داده مبتنی بر ترازنامه ارزش تلاش برای هدایت مشکلات ذاتی در داده‌ها را دارند تا از این انبوه اطلاعات استفاده کنند. در برخی موارد، به ویژه برای برخی از انواع متغیرها، ممکن است لازم باشد که تجزیه و تحلیل به شرکت های بزرگتر محدود شود تا بتوان به مجموعه بزرگتری از متغیرها دسترسی داشت.

جدول 9. همبستگی با کد NACE بین تعداد شرکت ها در آمادئوس و تعداد واحدهای محلی بر اساس NUTS2 و NACE2.

7. برخی از نقشه ها به عنوان نتایج

این مقاله بیشتر در مورد سوال قابلیت استفاده از پایگاه داده آمادئوس و در مورد امکان کدگذاری جغرافیایی با داده های عمومی باز است. با این حال، ناامید کننده خواهد بود که حداقل چند نتیجه از پایگاه داده بیرون نیاید. بنابراین، در این بخش، چند نقشه ارائه می کنم که به احتمالاتی که استفاده از چنین داده های خرد عظیمی ارائه می دهد اشاره می کند. این نقشه‌ها به ویژه انعطاف‌پذیری را در نقشه‌برداری داده‌ها در مقیاس‌های مختلف نشان می‌دهند، اما همچنین وضوح بخشی بالاتری را که این داده‌ها ارائه می‌دهند در مقایسه با آمارهای تجاری ساختاری Eurostat نشان می‌دهند.

شکل 1 ، شکل 2 و شکل 3 محلی سازی شرکت ها را در بخش NACE 26 (تولید محصولات کامپیوتری، الکترونیکی و نوری) در سه مقیاس مختلف نشان می دهد: نقشه نقطه ای که در آن هر شرکت با یک نقطه نشان داده می شود، یک 5 کیلومتر مربع ^. و نقشه تراکم ²⁰ کیلومتر مربعی. به عنوان مقایسه شکل 4 تراکم شرکت ها در هر کیلومتر ^مربع را بر اساس واحد NUTS2 بر اساس داده های SBS نشان می دهد. می توان دید که الگوی کلی یکسان است، اما تمایز داخلی در NUTS2 به وضوح کاملاً از بین رفته است. در نهایت، شکل 5 و شکل 6به زیربخش های NACE 26 نشان می دهد تا امکان تجزیه و تحلیل محلی سازی با وضوح بخشی بهتر از SBS را نشان دهد.

شکل 1. نقشه نقطه ای محلی سازی شرکت در بخش NACE 26.

شکل 2. نقشه تراکم 20 × 20 کیلومتری محلی سازی شرکت در بخش NACE 26.

شکل 3. تراکم محلی سازی شرکت توسط NUTS2 در بخش NACE 26.

شکل 4. تراکم شرکت ها در هر کیلومتر ^مربع بر اساس واحد NUTS2 بر اساس داده های SBS

شکل 5. نقشه نقطه ای محلی سازی شرکت در بخش NACE 263.

شکل 6. نقشه نقطه ای محلی سازی شرکت در بخش NACE 265.

8. نتیجه گیری

در این مقاله، من قابلیت استفاده از یک پایگاه داده خرد شرکت بزرگ برای جغرافیای اقتصادی را بررسی کرده‌ام، و هم به امکانات کدگذاری جغرافیایی داده‌ها به روشی مقرون‌به‌صرفه با استفاده از داده‌های آدرس عمومی یا خدمات کدگذاری جغرافیایی و هم به قابلیت استفاده داده‌ها در نور نگاه می‌کنم. از محدودیت های آن حتی اگر این محدودیت‌ها را نباید خیلی ساده تلقی کرد، و حتی اگر کدگذاری جغرافیایی به حداقل سطح دانش در دستکاری پایگاه داده و/یا اسکریپت‌نویسی سرویس‌های وب نیاز دارد، نتیجه کلی این است که داده‌ها قابل استفاده هستند و زمینه جدیدی را به روی آن باز می‌کنند. برای جغرافیدانان اقتصادی، هم از نظر (انعطاف پذیری) مقیاس تحلیل و هم از نظر محتوای داده ها، کاوش کنید، اگرچه نتایج باید با دقت مورد بررسی قرار گیرند.

پایگاه داده آمادئوس مورد استفاده در این آزمایش یک پایگاه داده خصوصی است که مشمول هزینه اشتراک می باشد. با این حال، پایگاه های داده عمومی به شکل ثبت کسب و کار وجود دارد. دومی ها اغلب از نظر پوشش شرکت ها جامع تر هستند، اما دارای متغیرهای کمتری هستند. علاوه بر این، محدودیت‌های محرمانگی کنونی دسترسی به اطلاعات محلی‌سازی دقیق را محدود می‌کند، اگرچه درک اینکه چرا داده‌هایی که به صورت عمومی در پایگاه‌های اطلاعاتی حساب‌ها در دسترس هستند باید مشمول نگرانی‌های محرمانه باشند، به‌ویژه زمانی که این داده‌ها فقط به شرکت‌ها مربوط می‌شوند، و نه افراد یا خانواده‌ها، دشوار است. داده های اساسی مانند بخش دقیق فعالیت، گردش مالی و تعداد کارکنان باید بدون محدودیت در ارتباط با مکان یابی دقیق بر اساس آدرس جغرافیایی در دسترس باشد.

منابع

Rouault، D. L’accès aux micro-données et la gestion de la confidentialité dans quelques INS Européens. در دسترس آنلاین: http://www.insee.fr/fr/ffc/docs_ffc/cs121h.pdf (دسترسی در 15 اکتبر 2014).
مقررات (EC) شماره 223/2009 پارلمان اروپا و شورای 11 مارس 2009. در دسترس آنلاین: http://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32009R0223 (دسترسی در 15 اکتبر 2014).
Gehlke، CE; Biehl, K. برخی از اثرات گروه بندی بر اندازه ضریب همبستگی در مواد دستگاه سرشماری. مربا. آمار دانشیار 1934 ، 29 . [ Google Scholar ] [ CrossRef ]
برایانت، آ. Combes، P.-P.; Lafourcade، M. Dots to box: آیا اندازه و شکل واحدهای فضایی تخمین های جغرافیای اقتصادی را به خطر می اندازد؟ J. شهری اقتصاد. 2010 ، 67 ، 287-302. [ Google Scholar ] [ CrossRef ]
گراسلند، کلود؛ Madelin, M. مسئله واحد مساحت قابل تغییر. در دسترس آنلاین: http://www.espon.eu/export/sites/default/Documents/Projects/ESPON2006Projects/StudiesScientificSupportProjects/MAUP/tender_3.4.3-web.pdf (در 15 اکتبر 2014 قابل دسترسی است).
Tobler، WR درونیابی پیکنوفیلاکتیک صاف برای مناطق جغرافیایی. مربا. آمار دانشیار 1979 ، 74 ، 519-530. [ Google Scholar ] [ CrossRef ] [ PubMed ]
تحلیل فضایی مستقل Tobler، WR Frame. در پایگاه داده های مکانی دقت ; Goodchild, M., Sucharita, G., Eds. تیلور و فرانسیس: لندن، بریتانیا، 1989; صص 115-122. [ Google Scholar ]
گرسلند، سی. ماتیان، اچ. وینسنت، جی.-ام. تحلیل چند مقیاسی و تعمیم نقشه پدیده‌های اجتماعی گسسته: مشکلات آماری و پیامدهای سیاسی آمار JUN Econ. Comm. یورو 2000 ، 17 ، 157-188. [ Google Scholar ]
آربیا، جی. مدل‌سازی جغرافیای فعالیت‌های اقتصادی در فضایی پیوسته. پاپ Reg. علمی 2001 ، 80 ، 411-424. [ Google Scholar ] [ CrossRef ]
آربیا، جی. کوپتی، ام. دیگل، پی. مدلسازی رفتار فردی شرکتها در مطالعه تمرکز فضایی. در رشد و نوآوری مناطق رقابتی ; Fratesi, DU, Senn, PL, Eds. Springer Berlin Heidelberg: Heidelberg, Germay, 2009; صص 297-327. [ Google Scholar ]
آربیا، جی. سلا، پی. اسپا، جی. جولیانی، دی. تحلیل فضایی خرد جمعیت شناسی شرکت: مورد فروشگاه های مواد غذایی در منطقه ترنتو (ایتالیا). امپراتور اقتصاد 2014 ، 7 . [ Google Scholar ] [ CrossRef ]
آربیا، جی. اسپا، جی. جولیانی، دی. Dickson، MM خوشه بندی فضایی-زمانی در صنعت تولید تجهیزات دارویی و پزشکی: یک تجزیه و تحلیل در سطح خرد جغرافیایی. Reg. علمی شهری. اقتصاد 2014 ، 49 ، 298-304. [ Google Scholar ] [ CrossRef ]
بوکس، آر. لازرتی، ال. هرواس، جی ال. de Miguel, B. Creative Clusters in Europe: A Microdata Approach. در دسترس آنلاین: http://www.uv.es/~raboixdo/references/2011/11006.pdf (دسترسی در 15 اکتبر 2014).
مارکون، ای. Puech, F. ارزیابی تمرکز جغرافیایی صنایع با استفاده از روش های مبتنی بر فاصله. جی. اکون. Geogr. 2003 ، 3 ، 409-428. [ Google Scholar ] [ CrossRef ]
مارکون، ای. Puech, F. اندازه گیری های تمرکز جغرافیایی صنایع: بهبود روش های مبتنی بر فاصله. جی. اکون. Geogr. 2010 ، 10 ، 745-762. [ Google Scholar ] [ CrossRef ]
مارکون، ای. Puech, F. A Tipology of Distance-based Measures of Spatial Concentration. در دسترس آنلاین: http://hal.cirad.fr/halshs-00679993v2/document (دسترسی در 15 اکتبر 2014).
گرینوی، دی. Kneller، R. ناهمگونی شرکت، صادرات و سرمایه گذاری مستقیم خارجی. اقتصاد J. 2007 , 117 , F134–F161. [ Google Scholar ] [ CrossRef ]
Redding، SJ نظریه های شرکت های ناهمگن و تجارت. ان کشیش Econ. 2010 ، 3 ، 77-105. [ Google Scholar ] [ CrossRef ]
برنارد، AB; جنسن، جی بی. ردینگ، اس جی. Schott, PK تجربیات ناهمگونی شرکت و تجارت بین‌الملل. ان کشیش Econ. 2011 ، 4 ، 283-313. [ Google Scholar ] [ CrossRef ]
ملیتز، ام جی. ردینگ، SJ فصل 1 – شرکت‌ها و تجارت ناهمگن. در کتابچه راهنمای اقتصاد بین الملل ; الزویر: آمستردام، هلند، 2015; صص 1-54. [ Google Scholar ]
کونیگ، پ. تراکم و تصمیمات صادراتی شرکت های فرانسوی. J. Urban. اقتصاد 2009 ، 66 ، 186-195. [ Google Scholar ] [ CrossRef ]
فارول، تی. وینکلر، دی. موقعیت شرکت و عوامل تعیین کننده صادرات در کشورهای با درآمد کم و متوسط. جی. اکون. Geogr. 2014 ، 14 ، 395-420. [ Google Scholar ] [ CrossRef ]
پایگاه داده آمادئوس در دسترس آنلاین: http://www.library.hbs.edu/go/amadeus.html (در 15 اکتبر 2014 قابل دسترسی است).
Rozenblat، C. باز کردن جعبه سیاه اقتصادهای تراکم برای اندازه گیری رقابت شهرها از طریق شبکه های شرکت بین المللی. شهری. گل میخ. 2010 ، 47 ، 2841-2865. [ Google Scholar ] [ CrossRef ]
Amelunxen، C. رویکردی به کدگذاری بر اساس داده‌های فضایی داوطلبانه. در دسترس آنلاین: http://koenigstuhl.geog.uni-heidelberg.de/publications/2010/Amelunxen/amelunxen-geocodingOSM.pdf (دسترسی در 15 اکتبر 2014).
هویجبوم، ن. ون دن بروک، تی. داده های باز: مقایسه بین المللی استراتژی ها. یورو J. EPractice 2011 ، 12 ، 1-13. [ Google Scholar ]
دستورالعمل 2007/2/EC پارلمان اروپا و شورای 14 مارس 2007 برای ایجاد زیرساخت برای اطلاعات فضایی در جامعه اروپایی (INSPIRE). در دسترس آنلاین: http://eur-lex.europa.eu/legal-content/EN/ALL/?uri=CELEX:32007L0002 (در 15 اکتبر 2014 قابل دسترسی است).
مقررات کمیسیون (EC) شماره 976/2009 مورخ 19 اکتبر 2009 برای اجرای دستورالعمل 2007/2/EC پارلمان اروپا و شورا در رابطه با خدمات شبکه. در دسترس آنلاین: http://eur-lex.europa.eu/legal-content/EN/ALL/?uri=CELEX:32009R0976 (در 15 اکتبر 2014 قابل دسترسی است).
ویکیپدیا. کد پستی در بریتانیا در دسترس آنلاین: http://en.wikipedia.org/wiki/Postcodes_in_the_United_Kingdom (دسترسی در 15 اکتبر 2014).
گلدبرگ، DW; ویلسون، جی پی؛ Knoblock، CA از متن تا مختصات جغرافیایی: وضعیت فعلی کدگذاری جغرافیایی. اوریسا. J. 2007 ، 19 ، 33-46. [ Google Scholar ]
فیلدینگ، RT; تیلور، RN طراحی اصولی معماری مدرن وب. ACM Trans. بین المللی تکنولوژی 2002 ، 2 ، 115-150. [ Google Scholar ] [ CrossRef ]
پروتکل دسترسی به اشیاء ساده W3C. در دسترس آنلاین: http://www.w3.org/TR/2000/NOTE-SOAP-20000508/ (دسترسی در 15 اکتبر 2014).
اورتل، جی. نوهر، ج. Van Gheem، N. Python suds Library. در دسترس آنلاین: https://fedorahosted.org/suds/ (دسترسی در 15 اکتبر 2014).
دوشاتو، اف. بلاسن، ز. کولتا، آر. یک رویکرد انعطاف پذیر برای برنامه ریزی الگوریتم های تطبیق طرحواره. در حرکت به سوی سیستم های اینترنتی معنادار: OTM 2008 ; Meersman, R., Tari, Z., Eds. Springer Berlin Heidelberg: Heidelberg, Germany, 2008; صص 249-264. [ Google Scholar ]
کدهای باینری Levenshtein، VI که قادر به تصحیح حذف، درج و معکوس هستند. Sov. فیزیک دوکل. 1966 ، 10 ، 707-710. [ Google Scholar ]
Ukkonen، E. تطبیق تقریبی رشته با q-گرم و حداکثر مطابقت. نظریه. محاسبه کنید. علمی 1992 ، 92 ، 191-211. [ Google Scholar ] [ CrossRef ]
Ranzijn، B. الگوریتم ژئوکدینگ مبتنی بر مطالعه مقایسه ای تکنیک های تطبیق آدرس. پایان نامه کارشناسی ارشد، دانشگاه اراسموس، روتردام، هلند، 2013. [ Google Scholar ]
بارتونوف، او. Sigaev, T. PostgreSQL 9.3.5 Documentation. در دسترس آنلاین: http://www.postgresql.org/docs/9.3/static/pgtrgm.html (دسترسی در 15 اکتبر 2014).
فصل 12. اضافی PostGIS. در دسترس آنلاین: http://postgis.net/docs/manual-2.1/Extras.html#Tiger_Geocoder (در 15 اکتبر 2014 قابل دسترسی است).
تیم اصلی R. R: زبان و محیطی برای محاسبات آماری . بنیاد R برای محاسبات آماری: وین، اتریش، 2014. [ Google Scholar ]

© 2015 توسط نویسندگان; دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب