مجموعه داده یا Dataset چیست و چه تفاوتی با پایگاه داده دارد؟

مجموعه داده یا Dataset چیست و چه تفاوتی با پایگاه داده دارد؟

مجموعه داده یا Dataset، مجموعه‌ای از داده‌های مرتبط هستند که معمولاً در قالبی استاندارد سازمان دهی می شوند. مجموعه داده ها برای تجزیه و تحلیل، هوش تجاری (BI)، آموزش مدل هوش مصنوعی (AI) و انواع موارد دیگر استفاده می شوند. مجموعه داده ها می توانند از نظر اندازه و نوع داده به طور قابل توجهی متفاوت باشند. به عنوان مثال، یک مجموعه داده ممکن است حاوی اطلاعاتی در مورد گونه های درختی، دمای اقیانوس ها، مجموع فروش منطقه های مختلف، قیمت میوه ها، برندگان قرعه کشی، بیماری ها یا هر نوع داده دیگری باشد.

پیشنهاد بهفالب : تبدیل داده چیست؟

مجموعه داده چیست؟

اگرچه فرمت‌ها از یک مجموعه داده به مجموعه دیگر متفاوت است، اما اغلب دارای ستون‌ها و ردیف‌های مختلف می‌باشند. مانند مواردی که در صفحات گسترده یا جداول پایگاه داده یافت می‌شود. هر ستون نشان دهنده متغیری است که داده‌ها را توصیف می‌کند و هر ردیف نشان دهنده رکوردی است که حاوی مجموعه‌ای از مقادیر متغیر مرتبط است. یک مقدار در یک مجموعه داده به عنوان داده شناخته می‌شود.

بسیاری از مجموعه‌های داده به صورت رایگان در فضای اینترنت، در دسترس عموم هستند. این داده‌ها می‌توانند برای توسعه و آزمایش برنامه‌ها، آموزش مدل‌های هوش مصنوعی، انجام تجزیه و تحلیل یا انجام پروژه‌های دیگر استفاده شوند. به عنوان مثال، شکل زیر مجموعه داده‌های کیفیت هوا را از وبسایت Data.gov نشان می‌دهد که طیف گسترده‌ای از مجموعه داده‌های رایگان را ارائه می‌دهد. مجموعه داده‌های کیفیت هوا حاوی داده‌های نظارت بر کیفیت هوا برای شهر نیویورک است.

در شکل زیر، مجموعه داده های کیفیت هوا در یک صفحه اکسل نمایش داده شده است. با این حال، داده‌ها به‌عنوان یک فایل مقادیر جداشده با کاما (CSV) که از Data.gov دانلود شده است، ایجاد شده‌اند. مجموعه داده شامل ستون‌هایی مانند شناسه منحصر به فرد، نام مکانی جغرافیایی و دوره زمانی است که سه متغیر مجموعه داده هستند.

مجموعه داده

نمونه‌ای از یک مجموعه داده

مجموعه داده‌ها همچنین شامل ردیف‌هایی برای هر اندازه گیری کیفیت هوا، مخصوص مکان و زمان است. یعنی هر ردیف رکوردی از اندازه گیری کیفیت هوای خاص است. رکورد از مجموعه‌ای از مقادیر مرتبط تشکیل شده است که هر مقدار مربوط به یک ستون، یعنی متغیر است.

پیشنهاد بهفالب : پیش پردازش داده چیست؟

فرمت های مجموعه داده

مجموعه داده‌ها در قالب‌های مختلفی مانند JSON و XML در دسترس هستند. چنین فرمت‌هایی ساختار استاندارد شده‌ای را برای به اشتراک گذاری داده‌ها در چندین پلتفرم و برنامه ارائه می‌کنند. خود داده‌ها معمولاً در قالب متن ذخیره می‌شوند، بنابراین می‌توان آن‌ها را به راحتی فیلتر، به روز کرد و به روش‌های دیگر تغییر داد تا نیازهای خاص را برآورده کند.

برخی از مجموعه‌های داده در بیش از یک قالب موجود هستند. برای مثال، مجموعه داده‌های کیفیت هوا نشان داده شده در بالا را می‌توان از Data.gov به‌عنوان فایل CSV، JSON، XML یا RDF دانلود کرد. هنگامی که یک مجموعه داده در فرمت‌های متعدد موجود است، انتظار می‌رود که هر فایل حاوی مجموعه‌ای از رکوردها باشد و هر رکورد بر اساس استانداردهای قابل اجرا قالب‌بندی شده باشد.

مجموعه داده (Dataset) در مقابل پایگاه داده (Database)

مجموعه داده و پایگاه داده

 

اصطلاح مجموعه داده معمولا با اصطلاح پایگاه داده اشتباه گرفته می‌شود، اما این دو مفهوم، معانی متفاوتی دارند. یک پایگاه داده برای ذخیره و مدیریت داده‌ها استفاده می‌شود. این پایگاه بخشی از یک پلتفرم مدیریتی بزرگ‌تر است که شامل ویژگی‌هایی برای ایمن سازی، دسترسی، به روز رسانی و به روش‌های دیگر کار با و حفاظت از داده‌ها است. مجموعه داده صرفاً یک فایل یا ساختار دیگری است که مقادیر داده‌ها را در قالب خاصی در خود دارد. یک پایگاه داده ممکن است حاوی داده‌های یک یا چند مجموعه داده باشد.

انواع مجموعه داده ها

مجموعه داده‌ها را می‌توان به روش‌های مختلفی دسته بندی کرد. یکی از رویکردهای رایج که اغلب در آمار استفاده می‌شود، تقسیم آن‌ها به دسته‌های زیر است:

  • عددی: تمام مقادیر درون مجموعه داده‌ها عددی هستند. مجموعه داده‌های عددی برای تجزیه و تحلیل‌های مختلف، از فروش مشتری تا خواندن ایستگاه‌های هواشناسی استفاده می‌شود. به این نوع مجموعه داده، کمی نیز می‌گویند.
  • دو متغیره: مجموعه داده شامل دو متغیر است که رابطه بین داده‌ها را بیان می‌کند. به عنوان مثال، یک مجموعه داده ممکن است شامل یک متغیر دما و یک متغیر زمان باشد. این متغیرها با هم بینشی را در مورد چگونگی ارتباط نوسانات دما با زمان روز ارائه می‌دهند.
  • چند متغیره: این نوع مجموعه داده شامل سه یا چند متغیر است که به نوعی به هم مرتبط هستند. به عنوان مثال، یک مجموعه داده ممکن است شامل متغیرهایی باشد که رنگ، اندازه، وزن و سایر ویژگی‌های محصول را توصیف می‌کند. مجموعه داده‌های چند متغیره اغلب روابط پیچیده‌ای را بین داده‌ها تعریف می‌کنند.
  • دسته بندی: مجموعه داده‌های طبقه بندی شده، داده‌ها را بر اساس ویژگی‌های خاص افراد یا اشیاء به گروه‌های مجزا تقسیم می‌کند. دو نوع داده مقوله‌ای وجود دارد: دوگانه و چندگانه. داده‌های دوگانه فقط شامل دو مقدار درست و نادرست هستند.
  • همبستگی: این مجموعه داده شامل متغیرهایی است که به نوعی به هم مرتبط هستند و بین آن‌ها وابستگی وجود دارد. به عنوان مثال، متغیرهای موجود در یک مجموعه داده مربوط به فروش بستنی ممکن است همبستگی بین دمای بیرون و میزان فروش را نشان دهند. همبستگی‌ها می توانند مثبت (متغیرها در یک جهت حرکت می‌کنند)، منفی (متغیرها در جهت مخالف حرکت می‌کنند) یا صفر (متغیرها بر یکدیگر تأثیر نمی‌گذارند).

پیشنهاد بهفالب : فرایندکاوی چیست؟

جمع بندی

یک مجموعه داده مجموعه‌ای از داده‌های مرتبط است، اما آنچه که یک مجموعه داده را تشکیل می‌دهد به وضوح مشخص نیست. می‌توان تمام داده‌های مرتبط با یک پروژه تحقیقاتی را بدون توجه به نوع داده، یک مجموعه داده واحد در نظر گرفت. اما یک پروژه تحقیقاتی اغلب انواع مختلفی از داده‌ها را جمع آوری می‌کند و می‌توان داده های جمع آوری شده از طریق هر روش را یک مجموعه داده جداگانه در نظر گرفت.

ارتباط با تیم متخصصین فرآیندکاوی بهفالب جهت رفع نیازهای سازمانی شما

به این مطلب امتیاز دهید
نوشته های مرتبط
یک پاسخ بنویسید

نشانی ایمیل شما منتشر نخواهد شد.فیلد های مورد نیاز علامت گذاری شده اند *