مجموعه داده یا Dataset، مجموعهای از دادههای مرتبط هستند که معمولاً در قالبی استاندارد سازمان دهی می شوند. مجموعه داده ها برای تجزیه و تحلیل، هوش تجاری (BI)، آموزش مدل هوش مصنوعی (AI) و انواع موارد دیگر استفاده می شوند. مجموعه داده ها می توانند از نظر اندازه و نوع داده به طور قابل توجهی متفاوت باشند. به عنوان مثال، یک مجموعه داده ممکن است حاوی اطلاعاتی در مورد گونه های درختی، دمای اقیانوس ها، مجموع فروش منطقه های مختلف، قیمت میوه ها، برندگان قرعه کشی، بیماری ها یا هر نوع داده دیگری باشد.
پیشنهاد بهفالب : تبدیل داده چیست؟
مجموعه داده چیست؟
اگرچه فرمتها از یک مجموعه داده به مجموعه دیگر متفاوت است، اما اغلب دارای ستونها و ردیفهای مختلف میباشند. مانند مواردی که در صفحات گسترده یا جداول پایگاه داده یافت میشود. هر ستون نشان دهنده متغیری است که دادهها را توصیف میکند و هر ردیف نشان دهنده رکوردی است که حاوی مجموعهای از مقادیر متغیر مرتبط است. یک مقدار در یک مجموعه داده به عنوان داده شناخته میشود.
بسیاری از مجموعههای داده به صورت رایگان در فضای اینترنت، در دسترس عموم هستند. این دادهها میتوانند برای توسعه و آزمایش برنامهها، آموزش مدلهای هوش مصنوعی، انجام تجزیه و تحلیل یا انجام پروژههای دیگر استفاده شوند. به عنوان مثال، شکل زیر مجموعه دادههای کیفیت هوا را از وبسایت Data.gov نشان میدهد که طیف گستردهای از مجموعه دادههای رایگان را ارائه میدهد. مجموعه دادههای کیفیت هوا حاوی دادههای نظارت بر کیفیت هوا برای شهر نیویورک است.
در شکل زیر، مجموعه داده های کیفیت هوا در یک صفحه اکسل نمایش داده شده است. با این حال، دادهها بهعنوان یک فایل مقادیر جداشده با کاما (CSV) که از Data.gov دانلود شده است، ایجاد شدهاند. مجموعه داده شامل ستونهایی مانند شناسه منحصر به فرد، نام مکانی جغرافیایی و دوره زمانی است که سه متغیر مجموعه داده هستند.
نمونهای از یک مجموعه داده
مجموعه دادهها همچنین شامل ردیفهایی برای هر اندازه گیری کیفیت هوا، مخصوص مکان و زمان است. یعنی هر ردیف رکوردی از اندازه گیری کیفیت هوای خاص است. رکورد از مجموعهای از مقادیر مرتبط تشکیل شده است که هر مقدار مربوط به یک ستون، یعنی متغیر است.
پیشنهاد بهفالب : پیش پردازش داده چیست؟
فرمت های مجموعه داده
مجموعه دادهها در قالبهای مختلفی مانند JSON و XML در دسترس هستند. چنین فرمتهایی ساختار استاندارد شدهای را برای به اشتراک گذاری دادهها در چندین پلتفرم و برنامه ارائه میکنند. خود دادهها معمولاً در قالب متن ذخیره میشوند، بنابراین میتوان آنها را به راحتی فیلتر، به روز کرد و به روشهای دیگر تغییر داد تا نیازهای خاص را برآورده کند.
برخی از مجموعههای داده در بیش از یک قالب موجود هستند. برای مثال، مجموعه دادههای کیفیت هوا نشان داده شده در بالا را میتوان از Data.gov بهعنوان فایل CSV، JSON، XML یا RDF دانلود کرد. هنگامی که یک مجموعه داده در فرمتهای متعدد موجود است، انتظار میرود که هر فایل حاوی مجموعهای از رکوردها باشد و هر رکورد بر اساس استانداردهای قابل اجرا قالببندی شده باشد.
مجموعه داده (Dataset) در مقابل پایگاه داده (Database)
اصطلاح مجموعه داده معمولا با اصطلاح پایگاه داده اشتباه گرفته میشود، اما این دو مفهوم، معانی متفاوتی دارند. یک پایگاه داده برای ذخیره و مدیریت دادهها استفاده میشود. این پایگاه بخشی از یک پلتفرم مدیریتی بزرگتر است که شامل ویژگیهایی برای ایمن سازی، دسترسی، به روز رسانی و به روشهای دیگر کار با و حفاظت از دادهها است. مجموعه داده صرفاً یک فایل یا ساختار دیگری است که مقادیر دادهها را در قالب خاصی در خود دارد. یک پایگاه داده ممکن است حاوی دادههای یک یا چند مجموعه داده باشد.
انواع مجموعه داده ها
مجموعه دادهها را میتوان به روشهای مختلفی دسته بندی کرد. یکی از رویکردهای رایج که اغلب در آمار استفاده میشود، تقسیم آنها به دستههای زیر است:
- عددی: تمام مقادیر درون مجموعه دادهها عددی هستند. مجموعه دادههای عددی برای تجزیه و تحلیلهای مختلف، از فروش مشتری تا خواندن ایستگاههای هواشناسی استفاده میشود. به این نوع مجموعه داده، کمی نیز میگویند.
- دو متغیره: مجموعه داده شامل دو متغیر است که رابطه بین دادهها را بیان میکند. به عنوان مثال، یک مجموعه داده ممکن است شامل یک متغیر دما و یک متغیر زمان باشد. این متغیرها با هم بینشی را در مورد چگونگی ارتباط نوسانات دما با زمان روز ارائه میدهند.
- چند متغیره: این نوع مجموعه داده شامل سه یا چند متغیر است که به نوعی به هم مرتبط هستند. به عنوان مثال، یک مجموعه داده ممکن است شامل متغیرهایی باشد که رنگ، اندازه، وزن و سایر ویژگیهای محصول را توصیف میکند. مجموعه دادههای چند متغیره اغلب روابط پیچیدهای را بین دادهها تعریف میکنند.
- دسته بندی: مجموعه دادههای طبقه بندی شده، دادهها را بر اساس ویژگیهای خاص افراد یا اشیاء به گروههای مجزا تقسیم میکند. دو نوع داده مقولهای وجود دارد: دوگانه و چندگانه. دادههای دوگانه فقط شامل دو مقدار درست و نادرست هستند.
- همبستگی: این مجموعه داده شامل متغیرهایی است که به نوعی به هم مرتبط هستند و بین آنها وابستگی وجود دارد. به عنوان مثال، متغیرهای موجود در یک مجموعه داده مربوط به فروش بستنی ممکن است همبستگی بین دمای بیرون و میزان فروش را نشان دهند. همبستگیها می توانند مثبت (متغیرها در یک جهت حرکت میکنند)، منفی (متغیرها در جهت مخالف حرکت میکنند) یا صفر (متغیرها بر یکدیگر تأثیر نمیگذارند).
پیشنهاد بهفالب : فرایندکاوی چیست؟
جمع بندی
یک مجموعه داده مجموعهای از دادههای مرتبط است، اما آنچه که یک مجموعه داده را تشکیل میدهد به وضوح مشخص نیست. میتوان تمام دادههای مرتبط با یک پروژه تحقیقاتی را بدون توجه به نوع داده، یک مجموعه داده واحد در نظر گرفت. اما یک پروژه تحقیقاتی اغلب انواع مختلفی از دادهها را جمع آوری میکند و میتوان داده های جمع آوری شده از طریق هر روش را یک مجموعه داده جداگانه در نظر گرفت.