پیش پردازش داده (Data Preprocessing) چیست؟

پیش پردازش داده، جزئی از آماده سازی داده ها است که هر نوع پردازشی را که بر روی داده های خام انجام می شود توصیف می کند تا آن را برای پردازش داده دیگر آماده کند. این رویکرد به طور سنتی یک مرحله مقدماتی مهم برای فرآیند داده کاوی بوده است. اخیراً، تکنیک‌های پیش پردازش داده‌ ها برای آموزش مدل‌ های یادگیری ماشین و مدل‌ های هوش مصنوعی و برای اجرای آن‌ها استفاده می‌شوند.

پیش پردازش داده‌ ها، داده‌ها را به قالبی تبدیل می‌کند که در داده کاوی، یادگیری ماشین و سایر کارهای علم داده پردازش آسان‌تر و مؤثرتری اتفاق بیفتد. این تکنیک‌ها معمولاً در مراحل اولیه یادگیری ماشین و توسعه هوش مصنوعی برای اطمینان از نتایج دقیق استفاده می‌شوند.

ابزارهای پیش پردازش داده

ابزارها و روش‌های مختلفی برای پیش پردازش داده‌ها استفاده می شود، از جمله:

نمونه گیری : یک زیرمجموعه نماینده را از جمعیت بزرگی از داده‌ها انتخاب می‌کند.
تبدیل : داده‌های خام را برای تولید یک ورودی واحد دستکاری می‌کند.
حذف نویز : نویز را از داده‌ها حذف می‌کند.
انتساب : داده های آماری مرتبط را برای مقادیر از دست رفته ترکیب می‌کند.
استخراج ویژگی : یک زیرمجموعه ویژگی مرتبط را که در یک زمینه خاص مهم است، بیرون می‌کشد.

این ابزارها و روش‌ها را می‌توان در انواع منابع داده، از جمله داده‌های ذخیره‌شده در فایل‌ها یا پایگاه‌های داده و جریان داده استفاده کرد.

پیش پردازش داده ها چرا مهم است؟

نکته :

تقریباً هر نوع تجزیه و تحلیل داده، علم داده یا توسعه هوش مصنوعی به نوعی از پیش پردازش داده نیاز دارد تا نتایج قابل اعتماد، دقیق و قوی برای برنامه‌های کاربردی سازمانی ارائه دهد.

داده‌های دنیای واقعی کثیف هستند و اغلب توسط انسان‌ها، فرآیندهای کسب و کار و برنامه‌های کاربردی مختلف ایجاد، پردازش و ذخیره می‌شوند. در نتیجه، یک مجموعه داده ممکن است فیلدهای جداگانه نداشته باشد، حاوی خطاهای ورودی دستی باشد، یا داده های تکراری یا نام‌های متفاوتی برای توصیف یک رکورد داشته باشد. انسان‌ها اغلب می‌توانند این مشکلات را در داده‌هایی که در مسیر کسب و کار استفاده می‌کنند شناسایی و اصلاح کنند، اما داده‌هایی که برای آموزش یادگیری ماشین یا الگوریتم‌های یادگیری عمیق استفاده می‌شوند باید به طور خودکار پیش پردازش شوند.

الگوریتم‌های یادگیری ماشین و یادگیری عمیق زمانی بهترین عملکرد را دارند که داده‌ها در قالبی ارائه شوند که جنبه‌های مرتبط مورد نیاز برای حل یک مشکل را برجسته کنند. روش‌های مهندسی ویژگی‌ها که شامل تبدیل داده‌ها، کاهش داده‌ها، انتخاب ویژگی و مقیاس‌بندی ویژگی است، به بازسازی داده‌های خام به شکلی مناسب برای انواع خاصی از الگوریتم‌ها کمک می‌کنند. این امر می‌تواند به طور قابل توجهی قدرت پردازش و زمان مورد نیاز برای آموزش یک الگوریتم یادگیری ماشینی یا هوش مصنوعی جدید را کاهش دهد.

مراحل کلیدی در پیش پردازش داده ها چیست؟

مراحل مورد استفاده در پیش پردازش داده‌ها شامل موارد زیر است:

پروفایل داده: پروفایل داده‌ها فرآیند بررسی، تجزیه و تحلیل و بررسی داده‌ها برای جمع آوری آمار در مورد کیفیت آن است. این مرحله با بررسی داده‌های موجود و ویژگی‌های آن شروع می‌شود. متخصصان داده مجموعه‌های داده‌ای را شناسایی می‌کنند که مربوط به مسئله مورد نظر هستند، ویژگی‌های مهم آن را فهرست‌بندی می‌کنند و فرضیه‌ای از ویژگی‌هایی را تشکیل می‌دهند که ممکن است برای تحلیل پیشنهادی یا کار یادگیری ماشین مرتبط باشند. آن‌ها همچنین منابع داده را به مفاهیم کسب و کار مرتبط مرتبط می‌کنند و در نظر می‌گیرند که کدام کتابخانه‌های پیش پردازش پایتون می‌توانند مورد استفاده قرار گیرند.
پاکسازی داده‌ها: هدف در اینجا یافتن ساده‌ترین راه برای اصلاح مشکلات کیفیت است، مانند حذف داده‌های اضافی، پر کردن داده‌های از دست رفته یا اطمینان از مناسب بودن داده‌های خام برای مهندسی ویژگی‌ها.
کاهش داده‌ها: مجموعه داده‌های خام اغلب شامل داده‌های اضافی می‌شوند که از توصیف پدیده‌ها به روش‌های مختلف یا داده‌هایی که به یک کار خاص ML، AI یا تجزیه و تحلیل مرتبط نیستند، ناشی می‌شوند. روش کاهش داده‌ها از تکنیک‌هایی مانند تجزیه و تحلیل مؤلفه‌های اصلی برای تبدیل داده‌های خام به شکل ساده‌تر مناسب برای موارد استفاده خاص استفاده می‌کند.
تبدیل داده‌ها: در اینجا، متخصصان داده به این فکر می‌کنند که چگونه جنبه‌های مختلف داده‌ها باید سازماندهی شوند تا بیشترین معنا را برای هدف داشته باشند. این مرحله می‌تواند شامل مواردی مانند ساختار دادن به داده‌های بدون ساختار و تمرکز روی آن‌ها باشد.
غنی سازی داده‌ها: در این مرحله، متخصصان داده، کتابخانه‌های مهندسی ویژگی‌های مختلف را روی داده‌ها اعمال می‌کنند تا تبدیل‌های مورد نظر را اعمال کنند. نتیجه باید مجموعه داده‌ای باشد که برای دستیابی به تعادل بهینه بین زمان آموزش برای یک مدل جدید و محاسبات مورد نیاز سازماندهی شده است.
اعتبار سنجی داده‌ها: در این مرحله داده‌ها به دو مجموعه تقسیم می‌شوند. اولین مجموعه برای آموزش یک مدل یادگیری ماشین یا یادگیری عمیق استفاده می‌شود. مجموعه دوم داده‌های آزمایشی است که برای سنجش دقت و استحکام مدل به دست آمده استفاده می‌شود. این مرحله دوم به شناسایی هرگونه مشکل در فرضیه استفاده شده در تمیز کردن و مهندسی ویژگی داده‌ها کمک می‌کند. اگر متخصصان داده از نتایج راضی باشند، می توانند وظیفه پیش پردازش را به یک مهندس داده سوق دهند که چگونگی مقیاس بندی آن را برای تولید بیابد. در غیر این صورت، متخصصان داده می‌توانند به عقب برگردند و تغییراتی در نحوه اجرای مراحل پاکسازی داده‌ها و مهندسی ویژگی‌ها ایجاد کنند.

پیشنهاد بهفالب : مدلسازی فرآیند چیست؟

تکنیک های پیش پردازش داده ها

دو دسته اصلی پیش پردازش وجود دارد: تمیز کردن داده‌ها و مهندسی ویژگی داده‌ها. هر کدام شامل تکنیک های متنوعی است که در زیر توضیح داده شده است.

تمیز کردن داده ها

تکنیک‌های پاکسازی داده‌های نامرتب شامل موارد زیر است:

داده های از دست رفته را شناسایی و مرتب کنید: دلایل مختلفی وجود دارد که یک مجموعه داده ممکن است فیلدهای جداگانه داده را از دست بدهد. متخصصان داده باید تصمیم بگیرند که آیا بهتر است رکوردهای دارای فیلدهای گمشده را کنار بگذارند، آن‌ها را نادیده بگیرند یا آن‌ها را با مقدار احتمالی پر کنند. به عنوان مثال، در یک برنامه IoT که دما را ثبت می‌کند، اضافه کردن یک میانگین دمای از دست رفته بین رکورد قبلی و بعدی ممکن است راه حل مطمئنی باشد.

داده‌های نویزی را کاهش دهید: داده‌های دنیای واقعی اغلب پر از نویز هستند که می‌تواند مدل تحلیلی یا هوش مصنوعی را مخدوش کند. به عنوان مثال، یک سنسور دما که به طور مداوم دمای 75 درجه فارنهایت را گزارش می‌کند ممکن است به اشتباه دما را 250 درجه گزارش کند. انواع روش‌های آماری را می‌توان برای کاهش نویز استفاده کرد، از جمله binning، رگرسیون و خوشه بندی.

موارد تکراری را شناسایی و حذف کنید: هنگامی که دو رکورد تکرار می شوند، یک الگوریتم باید تعیین کند که آیا یک اندازه گیری دو بار ثبت شده است یا اینکه رکوردها نشان دهنده رویدادهای مختلف هستند. در برخی موارد، ممکن است تفاوت های جزئی در یک رکورد وجود داشته باشد زیرا یک فیلد به اشتباه ثبت شده است. در موارد دیگر، سوابقی که به نظر تکراری هستند ممکن است واقعاً متفاوت باشند، مانند پدر و پسری با نام مشابه که در یک خانه زندگی می‌کنند اما باید به عنوان افراد جداگانه نشان داده شوند. تکنیک‌های شناسایی و حذف یا پیوستن موارد تکراری می‌تواند به رفع خودکار این نوع مشکلات کمک کند.

مهندسی ویژگی

مهندسی ویژگی، همانطور که اشاره شد، شامل تکنیک‌هایی است که توسط متخصصان داده برای سازماندهی داده‌ها به روش‌هایی که آموزش مدل‌های داده و استنتاج بر اساس آن‌ها را کارآمدتر می‌کند، استفاده می‌کند. این تکنیک ها شامل موارد زیر است:

مقیاس بندی یا نرمال سازی ویژگی: اغلب، چندین متغیر در مقیاس‌های مختلف تغییر می‌کنند، یا یکی به صورت خطی تغییر می‌کند در حالی که متغیر دیگر به صورت تصاعدی تغییر می‌کند. به عنوان مثال، حقوق ممکن است با هزاران دلار اندازه گیری شود، در حالی که سن به صورت دو رقمی نشان داده می‌شود. مقیاس‌بندی به تغییر شکل داده‌ها کمک می‌کند تا الگوریتم‌ها بتوانند رابطه معنادار بین متغیرها را از هم جدا کنند.

کاهش داده‌ها: متخصصان داده اغلب نیاز به ترکیب انواع منابع داده برای ایجاد یک مدل هوش مصنوعی یا تحلیلی جدید دارند. برخی از متغیرها ممکن است با یک نتیجه مشخص همبستگی نداشته باشند و با خیال راحت کنار گذاشته شوند. سایر متغیرها ممکن است مرتبط باشند، اما فقط از نظر رابطه – مانند نسبت بدهی به اعتبار در مورد مدلی که احتمال بازپرداخت وام را پیش‌بینی می‌کند. تکنیک‌هایی مانند تحلیل مؤلفه‌های اصلی نقش کلیدی در کاهش تعداد ابعاد در مجموعه داده‌های آموزشی به نمایش کارآمدتر دارند.

جمع بندی

در آخر باید اشاره کنیم که پیش‌پردازش داده‌ها یکی از مراحل کلیدی و حیاتی در فرآیندکاوی محسوب می‌شود. در این مرحله، لاگ‌ها و داده‌های رویدادی خام که از سیستم‌های اطلاعاتی جمع‌آوری شده‌اند، پس از انجام عملیات پاک‌سازی و استانداردسازی، آماده‌ی تجزیه و تحلیل توسط الگوریتم‌ها و روش‌های کشف فرآیند می‌گردند. پس از آماده‌سازی داده‌ها، می‌توان فرایندکاوی را بر روی آن‌ها اعمال نموده و الگوها و بینش‌های ارزشمندی را در رابطه با عملکرد و بهره‌وری فرایندهای کسب و کار استخراج کرد.

ارتباط با تیم متخصصین فرآیندکاوی بهفالب جهت رفع نیازهای سازمانی شما