0% Complete
English
صفحه اصلی
/
سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
طبقه بندی روش های شناسایی داده های تکراری در جهت تسهیل فرایند پاکسازی داده ها
نویسندگان :
مهدی جعفری
1
احمد عبدالله زاده بار فروش
2
1- دانشگاه صنعتی امیرکبیر
2- دانشگاه صنعتی امیرکبیر
کلمات کلیدی :
پاکسازی داده ها،شناسایی داده های تکراری،کیفیت داده ها،کلان داده
چکیده :
روز به روز حجم دادههای تولید شده توسط انسانها در حال افزایش است. این داده ها اگر به درستی مدیریت شوند می توانند در امر تجزیه و تحلیل و استخراج دانش از آنها مفید واقع شوند. داده ها اغلب پس از جمع آوری، یکپارچه سازی و ذخیره سازی با مشکلات کیفیتی روبرو می شوند. این مشکلات کیفیتی در جهت بهبود کیفیت داده ها و به دنبال آن استخراج دانش مفید از آنها در طی فرایند تجزیه و تحلیل باید در ابتدا شناسایی شده و سپس پردازش های متناسب در جهت مقابله با آنها انجام شود. داده های تکراری به عنوان یکی از مشکلات کیفیتی رایج و مهم مورد توجه این مقاله است. از گذشته تاکنون پژوهش های متعددی بر مبنای رویکردهای مختلف از جمله مبتنی بر قانون، مبتنی بر مفاهیم یادگیری، مبتنی بر خرد جمعی و ... در جهت شناسایی انواع مختلف داده های تکراری انجام و هر یک از آنها منجر به ارائه یک روش نوین در جهت مقابله با این مشکل شده است. هدف ما در این مقاله ارائه یک طبقه بندی از روش های شناسایی داده های تکراری و به دنبال آن بحث و تجزیه و تحلیل هر یک از روش های مطرح بر اساس طبقه بندی ارائه شده است.
لیست مقالات
لیست مقالات بایگانی شده
A Multi-Task Framework Using Mamba for Identity, Age, and Gender Classification from Hand Images
Amirabbas Rezasoltani - Alireza Hosseini - Ramin Toosi - MohammadAli Akhaee
An Efficient Link Prediction Method using Community Structures
Dr Hadi Shakibian - Setareh Mokhtari
Statistical Disorder Parameters Computing For Hyperspectral Image Anomaly Detection
Dr Maryam Imani
امنیت در اینترنت اشیا؛ معماری، کاربردها، چالشها و راهکارها
مهدی موسی وند - دکتر پیام محمودی نصر مهدی موسی وند - پیام محمودی نصر -
Improving Deep Neural Network Accelerator for Malaria Diseased Blood Cells using FPGA
Hadi Rezaeikarjani - Mojtaba Valinataj
کنترل کیفیت پیش_بینانه آمیزه_های لاستیکی مدلی یکپارچه بر اساس استاندارد پذیرش متغیرهای ANSI Z1.9 و پایش رئولوژیکی برخط
آکو یاری - فرهاد محمدزاده
مدل یادگیری ماشین برای تشخیص تقلب در کارتهای اعتباری با رویکرد بهینهسازی AUC و تنظیم خودکار ابرپارامترها
محمد مهدی متولی
توسعه مدل مفهومی طراحی فرآیند مدیریت بحران سیلاب از طریق بهینه سازی استفاده از دستگاه های اینترنت اشیاء (IoT Devices) در تصمیم گیری
محمود رسولی - سید احسان ملیحی
پیاده سازی موازی یک طرح (t,n)-تسهیم چند تصویر با استفاده از GPU
سعیده کبیری راد
پیدا کردن خبره در انجمنهای پرسش و پاسخ با استفاده از الگوریتم طبقهبندی ترکیبی
مهراد قاضی پور - علیرضا رضوانیان
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.8.0