|
تعامل انسان و اطلاعات، جلد ۹، شماره ۴، صفحات ۰-۰
|
|
|
عنوان فارسی |
ارائه روشی برای حل مشکل دادههای گم شده، پرت و نویزی به منظور بهبود عملکرد تعامل انسان و اطلاعات |
|
چکیده فارسی مقاله |
چکیده هدف: خطا در جمعآوری دادهها و عدم توجه به دادههایی که در پروسه جمعآوری به هر دلیل دچار نویز شدهاند باعث ایحاد اشکال در تحلیلهای مبتنی بر داده و به تبع آن، تصمیمسازیهای اشتباه می گردد. لذا رفع مشکل دادههای گم شده و یا نویزی، قبل از انجام مراحل پردازش و تحلیل دارای اهمیت حیاتی در سامانههای تحلیلی میباشد. هدف این مقاله، ارائه روشی به منظور شناسایی دادههای نویزی، پرت و دادههای گم شده و ارائه راهکاری مناسب برای هموارسازی این دادهها میباشد. روش پژوهش: این پژوهش بر مبنای هدف، از نوع کاربردی است. از تکنیکهای داده کاوی شامل هموارسازی پیالهای و مدل رگرسیون به منظور شناسایی و جایگذاری دادههای پرت و نویزی استفاده شده است. یافتهها: نتایج آزمایشهای انجام شده در محیط واقعی مربوط به دادههای شبکههای اجتماعی، نشاندهنده عملکرد مناسب روش پیشنهادی میباشد. همچنین نشان داده شده است که روش پیشنهادی دارای دقت بالاتری در مقایسه با روشهای هموارسازی پیالهای، میانگین و رگرسیون خطی میباشد. به طوری که برای دادههای مربوط به بخش توئیت، میانگین مربعات خطای بدست آمده برای روش پیشنهادی برابر 0.04، روش هموارسازی پیالهای برابر 0.38، روش رگرسیون خطی برابر 0.05 و روش جایگزینی با میانگین برابر 0.06 بوده است. نتیجهگیری: روش ارائه شده در این مقاله، میتواند به شناسایی دادههای نویزی، دادههای پرت و دادههای گم شده و هموارسازی آنها با هدف بهبود عملکرد استفاده و پردازش اطلاعات و در نتیجه بهبود تعامل انسان و اطلاعات کمک نماید. |
|
کلیدواژههای فارسی مقاله |
دادههای نویزی، دادههای پرت، دادههای گم شده، هموارسازی، روش پیالهای، مدل رگرسیون |
|
عنوان انگلیسی |
A method to solve the problem of missing data, outlier data and noisy data in order to improve the performance of human and information interaction |
|
چکیده انگلیسی مقاله |
Abstract Purpose: Errors in data collection and failure to pay attention to data that are noisy in the collection process for any reason cause problems in data-based analysis and, as a result, wrong decision-making. Therefore, solving the problem of missing or noisy data before processing and analysis is of vital importance in analytical systems. The purpose of this paper is to provide a method to identify noisy data, outliers and missing data and provide a suitable solution for these data. Methodology: This study is an applied research. Data mining techniques including binning smoothing and regression model have been used to identify and replace outlier and noisy data. Findings: The results of the tests performed in the real environment related to the data of social networks show the proper performance of the proposed method. It has also been shown that the proposed method has higher accuracy compared to the methods of binning smoothing, average and linear regression. So that for the data related to the tweet section, the mean squared error obtained for the proposed method was equal to 0.04, the binning smoothing method was equal to 0.38, the linear regression method was equal to 0.05 and the average method was equal to 0.06. Conclusion: The method presented in this paper can help identify noisy data, outliers and missing data and smooth them with the aim of improving the performance of using and processing information and thus improving human and information interaction. |
|
کلیدواژههای انگلیسی مقاله |
Noisy Data, Outliers, Missing Data, Smoothing, Binning Method, Regression Model |
|
نویسندگان مقاله |
مجتبی مازوچی | Mojtaba Mazoochi ICT Research Institute, Tehran, Iran. پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران.
لیلا ربیعی | Leila Rabiei ICT Research Institute, Tehran, Iran. پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران.
محمد مرادی | Mohammad Moradi ICT Research Institute, Tehran, Iran. پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران.
|
|
نشانی اینترنتی |
http://hii.khu.ac.ir/browse.php?a_code=A-10-876-2&slc_lang=fa&sid=1 |
فایل مقاله |
فایلی برای مقاله ذخیره نشده است |
کد مقاله (doi) |
|
زبان مقاله منتشر شده |
fa |
موضوعات مقاله منتشر شده |
تخصصی |
نوع مقاله منتشر شده |
پژوهشی |
|
|
برگشت به:
صفحه اول پایگاه |
نسخه مرتبط |
نشریه مرتبط |
فهرست نشریات
|