期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
人工参与的迭代式数据清洗方法研究
被引量:
3
1
作者
刘一达
丁小欧
+1 位作者
王宏志
杨东华
《大数据》
2023年第4期59-68,共10页
数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数...
数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。
展开更多
关键词
数据清洗
人工参与
迭代式
小批量梯度下降
在线阅读
下载PDF
职称材料
题名
人工参与的迭代式数据清洗方法研究
被引量:
3
1
作者
刘一达
丁小欧
王宏志
杨东华
机构
哈尔滨工业大学计算机科学与技术学院
出处
《大数据》
2023年第4期59-68,共10页
基金
国家重点研发计划资助项目(No.2021YFB3300502)
国家自然科学基金资助项目(No.62202126,No.62232005)
+1 种基金
中国博士后科学基金项目(No.2022M720957)
黑龙江省博士后面上资助项目(No.LBH-Z21137)。
文摘
数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。
关键词
数据清洗
人工参与
迭代式
小批量梯度下降
Keywords
data cleaning
human_in_loop
iteration
mini-batch gradient descent
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
人工参与的迭代式数据清洗方法研究
刘一达
丁小欧
王宏志
杨东华
《大数据》
2023
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部