人工智能另一面的应用?
发布时间:2018-11-06 作者:jason
数据管理:
对于机器学习任务,很大一部分数据来自网络,例如,您将需要来自亚马逊的数据来预测亚马逊产品的评级,来自众筹网站的数据以预测广告系列的成功,来自社交媒体网站的数据来研究用户行为,链接预测,分析恶意内容等
构建爬虫,抓取网站,获取IP阻止听起来很有趣,但需要花费大量时间来收集数据。正如之前Ajit Rajasekharan所述,数据收集和清理工作正在评估中。我完全同意这一点,数据收集,策划,清洁和标签需要付出很多努力并且是一项无用的任务。数据收集和清理可能非常复杂,在机器学习项目中,此任务可能需要大约50%-70%的时间。
获取数据 - 特别是我们需要的特定任务的标记数据。
o如果我们没有标记数据找到生成它的方法或手动标记数据
清洁数据
扩展 - 使模型以我们培训和测试所需的规模工作。有时我们意识到我们可能不得不放弃一个模型而只是因为性能问题而去另一个模型 - 即使它的准确性比我们为
我们沿途所做的其他任务也可能不那么迷人 - 超参数调整等。
一旦我们解决了所有这些问题,无论结果如何被认为是迷人的,我们都会获得满足感