机器学习1
挑战
一:制定问题
二:高质量数据,隐私问题
三:模型训练越来越复杂,越贵,数据需要越多
四:模型部署;需要硬件等条件,模型本身运行的速度等
五:监控模型;数据分布的变化,公平性问题因为算法本身没有偏向性,但数据会
角色
领域专家:对商业了解,知道数据重要性和去哪里找到数据
数据科学家:数据挖掘、模型训练和部署
机器学习专家:对模型根据产品需要进行定制化
开发工程师:模型的开发、训练、维护等的工业化实施
文章图片
anaconda调查的数据科学家工作时间分布
文章图片
数据集
- Paperwithcodes Datasets
- Kaggle Datasets
- Google Dataset search
- 开源工具包带的数据集:tensorflow,huggingface(文本数据集)
- 各类会议、公司组织的竞赛里的数据集
- 气象、整个web网页等P级别数据
- 自己所在组织数据湖中的数据
表关联,找到key。顺便处理数据重复、缺失、计量单位不一致等各种数据情况。
生成数据
- GAN,图片生成
- 数据增强 data augmentations
【机器学习1】数据网页抓取Web scraping
from selenium import webdriverchrome_options=webdriver.ChromeOptions()
chrome_options.headless=True
chrome=webdriver.Chrome(
chrome_options=chrome_options
)
page=chrome.get(url)
IP的话,通过亚马逊、微软等公有云。
用爬虫爬数据时,
chrome--Inspect 找到网页元素所在位置
sold_items=[a.text for a in page.find(
'div','ds-home-details-chip').find('p').find_all('span')]
for item in sold_items:
if 'Sold:' in item:
result['Sold Price']=item.split('.')[1]
if 'Sold on' in item:
result['Sold On']=item.split(' ')[-1]
推荐阅读
- 由浅入深理解AOP
- 继续努力,自主学习家庭Day135(20181015)
- python学习之|python学习之 实现QQ自动发送消息
- 一起来学习C语言的字符串转换函数
- 定制一套英文学习方案
- 漫画初学者如何学习漫画背景的透视画法(这篇教程请收藏好了!)
- 《深度倾听》第5天──「RIA学习力」便签输出第16期
- 如何更好的去学习
- 【韩语学习】(韩语随堂笔记整理)
- 焦点学习田源分享第267天《来访》