机器学习1 机器学习数据

挑战
一：制定问题
二：高质量数据，隐私问题
三：模型训练越来越复杂，越贵，数据需要越多
四：模型部署；需要硬件等条件，模型本身运行的速度等
五：监控模型；数据分布的变化，公平性问题因为算法本身没有偏向性，但数据会
角色
领域专家：对商业了解，知道数据重要性和去哪里找到数据
数据科学家：数据挖掘、模型训练和部署
机器学习专家：对模型根据产品需要进行定制化
开发工程师：模型的开发、训练、维护等的工业化实施

文章图片

anaconda调查的数据科学家工作时间分布

文章图片

数据集

Paperwithcodes Datasets
Kaggle Datasets
Google Dataset search
开源工具包带的数据集：tensorflow,huggingface(文本数据集)
各类会议、公司组织的竞赛里的数据集
气象、整个web网页等P级别数据
自己所在组织数据湖中的数据

数据融合
表关联，找到key。顺便处理数据重复、缺失、计量单位不一致等各种数据情况。
生成数据

GAN,图片生成
数据增强 data augmentations

找到合适的数据是个挑战
【机器学习1】数据网页抓取Web scraping

from selenium import webdriverchrome_options=webdriver.ChromeOptions() chrome_options.headless=True chrome=webdriver.Chrome( chrome_options=chrome_options ) page=chrome.get(url)

IP的话，通过亚马逊、微软等公有云。
用爬虫爬数据时，
chrome--Inspect 找到网页元素所在位置

sold_items=[a.text for a in page.find( 'div','ds-home-details-chip').find('p').find_all('span')] for item in sold_items: if 'Sold:' in item: result['Sold Price']=item.split('.')[1] if 'Sold on' in item: result['Sold On']=item.split(' ')[-1]