kaggle比赛拿奖容易吗 kaggle是什么

机器心脏报告
编辑:张骞,周晓
想通过Kaggle磨练自己的数据科学技能?我们先来听听Kaggle Grandmaster分享了哪些成功经验 。
对于机器学习和数据科学领域的初学者来说,Kaggle是一个可以让人学以致用,快速成长的平台 。在上一篇文章中,我们已经介绍了很多优秀的Kaggle特级大师,他们都有自己独特的成长路径和解决问题的思路 。
在这篇文章中,我们还介绍了两位杰出的大师——克里斯托弗·汉高和菲利普·辛格,他们在Kaggle排名中分列第三和第四位 。
文章中,他们介绍了自己在Kaggle比赛中的成功经验,以及Kaggle给他们带来的帮助 。
克里斯腾克尔:不爱看书的三级宗师 。
Christhenkel(代号Dieter)是英伟达的数据科学家 。他拥有慕尼黑大学数学博士学位,在Kaggle榜单中排名第四 。虽然在Kaggle社区的时间不长,但是汉高已经有了三位大师(竞赛大师、笔记本大师、讨论大师) 。
谈及参加Kaggle竞赛的原因,汉高表示自己一直对AI领域很感兴趣,在博士最后一年自学了Python和一些深度学习教程 。虽然比赛开始时成绩不尽如人意,但汉高意识到“Kaggle可能是掌握机器学习领域知识的最有效方式 。」
在自学过程中,汉高观看了许多高质量的Youtube视频和吴恩达和杰里米·霍华德的热门课程 。有趣的是,汉高对深度学习领域的书籍并不感兴趣,因为他认为这些书很快就会过时 。他说,“参加一个简单的Kaggle比赛比读书能学到更多东西 。为了获得新的灵感,汉高现阶段主要是看论文 。
解决Kaggle问题的一般步骤
当被问及解决Kaggle问题的一般步骤时,汉高总结了以下几点:
首先,你需要做非常简单的数据探索,对数据和手头的问题有一个大概的了解,思考一个好的交叉验证应该是什么样子的 。
接下来你要建立一个简单的初步模型,检查本地验证和比赛排名的相关性是否良好;
如果上述相关性不能满足要求,就需要迭代了解可能存在的差异并加以解释;
剩下的比赛时间用来浏览论文、Kaggle论坛、内核等 。以获得新的灵感;
在比赛的最后一周,检查模型集成和模型鲁棒性 。
为了更具体地解释他提到的解题步骤,汉高举了一个孟加拉语手写字母分类比赛的例子 。这项比赛要求参赛者将给出的手写字母分为三类:词根、元音和辅音 。
“(拿到数据后,)我先把给定的图片调整到64*64,以便在比赛前半段快速迭代思路 。接下来,我创建了一个resnet18基线,并复制了竞赛度量来检查我的本地验证分数是否与排行榜分数相当,结果相差不大 。然后,我使用了不同的增强方法和模型架构,最终选择了一个效果更好的 。虽然我在接下来的步骤中使用了更大的图像(128*128),但我的分数变化不大 。所以我看了很多关于孟加拉语手写系统的书,发现这种语言有很多特殊而微妙的特点 。这使我能够改进我的解决方案,并最终独自获得了第一名 。汉高回忆道 。
参见:http://cj.9446.cn/wp-content/wp-uploads/2022/10/2227pp硬件方面,汉高有两个深度学习单元 。一个是3x英伟达RTX 2080Ti,一个是4x V100,是英伟达给的 。不过汉高表示,这个配置对于Kaggle竞争来说太豪华了 。“之前,当我只有两辆GTX 1080Ti时,我也取得了不错的成绩 。」
汉高补充道,“我喜欢将所有代码和数据留在我的工作站中进行处理 。但是最近我也开始用云来解决一些短期的需求 。」
此外,对于一些计算密集型的比赛,汉高喜欢使用脚本,因为脚本可以自动执行超级参数调整和模型部署等步骤 。
菲利普·辛格:成功来自积累 。
Philipp Singer是H2O.ai的高级数据科学家,他获得了软件开发和商业管理硕士学位,格拉茨技术大学计算机科学荣誉博士学位,还获得了包括万维网大会最佳论文奖在内的多个奖项 。
在Kaggle field,Philipp,更好的称呼是Psi,在Kaggle榜单中排名第三,获得过两次特级大师的称号(竞赛特级大师和讨论特级大师) 。
菲利普最重要的成就之一就是他与H2O.ai的数据科学家Dmitry Gordeev一起获得了第二届NFL大数据碗,来自世界各地的2000多名数据科学家在Kaggle展开角逐,菲利普辛格和Dmitry Gordeev的方案最终获得了5万美元的最高奖金 。
2019-20大数据碗,菲利普·辛格和德米特里·戈尔杰耶夫(后)发表获奖感言 。
菲利普·辛格(Philipp Singer)在采访中讲述了自己在Kaggle比赛中的成功经历 。
问:你在Kaggle的尝试是如何开始的,是什么支撑你一步步走向特级大师?
Philipp:大约八年前,我加入了Kaggle,因为我听说过这个平台,并想了解更多 。但是注册之后,我已经六年没碰过了 。大约两年前,我和德米特里决定尝试一起参加Kaggle上的比赛,作为业余项目 。起初,我们并没有抱什么期望,但最终,我们赢得了比赛,这让我着迷,于是我开始了自己的Kaggle之旅 。
在Kaggle上,我通过解决新类型的问题来保持动力,每隔一段时间就会有令人兴奋的新问题需要解决 。也喜欢和Kaggle上的人才交流,了解社区所做的努力 。
问:最近你以惊人的成绩刷新了Kaggle榜单,获得了NFL第一名和Future-Impact Detection第二名 。你是如何在这些比赛中频频获奖的?
菲利普:人们经常问我如何赢得Kaggle比赛,但我不认为有什么普遍的秘密 。Kaggle的很多成功都是建立在经验基础上的,需要去了解和学习那些一看就不知道的东西 。在比赛过程中,我积累了一个通用工具箱,里面有我用来完成每次比赛的积木,比如如何设置合适的交叉验证,模型需要哪些库,如何合适的拟合模型,如何跟踪模型的表现等等 。因此,我可以花更多的时间关注新的领域和最近比赛的关键方面 。我总是在每次比赛后努力改进我的工作流程,以提高我的效率和竞争力 。
菲利普在卡格尔上的成就 。
问:你通常如何处理Kaggle问题?要不要分享一些喜欢的ML资源(课程,博客等) 。)与社区?
菲利普:我尝试用我积累的方法、工具和经验来研究手头的具体问题 。这意味着我将在Kaggle上研究之前类似问题的解决方案,并阅读相关论文 。学习问题最好的方法是练习,逐步学习 。
问:你在Kaggle学到了哪些可以应用到H2O.ai工作中的东西?
Philipp:我在Kaggle学到的最重要的一件事是如何建立一个健壮的模型,这样它就可以很好地泛化,而不会遭受强烈的过拟合 。这对Kaggle至关重要,因为该模型需要推广到从未见过的数据 。这意味着你会学到很多关于健壮交叉验证的知识,并且关心数据信息,比如特征分布转移 。我可以在H2O.ai的工作中充分利用这些知识,这也是我们产品不可或缺的一部分 。
问:数据科学领域发展迅速 。你是如何跟上所有最新发展的?
Philipp:我主要用Kaggle了解最新动态;新技术能否解决实际问题,这是一个极好的过滤器 。通常情况下,健壮的方法能够脱颖而出,而只是偶尔起作用的技术会被筛选掉 。同时,我试图通过Twitter等平台上的知名研究人员和从业者了解该领域的最新进展 。
菲利普在2020年1月9日维也纳的数据科学活动上 。
问:对于刚刚开始数据科学之旅,有点野心挑战Kaggle竞赛的人,你有什么建议?
菲利普:不断尝试,不要害怕失败,永远渴望学习新事物 。
参考链接:https://analyticsindiamag . com/ka ggle-interview-grand-master-christof-henkel/
【kaggle比赛拿奖容易吗 kaggle是什么】https://towards data science . com/meet-the-data-scientist-who-just-not-stop-winning-on-ka ggle-DFC 0 e 6 Fe 88 f 8

    推荐阅读