作者:hacker发布时间:2023-02-21分类:网站入侵浏览:103评论:4
提高泰坦尼克号kaggle分数
如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了,或者考虑有值的是一类,没有值的是一类,
如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。
kaggle的评价体系 kaggle的用户评价体系是基于三个维度的:
竞赛、代码以及社区参与。根据这三个维度把kaggle的用户分成了5个等级:
Novice :初始等级,只要注册就算。
Contributor :添加资料信息,并且进行了各种指定的动作即可。如上两个等级没有考虑到用户的比赛成绩和社区声望。
Expert :获得两枚竞赛铜牌;5枚代码铜牌;以及50枚讨论铜牌
Master :获得一枚竞赛金牌,两枚竞赛银牌;10枚代码银牌;50枚讨论银牌以及总共200枚讨论奖牌
Grandmaster :获得5枚竞赛金牌,solo竞赛金牌;15枚代码金牌;50枚讨论金牌以及总共500枚讨论奖牌。
方法一:选择图层,按Ctrl+C复制,按Ctrl+V粘贴。如果想要重复多次复制,按Ctrl+D再制。
方法二:鼠标左键拖离开图层,然后点击右键完成复制。在拖离过程中按住Ctrl键不放,这样复制的图层会保持与原图层在同一水平上。如果想要重复多次复制,按Ctrl+D再制。
方法三:选择图层,按快捷键"+",即可完成复制。如果想要重复多次复制,就多次按"+"
即可。注意复制的图层跟原图层是重叠在一起的,复制完要把图层拖出来。
在学习过深度学习的基础知识之后,参与实践是继续提高自己的最好途径。
在每个竞赛的「Overview」选项卡上,可以看到关于比赛及其数据集的一些信息、提交有效结果的评估标准(每个竞赛都略有不同),以及该竞赛的 FAQ。在「Data」(数据)选项卡上,你可以看到数据的简要说明。
需要的是这三个文件:train.csv、test.csv 和 data_description.txt,请将它们放在你可以快速访问的文件夹里。「Discussions」(讨论)选项卡就像竞赛的专属论坛,在流行的竞赛中,这些讨论中经常包含非常有价值的信息,因为竞赛条款有时会要求参与者必须在讨论版上公开他们所使用的任何信息。
数据泄露是很难避免和处理的,偶尔也会发生在竞赛中。一方面,充分利用数据才能得到更高的分数赢得竞赛;但另一方面,结合了数据泄露的模型通常对于实践来说是无用的,所以也不被竞赛支持。勤奋的参与者经常会在讨论版上分享数据泄露以帮助竞赛环境变得更好。
相关信息
Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注,这些用户资源或许正是吸引谷歌的主要因素。
Kaggle公司是由联合创始人兼首席执行官AnthonyGoldbloom2010年在墨尔本创立的,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。这一平台已经吸引了许多科学家和开发者的关注,他们也纷纷入驻这一平台。
可以以个人或者组队的形式参加比赛。组队人数一般没有限制,但需要在 Merger Deadline 前完成组队。为了能参与到比赛中,需要在 Entry Deadline 前进行至少一次有效提交。最简单地,可以直接提交官方提供的 Sample Submission。关于组队,建议先单独个人进行数据探索和模型构建,以个人身份进行比赛,在比赛后期(譬如离比赛结束还有 2~3 周)再进行组队,以充分发挥组队的效果(类似于模型集成,模型差异性越大,越有可能有助于效果的提升,超越单模型的效果)。当然也可以一开始就组好队,方便分工协作,讨论问题和碰撞火花。
Kaggle 对比赛的公正性相当重视。在比赛中,每个人只允许使用一个账号进行提交。在比赛结束后 1~2 周内,Kaggle 会对使用多账号提交的 Cheater 进行剔除(一般会对 Top 100 的队伍进行 Cheater Detection)。在被剔除者的 Kaggle 个人页面上,该比赛的成绩也会被删除,相当于该选手从没参加过这个比赛。此外,队伍之间也不能私自分享代码或者数据,除非在论坛上面公开发布。
标签:如何在kaggle找人
已有4位网友发表了看法:
访客 评论于 2023-02-22 06:12:43 回复
rger Deadline 前完成组队。为了能参与到比赛中,需要在 Entry Deadline 前进行至少一次有效提交。最简单地,可以直接提交官方提供的 Sample Submission。关于组队,建议先单独个人进行数据探索和模型构建,以个人身份进行比赛,在
访客 评论于 2023-02-22 05:55:55 回复
竞赛金牌,两枚竞赛银牌;10枚代码银牌;50枚讨论银牌以及总共200枚讨论奖牌Grandmaster :获得5枚竞赛金牌,solo竞赛金牌;15枚代码金牌;50枚讨论金牌
访客 评论于 2023-02-22 05:17:47 回复
以个人身份进行比赛,在比赛后期(譬如离比赛结束还有 2~3 周)再进行组队,以充分发挥组队的效果(类似于模型集成,模型差异性越大,越有可能有助于效果的提升,超越单模型的效果)。当然也可以一
访客 评论于 2023-02-22 03:40:03 回复
拖离开图层,然后点击右键完成复制。在拖离过程中按住Ctrl键不放,这样复制的图层会保持与原图层在同一水平上。如果想要重复多次复制,按Ctrl+D再制。方法三:选择图层,按快捷键"+",即可完成复制。如果想要重复多次复制,就多次按"+"即可。注意复制的图层跟原图层是重叠在一起