pandas-Titanic 泰坦尼克数据集 作者:马育民 • 2023-04-15 11:25 • 阅读:10101 # 下载 kaggle 官网下载地址: https://www.kaggle.com/c/titanic/data gitee下载: https://gitee.com/65242847/pic/blob/master/csv/titanic_train.csv # 字段说明 ### PassengerId 用户编号 记录乘客的Id编号。经过了解后: 并没有查到其构成具有特别的实际意义(如身份证的构成每一位都是有实际意义的); 仅作为唯一标识来定位到某一乘客身上(唯一值同总数据量一样); 因此认为不具有分析的价值,过后也会将它进行删除处理。 ### Survived 是否存活(label) 描述乘客是否存活 - 0 - 用户未能存活; - 1- 用户存活; ### Pclass(用户阶级) 描述用户所属的等级,总共分为三等,用1、2、3来描述,其中: - 1 - 1st class,高等用户; - 2 - 2nd class,中等用户; - 3 - 3rd class,低等用户; ### Name(名字) 描述乘客的全名。例如上例中的 Rugg, Miss. Emily 中: - Rugg :first name,即名; - Miss. :title,即称谓; - Emily :last name,即姓 **提示:**在登记乘客姓名时全都是用这种方法进行记录的; ### Sex(性别) 描述乘客的性别,其中: - male - 男性; - female - 女性; ### Age(年龄) 描述乘客的年龄,其中有部分缺失值,需要用一些手段将她们补全,具体的方法方在下面数据清洗中; ### SibSp 和 Parch - SibSp:描述了泰坦尼克号上与乘客同行的兄弟姐妹(Siblings)和配偶(Spouse)数目; - Parch:描述了泰坦尼克号上与乘客同行的家长(Parents)和孩子(Children)数目; ### Ticket(船票号) 描述乘客登船所使用的船票编号。虽然它没有编码上的规律,不存在缺失值,但是唯一值可以看到,同之前唯一定位的乘客编号不同,也就是说可能会有人重复使用船票的情况,具体处理会在数据清洗中介绍,我会找到资料支撑和这一想法; ### Fare(乘客费用) 描述乘客上传所花费的费用; ### Cabin(船舱) 描述用户所住的船舱编号。由两部分组成,仓位号和房间编号,如C88中,C和88分别对应C仓位和88号房间。本字段缺失值较多,具体处理方法会在后面的数据清洗部分进行介绍。 ### Embarked(港口) 描述乘客上船时的港口,包含三种类型: - C:Cherbourg; - Q:Queenstown; - S:Southampton; 参考: https://zhuanlan.zhihu.com/p/109323061 原文出处:http://www.malaoshi.top/show_1IX5Jzs0zcmi.html