【大数据】—FIFA世界杯探索性分析(EDA)

分类: 日博365bet手机版 时间: 2025-07-03 15:18:11 作者: admin 阅读: 7109 点赞: 424
【大数据】—FIFA世界杯探索性分析(EDA)

引言

足球,作为全球最受欢迎的运动之一,拥有庞大的粉丝群体和深远的文化影响。自1930年首届FIFA世界杯举办以来,这项赛事已经成为全球体育盛事,吸引了数十亿观众的目光。世界杯不仅是各国足球技艺的较量,更是国家荣誉和民族自豪感的体现。随着大数据时代的到来,我们有机会从新的视角审视这项赛事,利用数据分析揭示比赛背后的趋势和模式。

背景

在数据科学领域,探索性数据分析(Exploratory Data Analysis,简称EDA)是一种用于理解数据集特征的重要方法。分析师可以识别数据中的模式、关联和异常,为进一步的统计建模和决策提供依据。FIFA世界杯作为一项历史悠久的国际足球赛事,其数据集包含了丰富的信息,如球队表现、球员统计、比赛结果等,为进行EDA提供了理想的素材。

数据集信息

本次研究的数据来源于Kaggle(点击本文标题下方可免费下载),数据集共有3个表格。

开始探索……

读入数据:

# 导入pandas库,这是一个强大的数据处理和分析工具,提供了易于使用的数据结构和数据分析工具。

import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# 导入matplotlib.pyplot模块,这是Python的一个绘图库,提供了类似于MATLAB的绘图系统。

import matplotlib.pyplot as plt

# 导入seaborn库,这是基于matplotlib的一个高级绘图库,提供了更多的绘图功能和美化选项。

import seaborn as sns

# 启用Jupyter Notebook中的matplotlib内联显示模式,这样绘制的图形会直接嵌入到Notebook中。

%matplotlib inline

# 导入plotly库,这是一个基于Web的交互式图表库,允许创建丰富的、交互式的数据可视化图表。

import plotly as py

# 导入cufflinks库,这是一个用于Pandas DataFrame的Plotly绘图接口,可以让Pandas DataFrame直接通过cufflinks的API绘制Plotly图表。

import plotly.express as px

# 导入Python的os模块,它提供了许多与操作系统交互的功能,比如文件路径操作、环境变量访问等。

import os

# 使用os模块中的walk函数遍历'/kaggle/input'目录及其所有子目录。

# os.walk()生成一个三元组(dirpath, dirnames, filenames)。

# dirpath是一个字符串,表示当前正在遍历的这个目录的路径。

# dirnames是一个列表,内容是该目录下的所有子目录的名字(不包括路径,只是名字)。

# filenames是一个列表,内容是该目录下的所有非目录文件的名字(同样只是名字,不包括路径)。

# 注意:在您的代码中,dirnames参数被忽略(用_表示),因为这里只关心文件名和目录名。

for dirname, _, filenames in os.walk('/Users/c/Downloads/archive/'):

# 对于os.walk()遍历到的每一个目录(包括'/kaggle/input'本身及其所有子目录),

# 执行以下循环,遍历该目录下的所有文件(不包括子目录)。

for filename in filenames:

# 使用os.path.join()函数将目录名(dirname)和文件名(filename)组合成完整的文件路径。

# 然后,打印这个完整的文件路径。

print(os.path.join(dirname, filename))

获取3个数据集文件路径:

players = pd.read_csv("/Users/c/Downloads/archive/WorldCupPlayers.csv")

matches = pd.read_csv("/Users/c/Downloads/archive/WorldCupMatches.csv")

world_cup = pd.read_csv("/Users/c/Downloads/archive/WorldCups.csv")

display(players.head(1), matches.head(1), world_cup.head(1))

分别展示数据集第一行数据信息: 分展别示数据的整体信息: 查看数据缺失情况: matches数据集有3720个缺失值,我们将它删除并显示后5行: 这里要对数据进行一下说明,自 1930 年首届世界杯以来,每四年进行一次,但 1942 年和 1946 年世界杯因第二次世界大战而没有举行,所以数据有缺失值,本文旨在给大家展示方法,得出的结论只是针对现有的数据进行的分析,并不代表真实结果。

三个数据集都需要清洗和处理,细节很多,我就不一一介绍,只介绍主要的地方,感兴趣的可以看代码上方#后面的注释:

# 定义一个列表,包含了一些旧的(可能是错误的或需要更新的)名称

old_name = ['Germany FR', 'Maracan� - Est�dio Jornalista M�rio Filho', 'Estadio do Maracana']

# 注释:这里的列表包含了三个字符串,其中第二个和第三个字符串可能包含了编码问题(如特殊字符的显示错误),这可能是由于文件编码或数据传输时的问题导致的。

# 定义一个列表,包含了与old_name中每个元素相对应的新的(正确的)名称

new_name = ['Germany', 'Maracan Stadium', 'Maracan Stadium']

# 注释:这个列表与old_name列表一一对应,每个元素都是对应旧名称的更正或标准化版本。

# 将old_name列表中的所有元素添加到变量wrong中

wrong = wrong + old_name

# 注释:这行代码的目的是将old_name列表中的所有元素追加到wrong列表中,以收集所有需要被更正或更新的旧名称。

# 将new_name列表中的所有元素添加到变量correct中

correct = correct + new_name

wrong,correct

# 遍历wrong列表,对每个旧名称进行替换

for index, wr in enumerate(wrong):

# 使用replace方法将world_cup中的旧名称wr替换为correct列表中对应位置的正确名称

# 注意:这里假设world_cup是一个字符串或支持.replace()方法的数据类型

# enumerate(wrong)会生成一个包含索引和值的元组,index是索引,wr是当前迭代的旧名称

world_cup = world_cup.replace(wrong[index], correct[index])

# 注释:这行代码会更新world_cup变量的值,使其包含所有已替换的名称。

# 再次遍历wrong列表,这次是对matches变量进行替换

for index, wr in enumerate(wrong):

# 使用replace方法将matches中的旧名称wr替换为correct列表中对应位置的正确名称

# 注意:这里假设matches也是一个字符串或支持.replace()方法的数据类型

matches = matches.replace(wrong[index], correct[index])

# 注释:这行代码会更新matches变量的值,使其包含所有已替换的名称。

# 第三次遍历wrong列表,这次是对players变量进行替换

for index, wr in enumerate(wrong):

# 使用replace方法将players中的旧名称wr替换为correct列表中对应位置的正确名称

# 注意:这里假设players也是一个字符串或支持.replace()方法的数据类型

players = players.replace(wrong[index], correct[index])

# 注释:这行代码会更新players变量的值,使其包含所有已替换的名称。

names = matches[matches['Home Team Name'].str.contains('rn">')]['Home Team Name'].value_counts()

names

# 合并冠军、亚军、季军的得奖频数,缺失值填充0,转为整数。

teams = pd.concat([winner, runnerup, third], axis=1)

teams.fillna(0, inplace=True)

teams = teams.astype(int)

teams.columns = ['winner', 'runnerup', 'third']

teams

以上代码,分别计算每个国家得冠军、亚军、季军的次数,合并成一张表格,缺失的部分填充0,详见下表:

老爱看足球的朋友们应该认识上面的英文代表哪个国家,我能看懂1/3!

探索性分析(EDA):

import plotly.graph_objects as go

# 假设teams DataFrame已经正确构建,并且包含'winner'、'runnerup'、'third'三列

# 设置柱状图的x轴(即球队名称,这里假设每行代表一个球队)

x = teams.index # 如果teams的索引就是球队名称

# 设置柱状图的y轴数据,这里有三组数据,每组对应一个奖项

y_winner = teams['winner']

y_runnerup = teams['runnerup']

y_third = teams['third']

# 创建柱状图

fig = go.Figure(data=[

go.Bar(name='Winner', x=x, y=y_winner),

go.Bar(name='Runner-up', x=x, y=y_runnerup),

go.Bar(name='Third Place', x=x, y=y_third)

])

# 设置图表标题和x、y轴标签

fig.update_layout(

title='FIFA 世界杯胜率统计',

xaxis_title='国家队名称',

yaxis_title='获奖数量',

barmode='group' # 将柱状图设置为分组模式,以便在同一x轴位置上堆叠显示不同的奖项

)

# 显示图表

fig.show()

根据表格数据绘制柱状图,今天数据可视化都是可以交互的,巴西最多,拿了5个冠军,还分别拿了2个亚军和2个季军。

# 从matches DataFrame中选择主队相关信息并移除缺失值

home = matches[['Home Team Name', 'Home Team Goals']].dropna()

# 从matches DataFrame中选择客队相关信息并移除缺失值

away = matches[['Away Team Name', 'Away Team Goals']].dropna()

# 重命名列名

home.columns = ['Countries', 'Goals']

# 注意:这里直接使用home的列名来设置away的列名,而不是再次调用home.columns(虽然这样也可以,但直接赋值更清晰)

away.columns = ['Countries', 'Goals']

# 使用concat来合并home和away DataFrame,ignore_index=True用于重置索引

goals = pd.concat([home, away], ignore_index=True)

# 按国家进行分组计算进球总数,并降序排列。

goals = goals.groupby('Countries').sum().sort_values(by = 'Goals', ascending=False).reset_index()

goals

计算每个国家的进球总数,见下表: 提取进球最多的前20个国家数据可视化: 最多的哪个英文应该是德国战车吧,没具体查过全凭印象。

# 绘制 Attendance Per Year

fig1 = go.Figure(data=go.Bar(

x=world_cup['Year'],

y=world_cup['Attendance'],

text=world_cup['Attendance'], # 显示在条形图上的文本

textposition='auto' # 自动调整文本位置

))

fig1.update_layout(

title='每年观赛人数',

xaxis_title='年度',

yaxis_title='观赛人数',

barmode='group', # 对于这个单一条形图,barmode 设置为 'group' 是默认且不需要的,但保持一致性

xaxis=dict(

tickangle=80 # 旋转 x 轴标签

)

)

fig1.show()

# 绘制 Qualified Teams Per Year

fig2 = go.Figure(data=go.Bar(

x=world_cup['Year'],

y=world_cup['QualifiedTeams'],

text=world_cup['QualifiedTeams'],

textposition='auto'

))

fig2.update_layout(

title='每年获奖球队',

xaxis_title='年度',

yaxis_title='获奖球队',

xaxis=dict(

tickangle=80

)

)

fig2.show()

# 绘制 Goals Scored by Teams Per Year

fig3 = go.Figure(data=go.Bar(

x=world_cup['Year'],

y=world_cup['GoalsScored'],

text=world_cup['GoalsScored'],

textposition='auto'

))

fig3.update_layout(

title='每年球队进球数',

xaxis_title='年度',

yaxis_title='进球数',

xaxis=dict(

tickangle=80

)

)

fig3.show()

# 注意:最后一个图表的标题可能有误,应该是 'Matches Played Per Year'

# 绘制 Matches Played Per Year

fig4 = go.Figure(data=go.Bar(

x=world_cup['Year'],

y=world_cup['MatchesPlayed'],

text=world_cup['MatchesPlayed'],

textposition='auto'

))

fig4.update_layout(

title='每年比赛场次',

xaxis_title='年度',

yaxis_title='比赛场次',

xaxis=dict(

tickangle=80

)

)

fig4.show()

从上面几个图可以看到,1940至1950年有缺口,是因为二战有2届世界杯没有举行,数据缺失。

# 使用pandas的concat函数将两个DataFrame(home和away)沿着列(axis=1)方向合并。

goals = pd.concat([home, away], axis=1)

# 使用fillna函数将合并后的DataFrame中的NaN值替换为0。

# 这通常用于处理缺失数据,确保后续计算不会因为NaN值而出错。

goals.fillna(0, inplace=True)

# 创建一个新列'Goals',其值为'Home Team Goals'列和'Away Team Goals'列的和。

# 这将计算出每场比赛的总进球数。

goals['Goals'] = goals['Home Team Goals'] + goals['Away Team Goals']

# 使用drop函数删除'Home Team Goals'和'Away Team Goals'这两列。

# 这样做是为了减少DataFrame的冗余列,只保留我们需要的'Goals'列。

# axis=1表示操作是在列上进行的。

goals = goals.drop(labels = ['Home Team Goals', 'Away Team Goals'], axis = 1).reset_index()

goals.columns = ['Year', 'Country', 'Goals']

goals = goals.sort_values(by = ['Year', 'Goals'], ascending = [True, False])

goals

上面代码分别计算了每支球队主队和客队进球总数,并合并至一张表格,详见下表:

top5 = goals.groupby('Year').head()

top5.head(10)

按年份进行分组计算,每组只显示前5行数据,显示表格前10行数据,详见下图:

# 从goals DataFrame中提取年份和进球数的值,分别赋值给x和y变量。

x, y = goals['Year'].values, goals['Goals'].values

# 初始化一个空列表data,用于存储每个国家进球数的Bar对象。

data = []

# 遍历top5 DataFrame中不重复的国家名(或队伍名)。

for team in top5['Country'].drop_duplicates().values:

# 对于每个国家,从top5 DataFrame中筛选出该国家的数据,并分别获取年份和进球数。

year = top5[top5['Country'] == team]['Year']

goal = top5[top5['Country'] == team]['Goals']

# 使用Plotly的go.Bar对象创建一个新的条形图,其中x轴为年份,y轴为进球数,name为国家的名字。

# 注意:这里实际上并没有直接使用之前从goals DataFrame中提取的x和y值,而是为每个国家重新提取了数据。

data.append(go.Bar(x = year, y = goal, name = team))

# 设置图形的布局。barmode设置为'stack',表示条形图将堆叠显示。

# 标题设置为'Top 5 Teams with most Goals',并且不显示图例(因为每个国家的颜色已经足够区分)。

layout = go.Layout(barmode = 'stack', title = '进球最多的前5支球队—堆叠柱状图', showlegend = False)

# 使用Plotly的go.Figure对象创建一个图形,其中data为之前构建的包含所有国家条形图的列表,layout为设置的布局。

fig = go.Figure(data = data, layout = layout)

# 显示图形。这将打开一个浏览器窗口(或标签页)来展示堆叠条形图。

fig.show()

下图每个柱子的5种颜色分别代表进球最多的前5支球队,我鼠标指向的橙色位置显示的是法国队在1958年进了23个球。

matches['Year'] = matches['Year'].astype(int)

# 使用 'groupby' 方法对 'matches' DataFrame 进行分组,根据 'Stadium'(体育场)和 'City'(城市)列的值来分组。

# 然后,对于每个分组,计算 'Attendance'(观众人数)列的平均值。

# reset_index() 方法用于将分组后的结果转换回 DataFrame,其中原来的分组键('Stadium' 和 'City')成为新的列。

# 最后,使用 sort_values 方法按 'Attendance' 列的值降序排序结果,以便最高的平均观众人数排在最前面。

std = matches.groupby(['Stadium', 'City'])['Attendance'].mean().reset_index().sort_values(by='Attendance', ascending=False)

top10 = std[:10]

# 使用 Plotly 创建条形图

fig = go.Figure(data=[go.Bar(

y=top10['Stadium'],

x=top10['Attendance'],

orientation='h', # 水平条形图

text=top10['City'], # 显示在条形图上的文本(城市名)

textposition='outside', # 文本位置在条形图外部

marker_color='blue' # 条形图颜色

)])

# 设置图表布局

fig.update_layout(

title='平均上座率最高的体育场',

xaxis_title='平均上座人数',

yaxis_title='体育馆名称',

height=600,

width=800,

barmode='stack' # 如果你想要堆叠条形图(这里其实不需要,因为只有一个系列),否则可以去掉

)

# 自定义文本显示(这里我们已经在 go.Bar 中设置了 text 和 textposition)

# 如果你需要更复杂的文本格式化,可以在这里添加额外的 text 或 annotation

# 显示图表

fig.show()

下图展示了平均观看比赛的人数最多的球场:

# 计算 City 列中前 20 个最常见城市的出现次数

city_counts = matches['City'].value_counts()[:20]

city_counts_df = city_counts.reset_index()

city_counts_df.columns = ['City', 'Frequency'] # 重命名列以更清晰地表示它们的内容

# 自定义颜色列表

custom_colors = ['#FF6384', '#36A2EB', '#FFCE56', '#FF7F50', '#90EE90']

fig = px.bar(city_counts_df,

x='City',

y='Frequency',

title='比赛最多的城市 Top 20',

orientation='v',

color_discrete_sequence=custom_colors)

fig.update_layout(xaxis_title='城市名称', yaxis_title='赛事次数')

fig.update_layout(

xaxis_showgrid=True,

yaxis_showgrid=True,

xaxis_gridcolor='lightgrey', # 设置x轴网格线的颜色

xaxis_gridwidth=0.2, # 设置x轴网格线的宽度

xaxis_griddash='dash', # 设置x轴网格线的样式为虚线

yaxis_gridcolor='lightgrey',

yaxis_gridwidth=0.2,

yaxis_griddash='dash'

)

# 显示图表

fig.show()

下图提取了比赛最多城市 Top 20:

gold = world_cup["Winner"]

silver = world_cup["Runners-Up"]

bronze = world_cup["Third"]

# 计算奖牌数

gold_count = gold.value_counts().reset_index()

gold_count.columns = ['Country', 'WINNER']

silver_count = silver.value_counts().reset_index()

silver_count.columns = ['Country', 'SECOND']

bronze_count = bronze.value_counts().reset_index()

bronze_count.columns = ['Country', 'THIRD']

# 合并数据

podium_count = gold_count.merge(silver_count, on='Country', how='outer').merge(bronze_count, on='Country', how='outer').fillna(0)

# 确保所有国家都有数据(如果需要的话)

# 注意:这里可能不需要再次重新索引,因为合并操作已经处理了这个问题

# 但如果你想要确保包含特定的国家列表,你可以再次使用reindex

# 绘制堆叠柱状图

fig = go.Figure(data=[

go.Bar(name='Gold', x=podium_count['Country'], y=podium_count['WINNER'], marker_color='gold'),

go.Bar(name='Silver', x=podium_count['Country'], y=podium_count['SECOND'], marker_color='silver', base=podium_count['WINNER']),

go.Bar(name='Bronze', x=podium_count['Country'], y=podium_count['THIRD'], marker_color='brown', base=podium_count['WINNER'] + podium_count['SECOND'])

])

# 更新布局

fig.update_layout(barmode='stack',

xaxis_title='国家',

yaxis_title='奖牌数量',

title='各国奖牌数量—堆叠柱状图',

xaxis=dict(tickangle=45, tickfont=dict(size=14)),

yaxis=dict(titlefont=dict(size=14)),

legend=dict(font=dict(size=14)),

width=800,

height=600)

# 显示图表

fig.show()

下图3分颜色分别代表金牌、银牌、铜牌的数量:

# 提取主客场队伍和进球数,并删除缺失值

home = matches[['Home Team Name', 'Home Team Goals']].dropna()

away = matches[['Away Team Name', 'Away Team Goals']].dropna()

# 将主客场数据合并,并调整列名

home_goals = home.rename(columns={'Home Team Name': 'countries', 'Home Team Goals': 'goals'})

away_goals = away.rename(columns={'Away Team Name': 'countries', 'Away Team Goals': 'goals'})

goal_per_country = pd.concat([home_goals, away_goals], ignore_index=True)

# 确保 'goals' 列是整数类型

goal_per_country['goals'] = goal_per_country['goals'].astype('int64')

# 按国家分组并计算总进球数

goal_per_country_grouped = goal_per_country.groupby('countries')['goals'].sum().sort_values(ascending=False)

# 绘制条形图

fig = go.Figure(data=[go.Bar(

x=goal_per_country_grouped.index, # 国家名作为 x 轴

y=goal_per_country_grouped.values, # 进球数作为 y 轴

marker_color='blue' # 条形颜色

)])

# 设置图形布局

fig.update_layout(

title='国家历史进球总数—柱状图',

xaxis_title='国家名',

yaxis_title='历史进球总数',

xaxis=dict(tickangle=45, tickfont=dict(size=14)), # 旋转 x 轴标签并设置字体大小

yaxis=dict(titlefont=dict(size=14)), # 设置 y 轴标题字体大小

font=dict(size=14), # 设置全局字体大小

width=800,

height=600

)

# 只显示前10名

fig.update_xaxes(range=[goal_per_country_grouped.index[0], goal_per_country_grouped.index[9]])

# 显示图形

fig.show()

还是德国队排第一:

# 定义一个函数get_labels,它接受一个包含比赛数据的字典(或DataFrame的行)作为参数

def get_labels(matches):

# 如果主队的进球数大于客队的进球数,则返回'主场胜'

if matches['Home Team Goals'] > matches['Away Team Goals']:

return '主场胜'

# 如果主队的进球数小于客队的进球数,则返回'客场胜'

if matches['Home Team Goals'] < matches['Away Team Goals']:

return '客场胜'

# 如果主队和客队的进球数相等,则返回'平局'

return '平局'

# 使用apply函数和lambda表达式,将get_labels函数应用于matches DataFrame的每一行

# axis=1指定函数应用于DataFrame的横向(即每一行),因为get_labels函数是按行处理数据的

# 这会创建一个新的Series,其中包含了每场比赛的结果

matches['outcome'] = matches.apply(lambda x: get_labels(x), axis=1)

# 使用head(2)函数显示修改后的DataFrame的前两行

# 这有助于验证'outcome'列是否已正确添加到DataFrame中,并包含预期的比赛结果

matches.head(2)

封装一个函数,新增一列用于存放计算主场胜、客场胜、平局的次数:

# 转换为适合 plotly 的格式

labels = list(mt.index)

values = list(mt.values)

# 生成颜色列表,确保颜色数量与标签数量相匹配

# 如果调色板中的颜色不够,可以循环使用

n_colors = len(labels)

color_palette = sns.color_palette('winter_r', n_colors=n_colors) # 移除 as_cmap=True

marker_colors = color_palette # 直接使用生成的颜色列表

# 如果需要循环使用颜色(虽然在这个例子中可能不需要)

# marker_colors = color_palette * (n_colors // len(color_palette) + 1)[:n_colors]

# 创建饼图

fig = go.Figure(data=[go.Pie(labels=labels, values=values, hole=.3,

marker=dict(colors=marker_colors), # 使用 marker 字典来设置颜色

textinfo='label+percent',

insidetextorientation='radial'

)])

# 设置饼图的标题

fig.update_layout(title_text='主客场球队胜负占比图—饼图',

font_size=14, # 全局字体大小

title_font_size=16) # 标题字体大小

# 显示图形

fig.show()

小结

欧洲杯目前正如火如荼进行中,决定来一篇足球题材的博文,本文探索性分析了1930年至2014年的世界杯部分数据。

创作不易,关注、点赞、评论!

相关推荐

借钱平台哪个最靠谱?十大良心借钱app正规靠谱、大额低息
365bet体育在线娱乐场

借钱平台哪个最靠谱?十大良心借钱app正规靠谱、大额低息

📅 07-02 👁️ 5466
1994年國際足協世界盃
日博365bet手机版

1994年國際足協世界盃

📅 06-28 👁️ 468
燕云十六声箫吟千浪怎么获得 奇术箫吟千浪获取方法
365沙巴体育入口

燕云十六声箫吟千浪怎么获得 奇术箫吟千浪获取方法

📅 07-01 👁️ 2846