用Python数据分析全球夜店数据分析全球夜生活有趣的数据分析小项目:爬了一整年

量子位看科技 2025-11-07 20:07:52

用Python数据分析全球夜店数据分析全球夜生活

有趣的数据分析小项目:爬了一整年的夜店阵容数据,意外拼出了全球夜生活的“音乐口味图”。(来源:开发者Karl Tryggvason)

开发者Karl Tryggvason用Python+Pandas+NetworkX+D3搭建了一个完整链路的小项目,从爬虫、数据清洗到交互可视化,总共分析了:

- 131家夜店

- 8,500多场演出

- 近9,400位DJ

- 超30,000次演出记录

核心思路是,不同夜店请不同DJ,那重合度越高,品味越接近。用Jaccard相似度计算任意两家夜店阵容交集,再基于这个数据做成图谱网络。

用社区发现算法聚类后,他发现,这些夜店确实会围成一个个“口味圈”,而且跟你的直觉不太一样。

比如他原本以为欧洲夜店重合度很高,结果实际数据里,8500对夜店组合只有37%存在重合,平均重合度只有1%。看起来DJ轮换比你想得还猛。

还有一个超细节的指标叫“常驻因子”:一个DJ出现在同一家夜店的频率。但是分析发现,即使是粉丝量最大的一些夜店,也极少有真正的长期resident,基本都在更迭。

他还做了非常漂亮的可视化体验:

- 夜店以圆圈形式展现,大小根据粉丝数设定,颜色代表所属圈层;

- 两个夜店点击即可对比详尽数据,包括活动次数、艺人数量、交集比率;

- 页面还有滚动讲故事的设计 + 动态过渡的图表切换,看得过程非常丝滑。

技术栈如下:

- 爬虫用BeautifulSoup

- 预处理用Pandas

- 图谱分析用NetworkX

- 社区检测用Louvain

- 前端用原生D3+React组合(作者还自己写了ref连接D3和组件)

如果你正想做个不只是“练手”的数据项目,这种现成平台、开放文化语料和强交互空间的方向,非常值得借鉴。

项目Demo:lazilyevaluated.co/clubster-analysis/

文章细节:dev.karltryggvason.com/how-i-analyzed-the-lineups-at-the-worlds-most-popular-nightclubs/

GitHub:github.com/Kalli/clubster-analysis

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注