离谱!安娜的档案抓取了 8600 万个音乐文件,300TB 的 Spotify 数据!

原始链接在: 离谱!安娜的档案抓取了 8600 万个音乐文件,300TB 的 Spotify 数据! - 小众软件

安娜的档案昨天发布了一篇博客《Backing up Spotify》,很离谱:备份了音乐流媒体平台 Spotify 约 300TB 的数据,包括 8000 万个音乐文件(占 Spotify 播放总量的 99.6%)。@Appinn

其他的内容还包括 2.56 亿首曲目和 1.86 亿个独特的 ISRC(国际标准录音制品编码)。

安娜的档案都保存了 Spotify 得什么数据?

具体来说:

  1. Spotify 的 2.56 亿首歌曲的元数据(占全部的99.9%)
  2. 约 8600 万首音乐文件,约 300TB(占全部的99.6%)
  3. 音质保持为原始的 OGG Vorbis 格式,码率为 160kbit/s
  4. 无播放的音乐被重新编码为 75kbps 的 OGG Opus 格式
  5. 截止日期为 2025 年 7 月

并且还放出了一个最流行的1万首音乐列表,已证实真实性 😂

这是迄今为止公开可用的最大的音乐元数据数据库

这是世界上第一个完全开放的“音乐保存档案馆”

安娜还说…

作为对比,我们拥有 2.56 亿首曲目,而其他数据库只有 5000 万到 1.5 亿首。我们的数据注释完善: MusicBrainz 拥有 500 万个独特的 ISRC 代码,而我们的数据库则拥有 1.86 亿个。

就…很离谱

分阶段发布

由于尺寸过于庞大(300TB),安娜的档案采用分阶段发布,目前仅发布了元数据:

  • [X] 元数据(2025 年 12 月)
  • [ ] 音乐文件(按受欢迎程度排序)
  • [ ] 附加文件元数据(种子路径和校验和)
  • [ ] 专辑封面
  • [ ] .zstdpatch 文件(用于重建添加嵌入式元数据之前的原始文件)

“目前这是一个仅提供种子下载的存档,旨在保存资源。”

一些统计数据

根据这些文件,还有一些有趣的统计数据:

歌曲受欢迎程度:

≥70% 的歌曲几乎无人问津(播放量 < 1000)

歌曲的受欢迎程度以 0 到 100 之间的数值表示,100 代表最受欢迎排名前 10,000 的歌曲涵盖了流行度 70-100。

最流行的三首歌

Artists  艺术家 Name  姓名 Popularity  人气 Stream Count  流媒体播放量
Lady Gaga, Bruno Mars
Lady Gaga、Bruno Mars
Die With A Smile
带着微笑死去
100 3.075 Billion  30.75亿
Billie Eilish  比莉·艾利什 BIRDS OF A FEATHER
物以类聚
98 3.137 Billion  31.37亿
Bad Bunny  坏兔子 DtMF 98 1.124 Billion  11.24亿

还有一些数据,大家自己看吧 😂

话说回来,300TB 青小蛙表示把家里的手机空间加起来,也下不回来,看看就好了。


原文:https://www.appinn.com/annas-archive-backing-up-spotify/

2 个赞

我勒个豆:hushed_face:300TB!

可以选择按照受欢迎程度相关的比例进行抽样保存。

比如最受欢迎的随机抽样1%,随着受欢迎程度逐渐降低抽样比例至0.01%

这样自己去听的话,既比较随机,又不会太难听。

3 个赞

他们不怕被线下真实吗?真是有够离谱的

嘶……300T……过于夸张了

怕是有官方协助或就是官方搞的吧?否则早就封杀和吃律师函了……

话说关于霓虹ACGN类的音乐占比多少?怕不是都是欧美向的?

不太可能 这种没有收益的行为 虽然不判刑 但是也算违法的

这码率不够看啊……160kbit/s

是刻意为之

However, these existing efforts have some major issues:
然而,这些现有努力存在一些重大问题:

  • (……)
  • Over-focus on the highest possible quality. Since these are created by audiophiles with high end equipment and fans of a particular artist, they chase the highest possible file quality (e.g. lossless FLAC). This inflates the file size and makes it hard to keep a full archive of all music that humanity has ever produced.
    过分追求最高品质。由于这些音乐是由拥有高端设备的发烧友和特定艺术家的粉丝制作的,他们追求尽可能高的文件质量(例如无损 FLAC)。这导致文件体积庞大,难以保存人类历史上所有音乐作品的完整档案。
1 个赞

这个新闻有点意思,感觉和:swan:电影院上映 zootropolis 等好莱坞大片呼应上了。

存音乐占用空间小,上面说的备份的音乐160k也就5mb左右一首
(320k就10mb一首,flac30mb一首)
电影不考虑清晰度,bd一首大概也要1gb-5gb,相当一首音乐的200-400倍的存储空间(而原盘一部50gb起步,至少是一首音乐的10000-40000倍的存储空间)
电视剧更不用说,平均也有个12-15集一部,一部电视剧的存储空间至少是一部电影的10倍吧
如果是全部电视剧和电影备份下来,这个存储量就很夸张了,感觉需要要eb级别(gb->tb->pb->eb)
安娜如果还搞电视剧和电影备份就真的夸张,服务器开销不是一个级别

究极仓鼠

文件信息


包含歌曲文件名元数据的文件为spotify_clean_track_files.sqlite3.zst,解压缩后的spotify_clean_track_files.sqlite3体积为98.5 GB;

  • 里面歌曲文件名元数据总数为255966403条;
spotify_artist_redirects.json
spotify_audiobooks.jsonl.zst
spotify_clean_audlio_features.sqlite3.zst
spotify_show_episodes.jsonl.zst
spotify_audiobook_chapters.jsonl.zst
spotify_clean_track_files.sqlite3.zst
spotify_shows.jsonl.zst
spotify_clean_playlists.sqlite3.zst
spotify_clean.sqlite3.zst

中文歌曲流行分数分布


  1. 中文(简体中文+繁体中文)歌曲总数为1073242首;
  2. 最高流行分数为50(只有总分100的一半),数量2004首;
  3. 有422644首歌曲几乎没人听过(流媒体计数<1000);

中文歌曲年份分布


  • 2000年有个小高峰。

华语35人排行


  • 第一名创作实力很强。

歌名词云


华语歌曲名的频度词云:

歌曲文件名元数据记录格式


{
  "rowid": 1892,
  "track_id": "003vvx7Niy0yvhvHt4a68B",
  "filename": "track-popularity-50-to-100/T/TH/The Killers/2004 Hot Fuss (4piJq7R3gjUOxnYs6lDCTg)/02 The Killers - Mr. Brightside.ogg",
  "reencoded_kbit_vbr": null,
  "fetched_at": 1741824000000,
  "session_country": "UNK",
  "sha256_original": "f4b083875794e0583cc686ab478b37f17eb5c392481b933d02a75763f9cc3dc3",
  "sha256_with_embedded_meta": "f0ea763215eb83875dc84d00b7ea4357b561c0117af656987bc69e2a8c475530",
  "status": "success",
  "isrc_has_download": null,
  "track_popularity": 88,
  "secondary_priority": null,
  "prefixed_ogg_packet": "OggS",
  "alternatives": null,
  "file_id_ogg_vorbis_96": "e02d12f5e3540f96dc39e4de8baadeab0ab1dde7",
  "file_id_ogg_vorbis_160": "d2ea54df9f2a62d53f2269ba0fee54875070ecbc",
  "file_id_ogg_vorbis_320": "9ecc88fdbe8ae750528aaebcbf7ec9c219145402",
  "file_id_aac_24": "3b6a4b4cf9f91dd5e21621ab185133b429d7b139",
  "language_of_performance": ["en"],
  "artist_roles": null,
  "has_lyrics": null,
  "licensor": null,
  "original_title": null,
  "version_title": null,
  "file_id_mp3_96": null,
  "content_ratings": null,
  "filesize_bytes": 4258118
}
3 个赞

这下115的永V们有福了,终于有用武之地了,国庆上的车,都跃跃欲试

40T?

词云里有个“默涵”词频很高,搜出了个DJ默涵,不知什么来头 :face_with_raised_eyebrow: