用于测试和原型设计的公共数据集
适用于:
Azure SQL 数据库
Azure SQL 托管实例
Azure VM 上的 SQL Server
浏览公共数据集的这个列表,其其中是否存在可用于设计存储和分析服务及解决方案的原型并进行测试的数据。
数据源 |
关于数据 |
关于文件 |
美国政府数据 |
超过 250,000 个数据集,涵盖了美国的农业、气候、消费者、生态系统、教育、能源、金融、保健、地方政府、制造业、海运、海洋、公共安全和科研方面的数据。 |
各种大小的文件,采用 HTML、XML、CSV、JSON、Excel 等格式。 可按文件格式筛选可用数据集。 |
美国人口普查数据 |
美国人口的统计数据 |
数据集采用各种格式。 |
来自 NASA 的地球科学数据 |
32,000 多个数据集,涵盖了农业、大气、生物圈、气候、低温层、人文领域、水圈、地表、海洋、太阳与地球相互作用等方面的数据。 |
数据集采用各种格式。 |
航班延迟和其他交通数据 |
“美国运输部 (DOT) 运输统计局 (BTS) 对大型航空公司运营的国内航班的准时情况进行了跟踪。 可在此网站发布的汇总表中了解准时的、延迟的和取消的航班及转机航班数的汇总信息。” |
文件为 CSV 格式。 |
交通死亡事故 - 美国事故分析报告系统 (FARS) |
“FARS 是全国性的普查,可提供 NHTSA、国会和美国公众就机动车辆交通事故造成的致命事故公开的年度数据。” |
“使用 FARS 查询系统自己创建在线运行的死亡数据。 或从 FTP 站点下载自 1975 起的所有 FARS 数据。” |
有毒化学物质数据 - EPA 毒性预测 (ToxCast™) 数据 |
“EPA 可公开提供最近更新的数千种化学品的高通量毒性数据。 该数据由 EPA 的 ToxCast 研究得出。” |
存在各种格式的数据集,包括电子表格、R 包和 MySQL 数据库文件。 |
NCBI 提供的生物技术和基因组数据 |
多个数据集,涵盖了基因、基因组和蛋白质的数据。 |
数据集为文本、XML、BLAST 等格式。 可使用 BLAST 应用。 |
数据源 |
关于数据 |
关于文件 |
GitHub Archive |
“GitHub Archive 是一个用于记录事件公共 GitHub 时间轴,将其存档,并使其易于进行进一步分析的项目。” |
从 Web 客户端下载 .gz (Gzip) 格式的以 JSON 编码的事件存档。 |
Stack Overflow 数据转储 |
“这是指将用户贡献的所有内容匿名转储在 Stack Exchange 网络(包括 Stack Overflow)上。” |
“每个站点(例如 Stack Overflow)都被格式化为一个单独的存档,其中包含通过 7-zip 使用 bzip2 压缩的 XML 文件。 每个站点存档都包括帖子、用户、投票、评论、发布历史和发布链接。” |