意昂 -（意昂娱乐专属礼包）注册即得，豪华奖励送不停！

新聞公告

疫期研學丨資源推介之互聯網機器學習數據庫（下）

基於開源協議💦🥀，慧源平臺“互聯網機器學習數據庫”集中揭示了26個來自Kaggle的開源數據集。而提到大名鼎鼎的 Kaggle（https://www.kaggle.com/）➗，你一定不陌生吧！它是由聯合創始人👳🏿‍♂️、首席執行官Anthony Goldbloom於2010年在墨爾本正式創立，主要為公司和數據科學家提供舉辦機器學習競賽🚴🏻、托管數據庫🏬、編寫和分享代碼的一個平臺。目前平臺已經吸引了80萬名數據科學家。在慧源平臺，你既能看到這26個數據集的中文元數據信息👩‍🦳，同時還可以很方便地查找並下載你所需的數據集。

本期將重點介紹其中8個數據集🐲🔵，快來看看有沒有你需要的那個ta吧！

數據集介紹（下）

1、2016年美國總統大選數據

數據集來自🧝🏻‍♂️：SIZZLE，通過OCR技術識別政治相關表情包和圖片上的文字，發布了有關Bern⟹、Bernie、Clinton、Donald、Gary Johnston、Hillary👩‍⚕️、Jill Stein😨👰‍♂️、Trump八位總統競選人的數據，字段包括發布日期💎、id、發布網址、表情包和圖片上的文字𓀜、發布站點、喜歡/贊的個數等🪛。

2🏌🏻‍♂️、美國嬰兒姓名數據

數據集來自：Data.gov8️⃣，從國家和州級兩個維度對1880-2014年間新生嬰兒姓名進行統計🔌，字段包括id、姓名🆘🎅🏿、出生年、性別、同姓名人數等🌨，為了保障個人隱私相同姓名的嬰兒均在5名以上。

3、世界各國經濟發展數據

數據集來自：World Bank，發布全球100多個國家的1000多個經濟指標，以反映各國的經濟發展情況，時間跨度為1960-2015年🫲。

4🙋🏿‍♀️、NIPS會議文章信息數據（1987-2016）

神經信息處理系統（NIPS）是世界上頂級的機器學習會議之一👩🏿‍⚖️，涵蓋了從深度學習和計算機視覺到認知科學和強化學習的課題。數據集來自🕵🏻‍♀️：Neural Information Processing Systems，收錄了論文的題目🌟、作者🚹、內容和研究方向等數據（從1987年第一次會議到當前的2016年會議）。

5🍟、食物營養成分數據

數據集來自：Open Food Facts，包括成分🌸，過敏原，營養成分以及我們可以在產品標簽上找到的所有信息等100個字段🐥。

6、Kaggle各項競賽情況數據

數據集來自Kaggle👏🦅，包括競賽名稱👐🏽、內容🫑、獎勵🙋、形式🧑🏿、行業🫕、參賽隊伍、參賽者等相關信息，對數據競賽舉辦和進行過程中發生的變化具有很好的指導意義。

7、紐約Uber接客數據

數據集來自Taxi&Limousine Commission，數據包含Uber在美國紐約市的乘車記錄，分為兩段：2014年4月到9月之間，約450萬項；2015年1月到6月間1430萬項。另外包括10家租車公司行車級別的數據，和329家租車公司匯總級的數據。

8🫴🏽、世界範圍顯著地震數據（1965-2016）

數據集來自：The National Earthquake Information Center (NEIC)，包含自1965年以來報告的5.5級或更高級別的每次地震的日期，時間👮🏿‍♀️，位置，深度，震級和震源記錄👨🏼‍🦱🦖。

使用方法

1 分類瀏覽——互聯網機器學習數據庫。