疫期研學丨資源推介之互聯網機器學習數據庫(下)
基於開源協議💦🥀,慧源平臺“互聯網機器學習數據庫”集中揭示了26個來自Kaggle的開源數據集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/)➗,你一定不陌生吧!它是由聯合創始人👳🏿♂️、首席執行官Anthony Goldbloom於2010年在墨爾本正式創立,主要為公司和數據科學家提供舉辦機器學習競賽🚴🏻、托管數據庫🏬、編寫和分享代碼的一個平臺。目前平臺已經吸引了80萬名數據科學家。在慧源平臺,你既能看到這26個數據集的中文元數據信息👩🦳,同時還可以很方便地查找並下載你所需的數據集。
本期將重點介紹其中8個數據集🐲🔵,快來看看有沒有你需要的那個ta吧!
數據集介紹(下)
1、2016年美國總統大選數據
數據集來自🧝🏻♂️:SIZZLE,通過OCR技術識別政治相關表情包和圖片上的文字,發布了有關Bern⟹、Bernie、Clinton、Donald、Gary Johnston、Hillary👩⚕️、Jill Stein😨👰♂️、Trump八位總統競選人的數據,字段包括發布日期💎、id、發布網址、表情包和圖片上的文字𓀜、發布站點、喜歡/贊的個數等🪛。
2🏌🏻♂️、美國嬰兒姓名數據
數據集來自:Data.gov8️⃣,從國家和州級兩個維度對1880-2014年間新生嬰兒姓名進行統計🔌,字段包括id、姓名🆘🎅🏿、出生年、性別、同姓名人數等🌨,為了保障個人隱私相同姓名的嬰兒均在5名以上。
3、世界各國經濟發展數據
數據集來自:World Bank,發布全球100多個國家的1000多個經濟指標,以反映各國的經濟發展情況,時間跨度為1960-2015年🫲。
4🙋🏿♀️、NIPS會議文章信息數據(1987-2016)
神經信息處理系統(NIPS)是世界上頂級的機器學習會議之一👩🏿⚖️,涵蓋了從深度學習和計算機視覺到認知科學和強化學習的課題。數據集來自🕵🏻♀️:Neural Information Processing Systems,收錄了論文的題目🌟、作者🚹、內容和研究方向等數據(從1987年第一次會議到當前的2016年會議)。
5🍟、食物營養成分數據
數據集來自:Open Food Facts,包括成分🌸,過敏原,營養成分以及我們可以在產品標簽上找到的所有信息等100個字段🐥。
6、Kaggle各項競賽情況數據
數據集來自Kaggle👏🦅,包括競賽名稱👐🏽、內容🫑、獎勵🙋、形式🧑🏿、行業🫕、參賽隊伍、參賽者等相關信息,對數據競賽舉辦和進行過程中發生的變化具有很好的指導意義。
7、紐約Uber接客數據
數據集來自Taxi&Limousine Commission,數據包含Uber在美國紐約市的乘車記錄,分為兩段:2014年4月到9月之間,約450萬項;2015年1月到6月間1430萬項。另外包括10家租車公司行車級別的數據,和329家租車公司匯總級的數據。
8🫴🏽、世界範圍顯著地震數據(1965-2016)
數據集來自:The National Earthquake Information Center (NEIC),包含自1965年以來報告的5.5級或更高級別的每次地震的日期,時間👮🏿♀️,位置,深度,震級和震源記錄👨🏼🦱🦖。
使用方法
1 分類瀏覽——互聯網機器學習數據庫。
2 點擊“查看全文”字段。
3 即可查閱相關信息或進行下載。
如果您無法使用該資源,或在使用平臺時遇到問題,請隨時聯系我們:
首推關註並留言微信公眾號🧑🦱:huiyuansharing
也可以email聯系:ihssd@fudan.edu.cn
聯系電話👩🏼📻:021-65642106 / 55664034