頂尖時代推出的互聯(lián)網(wǎng)大數(shù)據(jù)“一鍵采集”云服務是定向針對互聯(lián)網(wǎng)進行網(wǎng)頁信息采集、處理、加工、分類的云服務。
云采集平臺采用的核心技術是分布式網(wǎng)頁爬蟲系統(tǒng)。分布式爬蟲系統(tǒng)采取主從方式的體系結(jié)構(gòu)。即有一個主節(jié)點控制所有從節(jié)點執(zhí)行抓取任務,這個主節(jié)點負責分配URL,保證集群中所有節(jié)點的負載均衡。網(wǎng)頁采集爬蟲系統(tǒng)將網(wǎng)頁的非結(jié)構(gòu)化信息采集后, 自動提取網(wǎng)頁屬性信息進行結(jié)構(gòu)化的處理,字段提?。òㄕ军c、來源、日期、標題、內(nèi)容、包含圖片等)。
頂尖采集云范圍
頂尖采集云架構(gòu)
頂尖采用云特點