海德堡大學(xué)的研究人員與Facebook匿名合作,將朋友關(guān)系網(wǎng)作為測(cè)試基礎(chǔ)數(shù)據(jù)組。通過(guò)網(wǎng)絡(luò)分析和機(jī)器學(xué)習(xí)方法處理數(shù)據(jù),以在一定條件下,準(zhǔn)確預(yù)測(cè)40%的非用戶間是否相識(shí)。這個(gè)研究也說(shuō)明社交網(wǎng)絡(luò)中潛在著許多非用戶的信息。
我們對(duì)那些好友是社交網(wǎng)絡(luò)用戶,但本人并不使用社交網(wǎng)絡(luò)的人,能不能辨認(rèn)呢?海德堡大學(xué)科學(xué)計(jì)算跨學(xué)科研究中心的研究人員,對(duì)此問(wèn)題展開(kāi)了調(diào)查研究。從他們的研究工作中可以看出,通過(guò)網(wǎng)絡(luò)分析和機(jī)器學(xué)習(xí)方法對(duì)用戶間關(guān)聯(lián)和用戶與非用戶間的關(guān)聯(lián)模式進(jìn)行再處理,從而得出非用戶之間的關(guān)系。使用這種簡(jiǎn)單的關(guān)聯(lián)數(shù)據(jù),它可以在一定條件下,能以40%的概率預(yù)測(cè)兩個(gè)非社交網(wǎng)絡(luò)用戶之間是否都互相認(rèn)識(shí)。
任意社交網(wǎng)絡(luò)平臺(tái)將社交群體分為兩部分,用戶(黑色小人)與非用戶,非用戶又分關(guān)聯(lián)非用戶(紅色小人)和無(wú)關(guān)聯(lián)非用戶(灰色小人)。非用戶間進(jìn)行郵件聯(lián)系的用紅線標(biāo)示出來(lái),表示二者認(rèn)識(shí),而灰線表示未觀察到存在關(guān)聯(lián),即非用戶間互相不認(rèn)識(shí)。非用戶之間的關(guān)系可以從用戶間關(guān)系(黑線)以及用戶與非用戶間的聯(lián)系模式(綠線)準(zhǔn)確推測(cè)出。
幾年來(lái),科學(xué)家們一直致力于研究這樣的問(wèn)題,通過(guò)運(yùn)用充分學(xué)習(xí)和預(yù)測(cè)算法,對(duì)輸入數(shù)據(jù)進(jìn)行計(jì)算分析可以得出什么結(jié)論?在一個(gè)社交網(wǎng)絡(luò)中,一些信息用戶是不會(huì)披露出來(lái)的,如性取向或政治傾向,但如果有他的好友提供足夠多關(guān)于他的信息,那么計(jì)算出來(lái)的結(jié)果會(huì)有較高的正確率。海德堡圖像處理合作實(shí)驗(yàn)室(HCI)的聯(lián)合創(chuàng)始人,漢普拉徹教授(Prof. Dr. Fred Hamprecht)稱,一旦已確認(rèn)的朋友關(guān)系被獲知,那么對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō),預(yù)測(cè)一些未知內(nèi)容將不再是一個(gè)太大的挑戰(zhàn)。
到目前為止,這類研究?jī)H限于社交網(wǎng)絡(luò)的用戶,即那些擁有用戶文件并同意(社交網(wǎng)絡(luò))給定隱私條款的人?!叭欢?,非用戶并沒(méi)有這樣的隱私保密協(xié)議,因此,我們對(duì)自動(dòng)生成的所謂影子文件(shadow profiles)展開(kāi)研究?!痹诘聡?guó)海德堡大學(xué)科學(xué)計(jì)算跨學(xué)科研究中心(IWR)工作的茨威格教授(Prof. Dr. Katharina Zweig)解釋說(shuō)。
在一個(gè)社交網(wǎng)絡(luò)中,推測(cè)非用戶信息還是可能的,舉例來(lái)說(shuō),通過(guò)使用所謂的發(fā)現(xiàn)朋友的應(yīng)用。當(dāng)新的一個(gè)Facebook用戶注冊(cè)時(shí),他們被要求提供一份完整的電子郵件聯(lián)系人列表,甚至包括那些不是Facebook的用戶?!霸谏缃痪W(wǎng)絡(luò)里,這樣的誰(shuí)和誰(shuí)可能認(rèn)識(shí)的信息會(huì)與用戶在社交網(wǎng)絡(luò)之外又認(rèn)識(shí)哪些人的信息捆綁起來(lái)。反過(guò)來(lái),這樣的關(guān)聯(lián)可以用于推測(cè)相當(dāng)一部分非用戶之間的關(guān)系”,茨威格教授的同事霍瓦特(ágnes Horvát)如是說(shuō)。
海德堡大學(xué)的研究人員采用基于網(wǎng)絡(luò)分析結(jié)構(gòu)的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)程序來(lái)完成計(jì)算。因?yàn)檠芯克脭?shù)據(jù)不是隨便就能拿到的,研究人員與Facebook匿名合作,將朋友關(guān)系網(wǎng)作為測(cè)試基礎(chǔ)數(shù)據(jù)組。使用一個(gè)范圍盡可能廣的模型來(lái)模擬用戶和非用戶之間的區(qū)分,這樣的區(qū)分被用于驗(yàn)證實(shí)驗(yàn)結(jié)果的正確性。研究人員采用標(biāo)準(zhǔn)化計(jì)算機(jī),可以在短短數(shù)天內(nèi)計(jì)算出哪些非用戶最有可能是其他人的朋友。
令海德堡大學(xué)的科學(xué)家們驚訝的是,所有的模擬方法都產(chǎn)生了相同的定性結(jié)果。根據(jù)海德堡圖像處理合作實(shí)驗(yàn)室的韓思曼博士(Dr. Michael Hanselmann)的說(shuō)法,基于實(shí)際假定社交網(wǎng)絡(luò)用戶在人群中占的比例,以及他們將郵件地址簿上傳到網(wǎng)上的概率,計(jì)算結(jié)果可以讓我們準(zhǔn)確預(yù)測(cè)40%的非用戶間的關(guān)系,這代表了與簡(jiǎn)單猜測(cè)相比,準(zhǔn)確率提高了20倍之多。
研究結(jié)果說(shuō)明了社交網(wǎng)絡(luò)中潛在著許多非用戶的信息。漢普拉徹教授強(qiáng)調(diào)說(shuō),該研究?jī)H以關(guān)系數(shù)據(jù)作為基礎(chǔ),這不禁讓人吃驚。許多社交網(wǎng)絡(luò)平臺(tái),擁有更多的用戶信息,例如年齡,收入,教育經(jīng)歷,或者住址等。利用這些數(shù)據(jù),再配備相應(yīng)的技術(shù)基礎(chǔ)設(shè)施和其他的網(wǎng)絡(luò)分析結(jié)構(gòu)特性,研究人員相信,預(yù)測(cè)正確性將得到大大提高。茨威格教授說(shuō):“總得說(shuō)來(lái),我們的項(xiàng)目闡明了一點(diǎn),我們作為社交群體的一員,得弄明白那些用戶沒(méi)有提供的關(guān)系數(shù)據(jù)可能會(huì)被利用到什么程度?!?/p>