海德堡大學(xué)的研究人員與Facebook匿名合作,將朋友關(guān)系網(wǎng)作為測試基礎(chǔ)數(shù)據(jù)組。通過網(wǎng)絡(luò)分析和機(jī)器學(xué)習(xí)方法處理數(shù)據(jù),以在一定條件下,準(zhǔn)確預(yù)測40%的非用戶間是否相識。這個研究也說明社交網(wǎng)絡(luò)中潛在著許多非用戶的信息。
我們對那些好友是社交網(wǎng)絡(luò)用戶,但本人并不使用社交網(wǎng)絡(luò)的人,能不能辨認(rèn)呢?海德堡大學(xué)科學(xué)計算跨學(xué)科研究中心的研究人員,對此問題展開了調(diào)查研究。從他們的研究工作中可以看出,通過網(wǎng)絡(luò)分析和機(jī)器學(xué)習(xí)方法對用戶間關(guān)聯(lián)和用戶與非用戶間的關(guān)聯(lián)模式進(jìn)行再處理,從而得出非用戶之間的關(guān)系。使用這種簡單的關(guān)聯(lián)數(shù)據(jù),它可以在一定條件下,能以40%的概率預(yù)測兩個非社交網(wǎng)絡(luò)用戶之間是否都互相認(rèn)識。
任意社交網(wǎng)絡(luò)平臺將社交群體分為兩部分,用戶(黑色小人)與非用戶,非用戶又分關(guān)聯(lián)非用戶(紅色小人)和無關(guān)聯(lián)非用戶(灰色小人)。非用戶間進(jìn)行郵件聯(lián)系的用紅線標(biāo)示出來,表示二者認(rèn)識,而灰線表示未觀察到存在關(guān)聯(lián),即非用戶間互相不認(rèn)識。非用戶之間的關(guān)系可以從用戶間關(guān)系(黑線)以及用戶與非用戶間的聯(lián)系模式(綠線)準(zhǔn)確推測出。
幾年來,科學(xué)家們一直致力于研究這樣的問題,通過運用充分學(xué)習(xí)和預(yù)測算法,對輸入數(shù)據(jù)進(jìn)行計算分析可以得出什么結(jié)論?在一個社交網(wǎng)絡(luò)中,一些信息用戶是不會披露出來的,如性取向或政治傾向,但如果有他的好友提供足夠多關(guān)于他的信息,那么計算出來的結(jié)果會有較高的正確率。海德堡圖像處理合作實驗室(HCI)的聯(lián)合創(chuàng)始人,漢普拉徹教授(Prof. Dr. Fred Hamprecht)稱,一旦已確認(rèn)的朋友關(guān)系被獲知,那么對機(jī)器學(xué)習(xí)來說,預(yù)測一些未知內(nèi)容將不再是一個太大的挑戰(zhàn)。
到目前為止,這類研究僅限于社交網(wǎng)絡(luò)的用戶,即那些擁有用戶文件并同意(社交網(wǎng)絡(luò))給定隱私條款的人?!叭欢怯脩舨]有這樣的隱私保密協(xié)議,因此,我們對自動生成的所謂影子文件(shadow profiles)展開研究?!痹诘聡5卤ご髮W(xué)科學(xué)計算跨學(xué)科研究中心(IWR)工作的茨威格教授(Prof. Dr. Katharina Zweig)解釋說。
在一個社交網(wǎng)絡(luò)中,推測非用戶信息還是可能的,舉例來說,通過使用所謂的發(fā)現(xiàn)朋友的應(yīng)用。當(dāng)新的一個Facebook用戶注冊時,他們被要求提供一份完整的電子郵件聯(lián)系人列表,甚至包括那些不是Facebook的用戶?!霸谏缃痪W(wǎng)絡(luò)里,這樣的誰和誰可能認(rèn)識的信息會與用戶在社交網(wǎng)絡(luò)之外又認(rèn)識哪些人的信息捆綁起來。反過來,這樣的關(guān)聯(lián)可以用于推測相當(dāng)一部分非用戶之間的關(guān)系”,茨威格教授的同事霍瓦特(ágnes Horvát)如是說。
海德堡大學(xué)的研究人員采用基于網(wǎng)絡(luò)分析結(jié)構(gòu)的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)程序來完成計算。因為研究所用數(shù)據(jù)不是隨便就能拿到的,研究人員與Facebook匿名合作,將朋友關(guān)系網(wǎng)作為測試基礎(chǔ)數(shù)據(jù)組。使用一個范圍盡可能廣的模型來模擬用戶和非用戶之間的區(qū)分,這樣的區(qū)分被用于驗證實驗結(jié)果的正確性。研究人員采用標(biāo)準(zhǔn)化計算機(jī),可以在短短數(shù)天內(nèi)計算出哪些非用戶最有可能是其他人的朋友。
令海德堡大學(xué)的科學(xué)家們驚訝的是,所有的模擬方法都產(chǎn)生了相同的定性結(jié)果。根據(jù)海德堡圖像處理合作實驗室的韓思曼博士(Dr. Michael Hanselmann)的說法,基于實際假定社交網(wǎng)絡(luò)用戶在人群中占的比例,以及他們將郵件地址簿上傳到網(wǎng)上的概率,計算結(jié)果可以讓我們準(zhǔn)確預(yù)測40%的非用戶間的關(guān)系,這代表了與簡單猜測相比,準(zhǔn)確率提高了20倍之多。
研究結(jié)果說明了社交網(wǎng)絡(luò)中潛在著許多非用戶的信息。漢普拉徹教授強(qiáng)調(diào)說,該研究僅以關(guān)系數(shù)據(jù)作為基礎(chǔ),這不禁讓人吃驚。許多社交網(wǎng)絡(luò)平臺,擁有更多的用戶信息,例如年齡,收入,教育經(jīng)歷,或者住址等。利用這些數(shù)據(jù),再配備相應(yīng)的技術(shù)基礎(chǔ)設(shè)施和其他的網(wǎng)絡(luò)分析結(jié)構(gòu)特性,研究人員相信,預(yù)測正確性將得到大大提高。茨威格教授說:“總得說來,我們的項目闡明了一點,我們作為社交群體的一員,得弄明白那些用戶沒有提供的關(guān)系數(shù)據(jù)可能會被利用到什么程度?!?/p>