2008諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者Paul R. Krugman(2009)曾在《紐約時(shí)報(bào)》發(fā)文抱怨經(jīng)濟(jì)學(xué)領(lǐng)域誤入歧途是經(jīng)濟(jì)學(xué)家之過,他們錯(cuò)把那些美妙的,令人印象深刻的數(shù)學(xué)當(dāng)作真理。重要原因是原始的數(shù)據(jù)不真實(shí)不有效,統(tǒng)計(jì)數(shù)據(jù)失真,存在很長時(shí)間的滯后。
“無標(biāo)度網(wǎng)絡(luò)”創(chuàng)立者Albert-Laszlo Barabasi在《爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來的新思維》提出:人類行為93% 是可預(yù)測的,預(yù)測的基礎(chǔ)是人類生活數(shù)字化的大數(shù)據(jù)時(shí)代基礎(chǔ)。在社會(huì)化媒體上,數(shù)以億計(jì)的普通用戶創(chuàng)造的海量信息內(nèi)容(User Generated Content,簡稱UGC),如截至2013年12月,中國微博用戶規(guī)模達(dá)到2.81億。僅新浪微博在2013年12月,共有超過28條億的微博被發(fā)布。
Bollen Johan等(2010)對2008年3月-12月間的985萬條Twitter信息進(jìn)行數(shù)據(jù)挖掘,從行為經(jīng)濟(jì)學(xué)的角度出發(fā),研究發(fā)現(xiàn)公眾的情緒狀態(tài)可以對道瓊斯工業(yè)平均指數(shù)收盤值的進(jìn)行預(yù)測,其中冷靜情緒可以預(yù)測的正確率達(dá)到87.6%。
在Johan等人的研究基礎(chǔ)上,在2011年5月,世界首家基于社交媒體的對沖基金Derwent Capital Markets上線,一期的規(guī)模為4000萬美元,該基金將利用Twitter幫助公司投資?;饎?chuàng)始人保羅.郝汀(Paul Hawtin)表示:
長期以來,投資者已經(jīng)廣泛地認(rèn)可金融市場由恐懼和貪婪驅(qū)使,但我們從未擁有一種技術(shù)或數(shù)據(jù)來量化人們的情感。Derwent就是要通過即時(shí)關(guān)注Twitter中的公眾情緒指導(dǎo)投資。
如今,Twitter已經(jīng)不再是一個(gè)簡單的SNS社交工具,而是可以判別你心情的晴雨表。如果Twitter被證明是一個(gè)可靠的市場指標(biāo),公司可能會(huì)從更多的社交媒體獲取數(shù)據(jù),如Facebook、Google trends及其他來源。
Eric Gilbert(2010)等人從心理學(xué)角度分析群體擔(dān)心驚恐情緒與股市的關(guān)系,以Live Journal共2000萬個(gè)帖子為數(shù)據(jù)基礎(chǔ),研究表明悲觀情緒會(huì)導(dǎo)致股價(jià)短期內(nèi)下跌,與股票指數(shù)成反相關(guān),焦慮的標(biāo)準(zhǔn)差增加1%,收益率會(huì)下降0.4%。
?Zhang X. et al.(2011)認(rèn)為當(dāng)民眾對未來的態(tài)度是悲觀或不確定時(shí),投資和交易更謹(jǐn)慎,并使用如“hope”、“fear”、“worry”等的情感詞。于是,當(dāng)帶有上述三種的情感詞的微博數(shù)量快速增長時(shí),往往預(yù)示著道瓊斯指數(shù)將要下降。通過對數(shù)據(jù)的整理和分析,研究發(fā)現(xiàn)這三種情感指數(shù)與道瓊斯、納斯達(dá)克和標(biāo)普500指數(shù)存在負(fù)相關(guān)關(guān)系。
表1:社會(huì)化媒體與股票指數(shù)相關(guān)性研究
| 學(xué)者 | 數(shù)據(jù)來源 | 主要結(jié)論 |
| Wysocki | 股票網(wǎng)站上對3000多支股票,共946000條股評 |
股評數(shù)量對次日的股票交易量的變化和異常收益率的變化有預(yù)測作用 |
| Johan Bollen, Huina Mao, Xiao-Jun Zeng | 8個(gè)月的共9853498條twitter | 對收盤價(jià)預(yù)測準(zhǔn)確率為87.6%,冷靜情緒的預(yù)測效果最好 |
| 程琬蕓, 林杰 | 5個(gè)證券媒體的新浪微博和評論,分別66317條、1207693條 |
漲跌情緒與證券市場指數(shù)收益和成交量有正相關(guān)關(guān)系,短期影響顯著 |
| Zhang X, Fuehres H, Gloor P | 6個(gè)月內(nèi)全部twitter的隨機(jī)1% | 情緒指數(shù)與大盤指數(shù)負(fù)相關(guān),與波動(dòng)率正相關(guān) |
| Eric Gilbert, Karrie karahalios | 2000萬個(gè)Live Journal的帖子 | 悲觀情緒會(huì)導(dǎo)致股價(jià)短期內(nèi)下跌,焦慮的標(biāo)準(zhǔn)差增加1%,收益率會(huì)下降0.4% |
社會(huì)化媒體的內(nèi)容以非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)為主,傳統(tǒng)的數(shù)據(jù)挖掘方法以結(jié)構(gòu)化數(shù)據(jù)為主。通過網(wǎng)絡(luò)爬蟲或社會(huì)化媒體的公開API收集用戶的內(nèi)容和相關(guān)信息,對用戶的信息進(jìn)行統(tǒng)計(jì)、分析和挖掘,包括以下方法支持向量機(jī)(SVMs)、脈沖響應(yīng)函數(shù)、遺傳算法(GA)和文本聚類技術(shù)等,將研究范圍從某一事項(xiàng)的預(yù)測等微觀層面擴(kuò)展到行業(yè)分析與自然災(zāi)害等宏觀領(lǐng)域,拓寬文本挖掘研究的范圍。
在現(xiàn)有樣本選擇方法中,內(nèi)容相關(guān)的方法大幅度降低了工作量,但存在遺漏大量相關(guān)用戶UGC的風(fēng)險(xiǎn)。時(shí)間跨度選擇的合理性需要給出合理的解釋,為什么是選擇12個(gè)月的數(shù)據(jù)而不是更久?時(shí)間跨度是否在一個(gè)經(jīng)濟(jì)周期或事件周期內(nèi)。目前,時(shí)間與內(nèi)容相結(jié)合的方法使用的最多,降低了工作量,減少了噪音,但也需要給上面兩種方法的問題給出合理的解釋。作為學(xué)術(shù)研究,在核心的環(huán)節(jié),全憑主觀判斷范圍和內(nèi)容顯然降低了研究結(jié)論的客觀性、科學(xué)性和說服力。
一、從數(shù)據(jù)處理看,社會(huì)化媒體與諸多經(jīng)濟(jì)現(xiàn)象之間存在相關(guān)性,但這種相關(guān)性尚無扎實(shí)的理論基礎(chǔ)作為支撐,這一研究領(lǐng)域的發(fā)展與應(yīng)用必然受到制約。有學(xué)者認(rèn)為社會(huì)化媒體最多只能反映網(wǎng)絡(luò)輿論,不等于社會(huì)大眾全體。盡管社會(huì)化媒體的樣本量很大,由于“數(shù)碼溝”的存在, 中國仍有55.9%的民眾為非網(wǎng)民,他們的意見不能在網(wǎng)絡(luò)上得到充分地體現(xiàn)。Tumasjan A.等(2010)經(jīng)常發(fā)布政治推文的用戶僅占所有發(fā)布政治推文用戶數(shù)的3.9%,而所發(fā)布的政治推文數(shù)量卻占到總數(shù)的 44.3%。
二、網(wǎng)絡(luò)意見表達(dá)與真實(shí)行為的差異。社會(huì)化媒體內(nèi)容分析和預(yù)測隱含的一個(gè)前提是網(wǎng)絡(luò)用戶表達(dá)的內(nèi)容是大多數(shù)現(xiàn)實(shí)生活中的人們的真實(shí)情感。在虛擬網(wǎng)絡(luò)中,自我選擇偏差(self-selection bias)的存在,在網(wǎng)絡(luò)上表達(dá)意見的只是“自我選擇”的少數(shù),有沉默的大多數(shù)的存在,因此網(wǎng)絡(luò)上的“主流意見”甚至都無法代表全體網(wǎng)民。同時(shí),由于表達(dá)環(huán)境的不同,網(wǎng)民在社會(huì)化媒體上表達(dá)的內(nèi)容,與其線下的實(shí)際行動(dòng)不同,在網(wǎng)絡(luò)上容易受到意見領(lǐng)袖的影響,而在現(xiàn)實(shí)生活中容易受周圍人的影響。?(本文作者弘毅與Vito,首發(fā)于鈦媒體)






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評論
自己給自己評論一下:在當(dāng)前情況下分析社會(huì)化媒體中的信息與股票指數(shù)形成某種線性和非線性的關(guān)系的研究是沒有意義的,在很多論文中沒有考慮到企業(yè)的知名度、市值影響和企業(yè)是否為龍頭,股價(jià)影響要素之多,超乎想象。