Sunday, October 05, 2014

Behandling av sökvolymdata för finansiella applikationer

Dataurval

Dataurvalet specificeras som företagen i indexet FTSE 100 samt indexet FTSE 100 mellan 1.1.2004 och 31.12.2013. Dataurvalet begränsas bakåt av att Google Trends inte tillhandahåller data före 2004. Ett av de viktigaste stegen i processen är att specificera relevanta sökord för företagen som undersöks. Tidigare undersökningar har använt två olika metodologier. Da, Engelberg och Gao (2011) använder företags kortnamn. Detta är möjligt för stora företag som har en stor investerarbas och därmed tillräckligt mycket sökningar för att kortnamnen skall registreras i Google Trends. Da, Engelberg och Gao poängterar att företagets namn innehåller icke-finansiella sökningar. Eftersom tillräcklig sökdata inte finns för de flesta företags kortnamn i FTSE 100 används samma metod som Vlastakis och Markellos (2010). De har valt att använda företagets namn som sökord eftersom sökvolymerna för dessa är högre. De anser att man kan anta att icke-finansiella sökningar är slumpmässiga och därmed inte påverkar resultatet. Vlastakis och Marekellos poängterar även att sökningar efter företagets namn ger en bredare bild av efterfrågan av information för ett företag än kortnamnet. Den här undersökningen följer denna metodologi och antar att icke finansiella sökningar för företagets namn är brus.

Google Trends tillhandahåller data på tre frekvenser: daglig, veckovis, och månadsvis. Eftersom målet med undersökningen är att förklara heteroskedasticitet i dagliga avkastningar används dalig data. Google Trends tillhandahåller dagligt data endast tre månader åt gången. Dagligt data har därför hämtats i månatliga intervaller, vilket innebär att 120 datafiler har hämtats per företag. För att hantera datamängden har ett skript skapats i det statistiska ramverket R som utför följande bearbetningar av data:
  1. Hämtning av enskilda filer från Google Trends för varje företag
  2. Sammanställning av de enskilda månaderna till hela tidsserier
  3. Omindexering av de månatliga sökvolymserierna så att de följer utvecklingen av sökvolymserierna för hela undersökningsperioden
Omindexeringen har utförts genom att räkna procentskillnaden mellan den veckovisa sökvolymen i början av varje månad med den månatliga datafilens initiella sökvolym. Processen beskrivs grafiskt i figurerna nedan. Den första figuren illustrerar de ihopklistrade månatliga sökvolymserierna. Den andra figuren illustererar sökvolymen på veckonivå. Den tredje figuren illustrerar de omindexerade dagliga sökningarna från figur ett. Som figur tre visar så kan man på så vis kombinera jämförbarheten av veckovisa sökningar med den högre frekvensen från dagliga sökningar.


30 företag har ingen sökvolymdata tillgänglig och har därför exkluderats från undersökningen. Det maximala antalet observationer för ett företag  är 3650. 44 företag har över 3000 observationer. I de fall var endast ett fåtal datapunkter saknas har avsaknade värden ersatts med  linjär interpolering. I de fall var data saknas i början eller slutet tidsserien har perioden avkortats.

Kortnamn Företag Sökord Observationer
LON:AAL Anglo American plc Anglo American 3533
LON:ABF Associated British Foods plc Associated British Foods 417
LON:ADM Admiral Group plc Admiral Group 1198
LON:ADN Aberdeen Asset Management PLC Aberdeen Asset Management 1681
LON:AGK Aggreko plc Aggreko 2226
LON:AHT Ashtead Group plc Ashtead Group 0
LON:ANTO Antofagasta plc Antofagasta 3619
LON:ARM ARM Holdings plc ARM Holdings 1190
LON:AV Aviva plc Aviva 3613
LON:AZN AstraZeneca PLC AstraZeneca 3557
LON:BA BAE Systems plc BAE Systems 3521
LON:BAB Babcock International Group plc Babcock International Group 0
LON:BARC Barclays PLC Barclays 3644
LON:BATS British American Tobacco plc British American Tobacco 3380
LON:BDEV Barratt Developments plc Barratt Developments 298
LON:BG BG Group plc BG Group 2505
LON:BLND The British Land Company Public Limited Company The British Land Company Public Limited Company 0
LON:BLT BHP Billiton plc BHP Billiton 3382
LON:BNZL Bunzl plc Bunzl 2688
LON:BP BP plc BP 3644
LON:BRBY Burberry Group plc Burberry Group 0
LON:BSY British Sky Broadcasting Group plc British Sky Broadcasting Group 0
LON:BT.A BT Group plc BT Group 2428
LON:CCH COCA-COLA HBC N COCA-COLA 3643
LON:CCL Carnival plc Carnival 3644
LON:CNA Centrica plc Centrica 3492
LON:CPG Compass Group PLC Compass Group 3490
LON:CPI Capita plc Capita 3643
LON:CRH CRH plc CRH 3083
LON:DGE Diageo plc Diageo 3527
LON:EXPN Experian plc Experian 3643
LON:EZJ easyJet plc easyJet 3644
LON:FRES Fresnillo PLC Fresnillo 2363
LON:GFS G4S plc G4S 2746
LON:GKN GKN plc GKN 3451
LON:GLEN GLENCORE XSTRAT GLENCORE XSTRAT 0
LON:GSK GlaxoSmithKline plc GlaxoSmithKline 3535
LON:HL Hargreaves Lansdown Plc. Hargreaves Lansdown 2838
LON:HMSO Hammerson plc Hammerson 2181
LON:HSBA HSBC Holdings plc HSBC Holdings 1908
LON:IAG INTL. CONS. AIR GRP INTL. CONS. AIR GRP 0
LON:IHG Intercontinental Hotels Group plc Intercontinental Hotels Group 2087
LON:IMI IMI plc IMI 3626
LON:IMT Imperial Tobacco Group plc Imperial Tobacco Group 0
LON:ITRK Intertek Group plc Intertek Group 0
LON:ITV ITV plc ITV 0
LON:JMAT Johnson Matthey plc Johnson Matthey 2619
LON:KGF Kingfisher plc Kingfisher 3618
LON:LAND Land Securities Group plc Land Securities Group 0
LON:LGEN Legal & General Group Plc Legal %26 General Group 0
LON:LLOY Lloyds Banking Group plc Lloyds Banking Group 1783
LON:LSE London Stock Exchange Group plc London Stock Exchange Group 0
LON:MGGT Meggitt PLC Meggitt 2265
LON:MKS Marks & Spencer Group plc Marks %26 Spencer Group 0
LON:MNDI Mondi plc Mondi 3442
LON:MRO Melrose Industries PLC Melrose Industries 0
LON:MRW Wm. Morrison Supermarkets plc Wm. Morrison Supermarkets 0
LON:NG National Grid plc National Grid 0
LON:NXT Next Plc Next 0
LON:OML Old Mutual plc Old Mutual 0
LON:PFC Petrofac Limited Petrofac Limited 0
LON:PRU Prudential plc Prudential 3644
LON:PSN Persimmon plc Persimmon 3565
LON:PSON Pearson plc Pearson 3644
LON:RB Reckitt Benckiser Group plc Reckitt Benckiser Group 0
LON:RBS The Royal Bank of Scotland Group plc The Royal Bank of Scotland Group 0
LON:RDSB Royal Dutch Shell plc Royal Dutch Shell 2908
LON:REL Reed Elsevier plc Reed Elsevier 2281
LON:REX Rexam plc Rexam 3136
LON:RIO Rio Tinto plc Rio Tinto 3563
LON:RMG ROYAL MAIL ROYAL MAIL 3644
LON:RR Rolls Royce Holdings plc Rolls Royce Holdings 0
LON:RRS Randgold Resources Limited Randgold Resources Limited 0
LON:RSA RSA Insurance Group plc RSA Insurance Group 0
LON:RSL Resolution Limited Resolution Limited 417
LON:SAB SABMiller plc SABMiller 2938
LON:SBRY J. Sainsbury plc J. Sainsbury 0
LON:SDR Schroders plc Schroders 3427
LON:SGE Sage Group plc Sage Group 1926
LON:SHP Shire plc Shire 3644
LON:SL Standard Life plc Standard Life 3614
LON:SMIN Smiths Group plc Smiths Group 2545
LON:SN Smith & Nephew plc Smith & Nephew 2640
LON:SPD Sports Direct International plc Sports Direct International 0
LON:SSE SSE plc SSE 3567
LON:STAN Standard Chartered PLC Standard Chartered 3631
LON:STJ St. James's Place plc St. James Place 0
LON:SVT Severn Trent Plc Severn Trent 3499
LON:TLW Tullow Oil plc Tullow Oil 2109
LON:TPK Travis Perkins plc Travis Perkins 3534
LON:TSCO Tesco PLC Tesco 3644
LON:TT TUI Travel PLC TUI Travel 3200
LON:ULVR Unilever plc Unilever 3643
LON:UU United Utilities Group PLC United Utilities Group 0
LON:VOD Vodafone Group Public Limited Company Vodafone Group 1773
LON:WEIR The Weir Group PLC The Weir Group 0
LON:WMH William Hill plc William Hill 3644
LON:WOS Wolseley plc Wolseley 3494
LON:WPP WPP WPP 3497
LON:WTB Whitbread PLC Whitbread 3442
^FTSE FTSE 100 FTSE 100 3453

Trender i sökvolymdata

En av de egenskaper i sökvolymdata som är särskilt påtagliga för företa är en veckodagseffekt. Sökvolymindexet är signifikant lägre under veckosluten för 49 av 72 sökord. Sökvolymindexet är signifikant högre på onsdagar för 43 av sökorden. För att eliminera veckodagseffekten regresseras sökvolymindexet mot veckodagen.I figurerna nedan beskrivs transformationen. Den första figuren är histogrammen för det obehandlade och det transformerade sökvolymindexet. Den andra figuren är en snutt av det obehandlade sökvolymindexet, den tredje figuren är det transformerade sökvolymindexet. I figur två ser man att det finns betydande veckodagseffekter.

 

Abnormal sökvolym

Drake, Roulstone och Thornock (2012) undviker problemet med veckodagseffekter genom att definerar abnormal sökvolym som den sökvolymen för dag t och företag i minus den genomsnittliga sökvolymen för samma veckodag k över de föregående 10 veckorna. Figurerna nedan visar att den abnormala sökvolymen är mer normalfördelad än det obehandlade sökvolymindexet.




Vilken metod är bättre, eliminering av veckodagseffekten med en fast veckodagseffekt, eller ett rullande tioveckorsfönster? Figuren nedan illustrerar skillnadne mellan de två metoderna.


Ett Jarque Bera-test visar att båda är långt ifrån normalfördelade. Den röda linjen som behandlats med Da, Engelberg och Gaos metod har en chi^2-koefficient som är 2325296. Den blå linjen som avtrendats med en fast koefficient per veckodag har en chi^2-koefficient som är 1726184, betydligt lägre. För hela dataurvalet resulterar det rullande medeltalet i en lägre chi^2-koefficient i 33 av 71 fall, i de övriga fallen är den andra modellen bättre. Da, Engelberg och Gaos metod används som huvudsaklig variabel. Den alternativa modellen används som robusthetstest.


No comments:

Entertaining Blogs - BlogCatalog Blog Directory
Bloggtoppen.se