www.224466d.com,中马堂论坛,六彩高手,管家婆六合网,www.788117.com

www.224466d.com,中马堂论坛,六彩高手,管家婆六合网,www.788117.com,精准2肖期期大中,九龙网站,蓝月亮心水论坛开奖

一种基于新闻大数据的自动选股方法与流程

2019-10-06 11:56

  四海图库看图区,现在,量化投资在管理资产中起到越来越重要的作用,大家开始利用计算机设备对历史股票量价数据作为数据资源,通过数学模型进行验证,用于对股票进行量化投资。现有方案关注个股特点分析,没有从行业关注度角度进行自动选股。由于新闻导向同时也会对股票数据的走向具有一定的预警作用(“本发明采用词汇统计分析法挖掘新闻的情感倾向,完成自动选股”)。简单地说,新闻内容的情感倾向可分为两种情形:正面情感和负面情感,正面情感采用新闻内容中的正面情感词汇比率表示,负面情感采用新闻内容中的负面词汇比率表示。如何利用新闻内容体现出的情感倾向,使其服务于量化投资,是本发明要解决的技术问题。

  本发明的目的是提供一种基于新闻大数据的自动选股方法,首先将情感词汇和行业词汇存入存储器,上述情感词汇以及行业词汇来源于专业汉语财经词典;通过RSS实时获取互联网财经新闻,每小时更新一次;将当天的新闻内容通过服务器解析分析当天的新闻内容,新闻内容分析包括两个子部分,1)新闻内容的情感维度分析,计算得到新闻内容的情感倾向;2)新闻内容的行业维度分析,计算得到新闻内容体现的行业关注度;利用情感倾向、行业关注度计算股票排名,选择排名靠前的股票作为投资对象。

  将新闻内容解析为词汇的集合,即 ,t代表词汇总数目),其中包括r个正面情感词汇,s个负面情感词汇,第i天内,正面词汇比率为,该比率代表新闻的正面情感;负面词汇比率为,该比率代表新闻的负面情感;

  第i天内,行业x的关注度为,计算方法为 ,其中,y代表新闻内容中行业x相关词汇数目,t为总词汇数目;

  在第i天内,设定行业x的正面关注度为 ,= ×;设定行业x的负面关注度为,= × ;

  在过去一个月内,设定行业x的累计热度(关注度)为 , = ,其中{i=1,…,m},m为当月的天数;

  每个月的最后一个天晚23:00后,计算本月所有行业的月累计热度,其中{x=1,…, 24},共24个行业;依据{x=1,…, 24}的数值从高到低,完成24个行业的排序;本方法选择排名第一的行业的全部公司股票作为下一个月的投资对象。

  本发明的理论基础是基于以下分析:情感词汇具有心理学意义,正面词汇代表了积极心理暗示;负面词汇代表了人类消极心理暗示;例如,“涨停、良好、丰收”等词汇体现了新闻内容中的积极态度,而“跌停、疲软、萎靡”等词汇体现了新闻内容中的消极态度。当新闻中负面词汇比率增大时,市场展现了悲观消极的预期,股市下行风险增大。行业词汇具有较强的行业指向性,例如,“不良贷款”主要指向银行业的上市公司,“乘用车”主要指向汽车行业的上市公司。当新闻中某种行业词汇的比率增加时,市场热点转向该行业,该行业的上市公司将会受到更多的投资者关注。

  本发明通过新闻大数据的情感维度、行业维度选股;现有方案关注个股特点分析,没有从行业热度角度进行自动选股。本方案通过词汇关联确认新闻内容体现的情感倾向和行业关注度,是对现有技术中的创新。新闻大数据自动选股优点:1)新闻情感(正负面情感强度)与股市、上市公司之间联动关系的理论基础已经得到广泛证实。2)自动提取情感倾向与行业关注度,全自动排名筛选股票。

  下面,结合本发明的主要流程以及执行算法流程图,对本发明作进一步详细说明。

  关键词:情感词汇表,行业词汇表。情感词汇指的是情感词汇列表中的词汇,包括正面词汇和负面词汇两个部分。行业词汇表针对每个行业的常见关键词进行汇编后得到的词汇表。上述情感词汇表和行业词汇表来源于《专业汉语财经词典》,申请人已编纂成册。

  举例来说,正面词汇包含:成功、出色、得天独厚、引领、进步、创新等。负面词汇包括失败、损失、不足、差评、召回、低迷等。

  行业词汇,举例来说,银行业中,常见的关键词为利息、贷款、银监会、央行、利率、信贷等。房地产行业中,常见的关键词置业、首套房、住宅、地块、商品房、楼市等。

  行业公司,是指银行业的代表公司为民生银行、招商银行、南京银行、平安银行等。房地产行业的代表企业为万科A、保利地产、华夏幸福、碧桂园等。

  本过程通过RSS监控公开新闻源获得,例如,人民网RSS,新华网RSS等。为了保障实时性,本方法每个小时对新闻更新一次。

  假定每天(从北京时间当天0点开始至当晚24点,当月最后一天为0点开始至当晚23点,下同)的新闻内容由t个汉语词汇构成 ,其中包括r个正面情感词汇,s个负面情感词汇。第i天内,正面词汇比率为,该比率代表新闻的正面情感;负面词汇比率为,该比率代表新闻的负面情感。

  根据《申银万国行业分类标准》(2014)的28个一级行业类别,本专利的行业维度也具有28个,每个维度对应一个行业。本方法为每个行业设定“行业热度”,行业热度表示新闻对特定行业的关注程度。假定第i天内行业x的热度为 ,计算方法为,其中,y代表行业x相关词汇数目,t为总词汇数目。 越高,表明新闻对行业x的报道内容越多,行业x的热度越高。如果第i天内行x的相关词汇数目为0时, =0。

  本方法在每个月的最后一个天晚23:00对股票进行排名,计算当月每天的行业热度 ,同时计算当月每天的新闻正面情感 和负面情感 ,其中{i=1….m},m为当月的天数。

  在第i天内,设定行业x的正面热度为 , = × 。同理,在第i天内,设定行业x的负面热度为 , = ×。

  在过去一个月内,设定行业x的累计热度为, = ,其中{i=1….m},m为当月的天数。

  每个月的最后一个天晚23:00后,计算本月所有行业的月累计热度,其中{x=1…28},共28个行业。依据 {x=1…28}的数值从高到低,完成28个行业的排序。假定行业x1包含y1个公司,行业x2包含y2个公司,行业x3包含y3个公司,本方法选择排名第一的行业的全部公司股票作为投资对象。

www.224466d.com,中马堂论坛,六彩高手,管家婆六合网,www.788117.com | 网站统计

开奖结果| 九龙图库雷锋高手坛| 马会今晚香港开奖结果| 香港正版神算子中特网| 香港马会开奘结果记录| 正版数码挂牌壹句真言| 管家婆中特网四肖选一| 财富心水高手论坛| 牛牛高手论坛开奖结果| 那里可以看管家婆彩图|