数据分析软件


  

文本分类

具备文本分类引擎:

1、可针对文本内容智能进行信息提取,形成文本摘要信息。可对文本的分类进行训练,建立智能分类引擎,完成对文本信息的自动归档;

2、提供一体化的文本分类训练流程,包括文本清洗、数据划分、特征分析、特征提取、分类训练、结果对比全部完整的文本分类功能,并通过可视化界面来支撑模型训练和分析,降低使用难度;

3、提供TFIDF、信息增益、卡方等多种文本特征提取算法;提供布尔模型、向量模型等多种特征表示算法;提供朴素贝叶斯、KNN等多种机器学习算法。

  

 

热点分析

1、具备热点分析引擎,通过对指定的文本进行分析,汇聚相关热点,对热词进行统计分析和展示。

2、热点追踪:可以根据设定的规则(比如:指定信源的文档中发生的事件是热点事件)在相关文档集合中获取热点事件相关稿件,并根据时间排序确定热点事件的发生、发展、重要节点的信息。



图谱分析

1、支持知识关联图谱分析和展示,帮助发现知识之间的共性和潜在关系。

2、人物的关联性分析:可以通过输入人名,在指定的文档集合中获取与该人物相关的信息,包括:人物简介、相关的活动、与其他部门或人物的相关的事件等。

 


地址提取

支持对提取后的地址信息进行地图可视化分析,用户可自定义分析的指标对象,可计算不同的统计量并在地图中展示相关的热力图。


采集方式

支持数据自动采集,可通过开放web service接口或socket,同步实时采集相关文本数据;同时支持离线批量导入,通过向导式界面更加便捷地导入不同格式的离线文本数据。

 

文本数据清洗

支持对文本数据进行清洗功能,包括大小写转换,全角转半角,中文数字转阿拉伯数字,繁体转简体,特殊字符替换等。


通用词典

具备基础的通用词典,如消歧词典、停用词典、情感词典、敏感词词典等,并可通过可视化界面对词典进行增删更新等管理维护,还可以通过系统的自学习智能发现新的词语知识。

 

 

文本处理

支持对文本数据进行对应的文本处理分析,包括分词、词性分析、句法分析、主体识别、语义识别、消除歧义等功能,并通过可视化界面展示文本处理的结果信息。


 

情感分析

具备情感分析引擎,可针对文本的具体内容,智能对文本进行情感变化分段,捕捉文本反应的情感变化趋势,并计算整体的情感系数;可以根据业务需求来定义正负面规则。

 

文本聚类

提供一体化的文本聚类分析过程,支持对文本数据的自动聚类功能,并提供可视化界面支持聚类操作,为后续的分析挖掘提供支撑。提供文本聚类模型运行过程中每一运算步骤的运行监控。支持对聚类规则的保存,可用于新文本数据的自动标签标注。

 

地址规则库

具备地址规则库,支持对国内地址信息的处理分析和模糊匹配功能。