技术服务

适用对象:需要建立大数据决策系统的机构
关键字:从数据分析到内容决策的系统服务

针对不同机构对大数据的洞察和决策需求,定制开发相应的大数据智能系统和应用。DT稿王开发中积累的分布式数据采集;可自由扩展的数据存储;适用于海量结构化和非结构化信息的语义搜索;针对结构化数据的挖掘和机器学习;对文本数据的分类、聚类、实体识别、情感分析和自动摘要;基于逻辑结构的自然语言生成等技术都可迅速有效的移植到需要定制化的大数据系统中。

 

 

 

分布式数据采集

DT稿王分布式数据采集系统致力于从互联网平台,如门户网站(网易、新浪等)、组织机构官网(政府部门官网)、社交网站(微信、微博)等采集海量的即时数据,包括结构化和非结构化数据。DT稿王分布式数据采集系统为满足客户个性而广泛的需求,从设计层面保证了两个维度的可扩展,分别是数据源维度和吞吐量维度。该数据采集系统采用了插件与平台相分离的机制,可根据客户需求添加定制任意网站的数据采集插件,并置于平台之中运行。另外,随着该系统采集数据量或采集插件量的增长,为保证采集的准确率和时效性,该采集平台的服务器数量可以水平扩展以提高吞吐量,该采集系统能同时协调多台服务器并行完成任意数量的采集任务。

 

 

 

弹性可扩展的海量数据存储

DT稿王大数据平台采用基于Hadoop的分布式大数据开源解决方案,通过建立多个服务器群组,能够存储和处理大规模结果化和非结构化数据。我们平台性能可达到秒级响应,我们的存储技术架构具有很好的横向可扩展性,可靠性,可以有效应对大规模数据增长下的数据分析需求。

 

 

 

海量结构化和非结构化语义搜索

DT稿王的大数据语义搜索和分析引擎可以对大规模结构化和非结构数据实现实时检索和多维分析。该引擎为分布式检索系统,对亿级非结构化数据的查询可实现毫秒级响应,且具备很好的横向扩展能力。

 

针对结构化数据的挖掘和机器学习

媒体实验室将统计方法和机器学习技术结合并应用到业务数据当中,丰富的业务数据理解经验及完备的数据准备、模型构建、模型评估功能模块可以快速的移植到多种业务场景。通过对结构化数据的挖掘帮助企业从数据中获取有商业价值的信息,以提高企业决策效率和执行力。采用数据挖掘的分类、主成分分析、回归、时间序列等算法,实现用户行为分析、识别某一指标的关键因素,并基于分析结果提问题进行预测预警等。根据具体的行业的需求,从DT稿王系统中剥离合适的算法或进行定制化的算法开发,形成符合解决行业实际需求的数据分析系统。

 

针对文本数据的分类、聚类、实体识别、情感分析和关键词提取

媒体实验室通过基于规则和机器学习相结合的分类算法实现资讯自动分类和自动打标签等功能。通过聚类算法对给定的文本进行话题聚类,将语义上相似的内容归为一类,实现对海量资讯的整理及按话题进行统计分析,并可以通过聚类方法来辅助构建分类体现。命名实体识别是从文本中发现人名、公司名、产品名、时间、地点等,是语义分析中的重要基础,对搜索系统和问答系统等有着重要的作用。情感分析通过对社交、电商平台的评价语料建立的机器学习模型对评价进行正负面情感分析,可用于舆情监控。关键词提取技术伴随着在线文档的急剧增加显得十分重要,同时关键词提取技术对文本自动摘要生成、文本分类、文本聚类和信息检索也具有重要意义。

 

基于逻辑结构的自然语言生成技术

媒体实验室拥有一套基于统计和规则结合的自然语言生成系统,让计算机系统从非语言的信息表示产生出以自然语言表示的可理解的文本。基于逻辑结构的自然语言生成技术可以实现三种写作模式:
(1)数字的信息描述:通过数据挖掘和规则学习,把从数据中发现的有潜在商业价值的信息,以文字叙述呈现给读者;
(2)重要信息提取:通过对非结构化数据中重要信息的提取,包括自动摘要,并按一定的逻辑结构将这些信息组织写成自然语言;
(3)多种信息关联:结合数据的基本信息,并利用语义相关技术把相关的语言片段和基本信息结合成文。

 

 
 

 

智能写稿 数据为王