快捷菜单
社交媒体
联系方式
业务咨询

400-816-1670

地址

北京市 海淀区 东北旺西路8号 中关村软件园9号楼2区306A

Email

contact@HanSight.com

Phone

(+86 10) 8282 6616

BLOG



瀚思见解 BLOG @ HanSight




    何种场景下Elasticsearch会丢失数据?

    Posted by Chengpeng Liu on Aug. 6, 2015

    大家关注分布式系统可靠性的话,也许读过Call me maybe这个博客系列。博主Kyle Kingsbury用自己开发的Jepsen测试过多种分布式系统(NoSQL、Message Queue等),其中包括我们常用的Elasticsearch(简称ES),先后针对ES 1.1.0和ES 1.5.0测过两轮。得到相同的悲观结论:因为可靠性原因,ES不能作为主存储。具体来说,ES节点在录入数据时,如果进程由于软硬件原因崩溃,即使重新启动,一段时间内录入的数据也会丢失无法恢复。所以不适合要求数据100%不丢失的使用场景。

    阅读全文

    ElasticSearch 1.6数据同步策略的一个优化

    Posted by Chao Zha on Jul. 16, 2015

    ElasticSearch是一个基于Apache Lucene的实时分布式搜索和分析引擎,用于全文搜索、结构化搜索、分析以及将这三者混合使用。可以这样描述它:

    分布式的实时文件存储,每个字段都被索引并可被搜索

    分布式的实时分析搜索引擎

    阅读全文

    Parallel OPTICS - 密度聚类算法Spark MLlib上的实现

    Posted by Yong FU on Jan 26, 2015

    我们瀚思安信在分析安全大数据时,常见的分析第一步就是把用户或者行为聚类,找出其中孤立的或者小类,然后作为潜在有问题的用户或者行为进行进一步分析。

    聚类算法是最常见的机器学习算法种类,比如大家都熟悉的K-Means,原理或者实现都很简单。但是在安全大数据分析时,我们期望聚类算法满足额外的一些特性:

    阅读全文

    Elasticsearch Scroll API详解

    Posted by 张书宇、阎麟 on Jan 13, 2015

    今天我们来探讨一下Elasticsearch Scroll API,在这之前我们先回顾一下数据库的知识。

    传统数据库游标:游标(cursor)是系统为用户开设的一个数据缓冲区,存放SQL语句的执行结果。每个游标区都有一个名字,用户可以用SQL语句逐一从游标中获取记录,并赋给主变量,交由主语言进一步处理。就本质而言,游标实际上是一种能从包括多条数据记录的结果集中每次提取一条记录的机制。

    阅读全文

    与Lucene 4.10配合的中文分词比较

    Posted by Justin Wan on Dec 24, 2014

    比较目的:衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。

    分词源代码介绍:paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。

    阅读全文