提高Elasticsearch数据录入速度的一些技巧

摘要：工作中，经常会遇到讲一些json数据录入到Elasticsearch中，时间久了，总结了一些技巧来提高录入速度：1. 使用Elasticsearch的Bulk API可以显著提高数据录入的速度。Bulk AP...

工作中，经常会遇到讲一些json数据录入到Elasticsearch中，时间久了，总结了一些技巧来提高录入速度：

1. 使用Elasticsearch的Bulk API可以显著提高数据录入的速度。Bulk API允许您一次性发送大量的操作（索引、更新、删除），而不是逐个发送请求。这样可以减少网络开销和提高效率。

2. 将数据分成多个批次，并使用多个线程或进程同时向Elasticsearch发送请求，这样可以加快数据录入的速度。

3. 可以调整索引的副本数，临时将索引的副本数改成0，快速录入完后，再将其改成1或其他值。

4. 可以关闭索引的自动刷新功能，待数据导入完成后再手动执行一次刷新操作。关闭自动刷新可以减少磁盘IO开销，提高数据导入速度。

5. 如果您的数据源是日志文件等结构化数据，可以考虑使用Elasticsearch的官方数据处理工具Logstash。

6. 在录入数据之前，确保您的索引Mapping设置合理。避免频繁的Mapping更改可以提高数据录入的效率。

7. 如果可能的话，考虑优化硬件配置，例如使用更快的硬盘、增加节点数量等，以提高Elasticsearch的整体性能。

以上比较容易被忽略的点是第三、第四点：

关闭索引自动刷新：

PUT /your_index/_settings
{
  "index" : {
    "refresh_interval" : "-1"
  }
}

当您手动执行一次索引刷新操作后，索引的自动刷新并不会自动开启。关闭索引的自动刷新是一个持久性设置，一旦您将refresh_interval参数设置为-1，直到您再次手动修改设置为其他值或重新启用自动刷新，索引都会保持关闭状态。

因此，如果您手动执行了一次索引刷新操作后，索引的自动刷新仍然会保持关闭状态，直到您明确地再次设置refresh_interval参数为一个有效的值，才会重新启用索引的自动刷新功能。

开启索引自动刷新：

PUT /your_index/_settings
{
  "settings": {
    "index.refresh_interval": "1s"
  }
}

手动刷新索引：

POST /<your_index_name>/_refresh

刷新（Refresh）：

刷新是指将索引中的最近索引的文档（即已经被索引但尚未刷新到 Lucene 索引中）使之可搜索的过程。在Elasticsearch中，新添加的文档首先会被索引到内存中的倒排索引中，然后通过刷新操作将这些变更应用到磁盘上的 Lucene 索引中，使之对搜索可见。

刷新操作是实时的，可以通过设置refresh_interval参数控制自动刷新的频率，或者手动执行刷新操作来立即使变更生效。

刷新（Flush）：

刷新是将内存中的索引数据写入磁盘的过程。当执行刷新操作时，Elasticsearch会将内存中的索引数据写入磁盘，确保数据持久化，同时清空内存中的索引缓存。

刷新操作是为了确保数据的持久性，防止数据丢失。在Elasticsearch中，刷新操作是比较耗费资源的，因为需要将数据写入磁盘。

总的来说，刷新（Refresh）是使最近索引的文档可搜索，而刷新（Flush）是将内存中的索引数据写入磁盘。两者都是确保数据的一致性和可搜索性的重要操作，但针对的对象和操作层面略有不同。

PUT /your_index/_settings
{
  "number_of_replicas": 0
}

完成数据录入后，您可以再次将副本数设置为1或更高，以确保数据的冗余性和可用性。

PUT /your_index/_settings
{
  "number_of_replicas": 1
}