大数据知识点总结(11)

2018-07-21总结

  42、DataFrame 特性

  1、支持从KB到PB级的数据量

  2、支持多种数据格式和多种存储系统

  3、通过Catalyst优化器进行先进的优化生成代码

  4、通过Spark无缝集成主流大数据工具与基础设施

  5、API支持Python、Java、Scala和R语言

  43、Scala的好处:

  1、面向对象和函数式编程理念加入到静态类型语言中的混合体

  2、Scala的兼容性----能够与Java库无缝的交互

  3、Scala的简洁性----高效,更不容易犯错

  4、Scala的高级抽象

  5、Scala是静态类型----类型推断

  6、Scala是可扩展的语言

  44、搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

  45、Lucene是一个高性能、可伸缩的信息搜索库,即它不是一个完整的全文检索引擎,而是一个全检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。

  46、Elasticsearch是一个高可扩展的、开源的全文本搜索和分析工具。它允许你以近实时的方式快速存储、搜索、分析大容量的数据。

  Elasticsearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

  47、ElasticSearch 有4种方式来构建数据库,

  最简单的方法是使用indexAPI,将一个Document发送到特定的index,一般通过curltools实现。

  第二第三种方法是通过bulkAPI和UDPbulkAPI。两者的区别仅在于连接方式。

上一篇:恒成立与存在性问题方法总结下一篇:高一数学学生总结小论文