Книга описывает алгоритмы добычи данных, которые могут быть применены к очень большим наборам данных. Рассматриваются технология MapReduce, алгоритмы хэширования, потоковая обработка данных, PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и анализе текстов.