Portada de Data Engineering with Apache Spark, Delta Lake, and Lakehouse

Data Engineering with Apache Spark, Delta Lake, and Lakehouse

por Martin Kleppmann

Sinopsis

Sé el primero en valorar este libro.

Más de Martin Kleppmann

Ver autor →

Otras obras del mismo autor en el catálogo

Libros similares

Libros relacionados según distintos criterios de búsqueda

Software Engineering at Google

Titus Winters, Tom Manshreck, Hyrum Wright·2020·no ficcion

Aunque no se centra exclusivamente en Apache Spark o Delta Lake, este libro ofrece una perspectiva profunda sobre cómo una organización líder maneja la ingeniería de datos y software a una escala masiva. Proporciona un marco mental para entender las implicaciones operativas y de arquitectura que subyacen a las tecnologías como Spark y Lakehouse, y cómo estos encajan en un ecosistema de desarrollo más amplio de lo que un libro de tecnología típico podría cubrir.

Designing Data-Intensive Applications

Martin Kleppmann·2017·divulgacion

A pesar de que el libro de referencia se enfoca en herramientas específicas (Spark, Delta Lake), este volumen del mismo autor va más allá de las herramientas para desglosar los desafíos fundamentales de diseño en aplicaciones intensivas en datos. Ofrece una base teórica y práctica esencial que, si bien puede parecer 'obvio' para algunos al ser del mismo autor, proporciona un contexto mucho más amplio y fundamental que las herramientas específicas mencionadas en el título del libro de referencia, conectando los 'cómo' con los 'por qué' a un nivel más conceptual y menos ligado a un producto.

The Big Book of Dashboards

Steve Wexler, Jeffrey Shaffer, Andy Cotgreave·2017·no ficcion

Aunque a primera vista 'dashboards' y 'data engineering' parecen mundos aparte, filosóficamente, ambos buscan transformar datos crudos en información útil y actionable. El libro de referencia se enfoca en la ingeniería de la infraestructura para conseguir datos de alta calidad; este libro ahonda en cómo presentar esos datos de alta calidad para que sean realmente significativos. La conexión profunda radica en la búsqueda compartida de un 'single source of truth' y la maximización del valor de los datos, siendo uno el motor y el otro el panel de control.

Flow

Mihaly Csikszentmihalyi·1990·filosofia

El libro de ingeniería de datos trata sobre optimizar sistemas y flujos de trabajo para que sean eficientes y funcionales. 'Flow' profundiza en la mente humana y en cómo la eficiencia y la inmersión impactan la productividad y la satisfacción. La conexión es inesperada: ambos exploran la optimización de flujos – uno de datos y el otro de la cognición humana– para alcanzar un estado óptimo de rendimiento y resultado, sea este un pipeline de datos o una experiencia personal. Es una meditación sobre la eficacia y la inmersión en la complejidad.

Pragmatic Thinking and Learning: Refactor Your Wetware

Andy Hunt·2008·no ficcion

Aunque no es un libro de ingeniería de datos directamente, aborda la 'ingeniería' del propio pensamiento del ingeniero. Este libro es menos conocido en el ámbito de las 'listas de lectura obligatoria' para data engineering, pero ofrece herramientas valiosas para cómo los ingenieros de datos pueden abordar problemas complejos y aprender nuevas tecnologías como Spark o Delta Lake de forma más eficiente. Conecta la práctica de la ingeniería con la ciencia cognitiva, un enfoque raramente discutido.

Data Management in Distributed Systems: Foundations and Approaches for Big Data Technologies and Next-Generation Systems

Piotr Rzasa·2021·no ficcion

Este libro, aunque trata la misma temática de datos distribuidos, es de un autor polaco y su enfoque es más académicamente riguroso y menos centrado en herramientas específicas, lo que lo hace menos visible que las referencias directas a Spark. Ofrece una perspectiva profunda sobre los problemas subyacentes que Spark y Delta Lake buscan resolver, permitiendo una comprensión más matizada de las arquitecturas de estos sistemas desde una base teórica menos occidentalizada y comercial.

Refactoring: Improving the Design of Existing Code

Martin Fowler, Kent Beck, John Brant, William Opdyke, Don Roberts·1999·no ficcion

El libro de referencia habla de construir y optimizar pipelines de datos y arquitecturas Lakehouse. Este libro, seminal en ingeniería de software, se enfoca en la 'ingeniería' o 'refactorización' de estructuras de código. La conexión estructural es directa: ambos tratan de cómo mejorar y evolucionar sistemas complejos de manera incremental y disciplinada. El 'refactoring' de código tiene un paralelismo directo con el 'refactoring' de pipelines de datos y la evolución de esquemas en Delta Lake para mantener la calidad y el rendimiento a lo largo del tiempo.

The Mythical Man-Month: Essays on Software Engineering

Frederick Brooks Jr.·1975·divulgacion

Mientras que el libro de referencia se centra en las herramientas técnicas para la ingeniería de datos, 'The Mythical Man-Month' se enfoca en los desafíos fundamentales de la gestión y estructura de los proyectos de software, incluyendo la organización de equipos, la comunicación y la estimación. La conexión estructural es cómo ambos abordan la construcción de sistemas complejos: uno desde las herramientas y la tecnología (Spark, Delta Lake) y el otro desde la perspectiva de la gestión de proyectos y la organización humana que permite que esas herramientas se implementen y mantengan con éxito.

Ayúdame a que yoleo sea sostenible