Need to move a relational database application to Hadoop? This comprehensive guide introduces you to Apache Hive, Hadoop’s data warehouse infrastructure. You’ll quickly learn how to use Hive’s SQL dialect—HiveQL—to summarize, query, and analyze large datasets stored in Hadoop’s distributed filesystem. This example-driven guide shows you how to set up and configure Hive in your environment, provides a detailed overview of Hadoop and MapReduce, and demonstrates how Hive works within the Hadoop ecosystem. You’ll also find real-world case studies that describe how companies have used Hive to solve unique problems involving petabytes of data. Use Hive to create, alter, and drop databases, tables, views, functions, and indexes Customize data formats and storage options, from files to external databases Load and extract data from tables—and use queries, grouping, filtering, joining, and other conventional query methods Gain best practices for creating user defined functions (UDFs) Learn Hive patterns you should use and anti-patterns you should avoid Integrate Hive with other data processing programs Use storage handlers for NoSQL databases and other datastores Learn the pros and cons of running Hive on Amazon’s Elastic MapReduce
Sie ist elegant, schlank, modern und flexibel: Die Rede ist von Scala, der neuen Programmiersprache für die Java Virtual Machine (JVM). Sie vereint die Vorzüge funktionaler und objektorientierter Programmierung, ist typsicherer als Java, lässt sich nahtlos in die Java-Welt integrieren – und eine in Scala entwickelte Anwendung benötigt oft nur einen Bruchteil der Codezeilen ihres Java-Pendants. Kein Wunder, dass immer mehr Firmen, deren große, geschäftskritische Anwendungen auf Java basieren, auf Scala umsteigen, um ihre Produktivität und die Skalierbarkeit ihrer Software zu erhöhen. Das wollen Sie auch? Dann lassen Sie sich von den Scala-Profis Dean Wampler und Alex Payne zeigen, wie es geht. Ihre Werkzeugkiste: Schon bevor Sie loslegen, sind Sie weiter, als Sie denken: Sie können Ihre Java-Programme weiter verwenden, Java-Bibliotheken nutzen, Java von Scala aus aufrufen und Scala von Java aus. Auch Ihre bevorzugten Entwicklungswerkzeuge wie NetBeans, IntelliJ IDEA oder Eclipse stehen Ihnen weiter zur Verfügung, dazu Kommandozeilen-Tools, Plugins für Editoren, Werkzeuge von Drittanbietern – und natürlich Ihre Programmiererfahrung. In Programmieren mit Scala erfahren Sie, wie Sie sich all das zunutze machen. Das Hybridmodell: Die Paradigmen "funktional" und "objektorientiert" sind keine Gegensätze, sondern ergänzen sich unter dem Scala-Dach zu einem sehr produktiven Ganzen. Nutzen Sie die Vorteile funktionaler Programmierung, wann immer sich das anbietet – und seien Sie so frei, auf die guten alten Seiteneffekte zu bauen, wenn Sie das für nötig halten. Futter für die Profis: Skalierbare Nebenläufigkeit mit Aktoren, Aufzucht und Pflege von XML mit Scala, Domainspezifische Sprachen, Tipps zum richtigen Anwendungsdesign – das sind nur ein paar der fortgeschrittenen Themen, in die Sie mit den beiden Autoren eintauchen. Danach sind Sie auch Profi im Programmieren mit Scala.
In order to carry out data analytics, we need powerful and flexible computing software. However the software available for data analytics is often proprietary and can be expensive. This book reviews Apache tools, which are open source and easy to use. After providing an overview of the background of data analytics, covering the different types of analysis and the basics of using Hadoop as a tool, it focuses on different Hadoop ecosystem tools, like Apache Flume, Apache Spark, Apache Storm, Apache Hive, R, and Python, which can be used for different types of analysis. It then examines the different machine learning techniques that are useful for data analytics, and how to visualize data with different graphs and charts. Presenting data analytics from a practice-oriented viewpoint, the book discusses useful tools and approaches for data analytics, supported by concrete code examples. The book is a valuable reference resource for graduate students and professionals in related fields, and is also of interest to general readers with an understanding of data analytics.
The digital age has presented an exponential growth in the amount of data available to individuals looking to draw conclusions based on given or collected information across industries. Challenges associated with the analysis, security, sharing, storage, and visualization of large and complex data sets continue to plague data scientists and analysts alike as traditional data processing applications struggle to adequately manage big data. The Handbook of Research on Big Data Storage and Visualization Techniques is a critical scholarly resource that explores big data analytics and technologies and their role in developing a broad understanding of issues pertaining to the use of big data in multidisciplinary fields. Featuring coverage on a broad range of topics, such as architecture patterns, programing systems, and computational energy, this publication is geared towards professionals, researchers, and students seeking current research and application topics on the subject.
Ob Kaufverhalten, Grippewellen oder welche Farbe am ehesten verrät, ob ein Gebrauchtwagen in einem guten Zustand ist – noch nie gab es eine solche Menge an Daten und noch nie bot sich die Chance, durch Recherche und Kombination in der Daten¬flut blitzschnell Zusammenhänge zu entschlüsseln. Big Data bedeutet nichts weniger als eine Revolution für Gesellschaft, Wirtschaft und Politik. Es wird die Weise, wie wir über Gesundheit, Erziehung, Innovation und vieles mehr denken, völlig umkrempeln. Und Vorhersagen möglich machen, die bisher undenkbar waren. Die Experten Viktor Mayer-Schönberger und Kenneth Cukier beschreiben in ihrem Buch, was Big Data ist, welche Möglichkeiten sich eröffnen, vor welchen Umwälzungen wir alle stehen – und verschweigen auch die dunkle Seite wie das Ausspähen von persönlichen Daten und den drohenden Verlust der Privatsphäre nicht.
Ready to unlock the power of your data? With this comprehensive guide, you’ll learn how to build and maintain reliable, scalable, distributed systems with Apache Hadoop. This book is ideal for programmers looking to analyze datasets of any size, and for administrators who want to set up and run Hadoop clusters. You’ll find illuminating case studies that demonstrate how Hadoop is used to solve specific problems. This third edition covers recent changes to Hadoop, including material on the new MapReduce API, as well as MapReduce 2 and its more flexible execution model (YARN). Store large datasets with the Hadoop Distributed File System (HDFS) Run distributed computations with MapReduce Use Hadoop’s data and I/O building blocks for compression, data integrity, serialization (including Avro), and persistence Discover common pitfalls and advanced features for writing real-world MapReduce programs Design, build, and administer a dedicated Hadoop cluster—or run Hadoop in the cloud Load data from relational databases into HDFS, using Sqoop Perform large-scale data processing with the Pig query language Analyze datasets with Hive, Hadoop’s data warehousing system Take advantage of HBase for structured and semi-structured data, and ZooKeeper for building distributed systems
Sie möchten die Schlüsselspezifikationen der Java EE 6-Plattform schnell und unkompliziert kennenlernen? Dann ist dieses Taschenbuch genau das Richtige für Sie. Es bietet einen Überblick über die wichtigsten Technologien, die auf der Plattform eingesetzt werden, sowie leicht verständliche Codebeispiele, die Ihnen demonstrieren, wie Java EE 6 die Entwicklung von Web- und Enterprise-Anwendungen drastisch vereinfacht. - Verstehen, wie die Java EE 6-Features mit Design Patterns in Web- und Enterprise-Anwendungen zusammenhängen - Die nötigen Spezifikationen finden, um die eigene Anwendung Java EE-fähig zu machen - Neuerungen bei Enterprise JavaBeans (EJB), JavaServer Faces (JSF) und anderen Komponenten kennenlernen - Java EE 6-Web Profile entdecken, die den früheren "One Size Fits All"-Ansatz ersetzen - Die Contexts and Dependancy Interjection (CDI) und die Java API für RESTful Webservices einsetzen - Die Java EE-Entwicklung mit Netbeans und GlassFish starten
Romanhaft ausgeschmückte Geschichte der Gründung und Entwicklung des sozialen Netzwerks äFacebookä. Hauptperson: der mehrfache Milliardär Mark Zuckerberg.
Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen.Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar.Aus dem Inhalt:Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative ComputingLernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennenSetzen Sie die Datenanalyse-Tools der pandasBibliothek einVerwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von DatenErstellen Sie interformative Visualisierungen mit matplotlibWenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassenAnalysieren und manipulieren Sie verschiedenste Zeitreihen-DatenFür diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.
BIG DATA IN DER PRAXIS // - Für Analysten, BI-Verantwortliche, Data-Scientists, Consultants - Auf der DVD finden Sie: 18 fertige Projekte, die im Buch Schritt für Schritt entwickelt werden; Videotutorials u.a. zur Installation von Hadoop, Hive, HBase (Gesamtdauer: 80 Min.); Testdatensätze für die Wissensdatenbank Dieses Buch bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und bekommen aufgezeigt, wie Sie bestehende Systeme vorausschauend auf die mit dem Big Data-Trend einhergehenden Herausforderungen vorbereiten. Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu behandeln. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung. Gemeinsam mit dem Autor werden Sie ganz konkret Schritt für Schritt viele kleinere Projekte aufbauen bis hin zu einer fertigen und funktionstüchtigen Implementierung. Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen. AUS DEM INHALT // Einführung rund um Big Data // Hadoop installieren, konfigurieren & bedienen // HDFS, Map-Reduce & YARN: Daten speichern und verarbeiten // Hadoop-Ecosystem: Überblick über dessen Komponenten // Einführung in NoSQL // HBase installieren, einrichten & auf Daten zugreifen // Data-Warehousing mit Apache Hive // HiveQL als Abfragesprache, Hive Security, Hive & JDBC // Datenimport aus relationalen Datenbanken mit Sqoop // Big Data-Visualisierung: Diagrammarten, Tipps & Trends // Visualisierungs-Frameworks im Vergleich // D3.js: Entwicklung einiger Beispieldiagramme // Entwicklung einer abschließenden Big Data-Analyse-Lösung // Troubleshooting für die Arbeit mit Hadoop, Hive & HBase
Einführungen in MySQL gibt es viele. Wer aber größere MySQL-Server betreut, die verlässlich laufen müssen, egal was Programmierer oder Benutzer auf sie loslassen, der braucht weiter reichende Informationen. In High Performance MySQL beschreiben sechs anerkannte Experten mit langjähriger Erfahrung auf großen Systemen alle Stellschrauben, an denen MySQL-Admins drehen können, um Sicherheit, Performance, Datenintegrität und Robustheit zu erhöhen. Von Profis für Profis Hier geht es nicht um kleine Webauftritte mit Datenbankanbindung! Lernen Sie stattdessen fortgeschrittene Techniken kennen, mit denen Sie MySQLs Potenzial voll ausreizen können -- um große, skalierbare Systeme zu entwerfen, zu optimieren und zu sichern. Behandelt werden Benchmarking, Indizes, Storage-Engines, Replikationen, Lastverteilung und Hochverfügbarkeit, Backups, Sicherheit... und zu jedem Aspekt die richtigen Werkzeuge, mit denen sich Ihre Ziele am besten realisieren lassen. Praxiserprobt muss es sein Der eine ist MySQL-Guru bei Yahoo!, der andere Angestellter Nr. 25 bei MySQL AB und dort nacheinander für das MySQL-Manual, die Trainingskurse und die Entwicklung des Supports zuständig, wieder ein anderer war bei MySQL AB im High-Performance-Team – die Autoren dieses Buchs wissen, wovon sie sprechen. Graue Theorie finden Sie woanders, hier geht es um bewährte Techniken aus der Praxis. Die erste Auflage von „High Performance MySQL“ wurde hoch gelobt und hat schon unzähligen Lesern wertvolle Dienste geleistet. Nun war es an der Zeit, dieses anerkannte Handbuch einmal komplett zu aktualisieren, um nützliches Referenzmaterial zu erweitern, neue Features der Versionen MySQL 5.0 und 5.1 zu ergänzen und zahlreiche Themen wie die Optimierung der Storage-Engine InnoDB zu vertiefen.
This book introduces you to the Big Data processing techniques addressing but not limited to various BI (business intelligence) requirements, such as reporting, batch analytics, online analytical processing (OLAP), data mining and Warehousing, and predictive analytics. The book has been written on IBMs Platform of Hadoop framework. IBM Infosphere BigInsight has the highest amount of tutorial matter available free of cost on Internet which makes it easy to acquire proficiency in this technique. This therefore becomes highly vunerable coaching materials in easy to learn steps. The book optimally provides the courseware as per MCA and M. Tech Level Syllabi of most of the Universities. All components of big Data Platform like Jaql, Hive Pig, Sqoop, Flume , Hadoop Streaming, Oozie: HBase, HDFS, FlumeNG, Whirr, Cloudera, Fuse , Zookeeper and Mahout: Machine learning for Hadoop has been discussed in sufficient Detail with hands on Exercises on each.
Zuverlässige Vorhersagen sind doch möglich! Nate Silver ist der heimliche Gewinner der amerikanischen Präsidentschaftswahlen 2012: ein begnadeter Statistiker, als »Prognose-Popstar« und »Wundernerd« weltberühmt geworden. Er hat die Wahlergebnisse aller 50 amerikanischen Bundesstaaten absolut exakt vorausgesagt – doch damit nicht genug: Jetzt zeigt Nate Silver, wie seine Prognosen in Zukunft Terroranschläge, Umweltkatastrophen und Finanzkrisen verhindern sollen. Gelingt ihm die Abschaffung des Zufalls? Warum werden Wettervorhersagen immer besser, während die Terrorattacken vom 11.09.2001 niemand kommen sah? Warum erkennen Ökonomen eine globale Finanzkrise nicht einmal dann, wenn diese bereits begonnen hat? Das Problem ist nicht der Mangel an Informationen, sondern dass wir die verfügbaren Daten nicht richtig deuten. Zuverlässige Prognosen aber würden uns helfen, Zufälle und Ungewissheiten abzuwehren und unser Schicksal selbst zu bestimmen. Nate Silver zeigt, dass und wie das geht. Erstmals wendet er seine Wahrscheinlichkeitsrechnung nicht nur auf Wahlprognosen an, sondern auf die großen Probleme unserer Zeit: die Finanzmärkte, Ratingagenturen, Epidemien, Erdbeben, den Klimawandel, den Terrorismus. In all diesen Fällen gibt es zahlreiche Prognosen von Experten, die er überprüft – und erklärt, warum sie meist falsch sind. Gleichzeitig schildert er, wie es gelingen kann, im Rauschen der Daten die wesentlichen Informationen herauszufiltern. Ein unterhaltsamer und spannender Augenöffner!
This book constitutes the refereed workshop proceedings of the 16th International Conference on Algorithms and Architectures for Parallel Processing, ICA3PP 2016, held in Granada, Spain, in December 2016. The 30 full papers presented were carefully reviewed and selected from 58 submissions. They cover many dimensions of parallel algorithms and architectures, encompassing fundamental theoretical approaches, practical experimental projects, and commercial components and systems trying to push beyond the limits of existing technologies, including experimental efforts, innovative systems, and investigations that identify weaknesses in existing parallel processing technology.
The PMBOK(R) Guide - Sixth Edition - PMI's flagship publication has been updated to reflect the latest good practices in project management. New to the Sixth Edition, each knowledge area will contain a section entitled Approaches for Agile, Iterative and Adaptive Environments, describing how these practices integrate in project settings. It will also contain more emphasis on strategic and business knowledge--including discussion of project management business documents--and information on the PMI Talent Triangle(TM) and the essential skills for success in today's market.
Let Hadoop For Dummies help harness the power of your data and rein in the information overload Big data has become big business, and companies and organizations of all sizes are struggling to find ways to retrieve valuable information from their massive data sets with becoming overwhelmed. Enter Hadoop and this easy-to-understand For Dummies guide. Hadoop For Dummies helps readers understand the value of big data, make a business case for using Hadoop, navigate the Hadoop ecosystem, and build and manage Hadoop applications and clusters. Explains the origins of Hadoop, its economic benefits, and its functionality and practical applications Helps you find your way around the Hadoop ecosystem, program MapReduce, utilize design patterns, and get your Hadoop cluster up and running quickly and easily Details how to use Hadoop applications for data mining, web analytics and personalization, large-scale text processing, data science, and problem-solving Shows you how to improve the value of your Hadoop cluster, maximize your investment in Hadoop, and avoid common pitfalls when building your Hadoop cluster From programmers challenged with building and maintaining affordable, scaleable data systems to administrators who must deal with huge volumes of information effectively and efficiently, this how-to has something to help you with Hadoop.
Doug Cutting hatte das Problem, das Internet (alles HTML) herunterzuladen und zu speichern. Was vor zehn Jahren schon eine Herausforderung war, ist heute, bei exponentiellem Anwachsen der Datenmenge, nicht einfacher. Es wurde Cutting schnell klar, dass die klassische Batch-Verarbeitung hier nicht ausreicht. Dann stieß er im Internet auf die Lösung: MapReduce. MapReduce beschreibt eine verteilte Ablaufumgebung, die grob gesagt in zwei Schritten aus Inputdaten neue Daten generiert. Cutting implementierte MapReduce Mitte des vergangenen Jahrzehnts als Open Source in Java und nannte das Projekt Hadoop. Eine Einführung in MapReduce, Hadoop und die Hadoop-Datenbank Apache-HBase sind die Kernthemen dieses shortcuts der Big-Data-Experten Bernd Fondermann, Kai Spichaale und Lars George.
Der "Cormen" bietet eine umfassende und vielseitige Einführung in das moderne Studium von Algorithmen. Es stellt viele Algorithmen Schritt für Schritt vor, behandelt sie detailliert und macht deren Entwurf und deren Analyse allen Leserschichten zugänglich. Sorgfältige Erklärungen zur notwendigen Mathematik helfen, die Analyse der Algorithmen zu verstehen. Den Autoren ist es dabei geglückt, Erklärungen elementar zu halten, ohne auf Tiefe oder mathematische Exaktheit zu verzichten. Jedes der weitgehend eigenständig gestalteten Kapitel stellt einen Algorithmus, eine Entwurfstechnik, ein Anwendungsgebiet oder ein verwandtes Thema vor. Algorithmen werden beschrieben und in Pseudocode entworfen, der für jeden lesbar sein sollte, der schon selbst ein wenig programmiert hat. Zahlreiche Abbildungen verdeutlichen, wie die Algorithmen arbeiten. Ebenfalls angesprochen werden Belange der Implementierung und andere technische Fragen, wobei, da Effizienz als Entwurfskriterium betont wird, die Ausführungen eine sorgfältige Analyse der Laufzeiten der Programme mit ein schließen. Über 1000 Übungen und Problemstellungen und ein umfangreiches Quellen- und Literaturverzeichnis komplettieren das Lehrbuch, dass durch das ganze Studium, aber auch noch danach als mathematisches Nachschlagewerk oder als technisches Handbuch nützlich ist. Für die dritte Auflage wurde das gesamte Buch aktualisiert. Die Änderungen sind vielfältig und umfassen insbesondere neue Kapitel, überarbeiteten Pseudocode, didaktische Verbesserungen und einen lebhafteren Schreibstil. So wurden etwa - neue Kapitel zu van-Emde-Boas-Bäume und mehrfädigen (engl.: multithreaded) Algorithmen aufgenommen, - das Kapitel zu Rekursionsgleichungen überarbeitet, sodass es nunmehr die Teile-und-Beherrsche-Methode besser abdeckt, - die Betrachtungen zu dynamischer Programmierung und Greedy-Algorithmen überarbeitet; Memoisation und der Begriff des Teilproblem-Graphen als eine Möglichkeit, die Laufzeit eines auf dynamischer Programmierung beruhender Algorithmus zu verstehen, werden eingeführt. - 100 neue Übungsaufgaben und 28 neue Problemstellungen ergänzt. Umfangreiches Dozentenmaterial (auf englisch) ist über die Website des US-Verlags verfügbar.

Best Books