Sunday, 7 May 2017

Hadoop Handelssystem


Ich habe ein bisschen ein Problem. Ich möchte über Hadoop lernen und wie ich es nutzen könnte, um Datenströme in Echtzeit zu behandeln. Als solches möchte ich einen aussagekräftigen POC um ihn herum bauen, damit ich es präsentieren kann, wenn ich meine Kenntnis davon vor einem potentiellen Arbeitgeber beweisen muss oder ihn in meiner jetzigen Firma vorstellen muss. Id möchte auch erwähnen, dass ich in Hardware-Ressourcen beschränkt bin. Nur mein Laptop und ich :) Ich kenne die Grundlagen von Hadoop und habe 2-3 grundlegende MR Jobs geschrieben. Ich möchte etwas sinnvolleres oder realer Welt machen. Danke im Voraus. Id gern ein paar Dinge. Wenn du einen POC mit nur einem Laptop machen willst, gibt es wenig Punkt bei der Verwendung von Hadoop. Auch, wie von anderen Leuten gesagt, ist Hadoop nicht für Realtime-Anwendung entworfen, denn es gibt einige Overhead bei der Ausführung von MapReduce Jobs. Das heißt, Cloudera veröffentlichte Impala, die mit dem Hadoop-Ökosystem (speziell der Hive metastore) arbeitet, um Echtzeit-Performance zu erzielen. Seien Sie sich bewusst, dass dies zu erreichen, es nicht generieren MapReduce Jobs, und ist derzeit in der Beta, so verwenden Sie es sorgfältig. Also würde ich wirklich empfehlen, bei Impala zu gehen, also kannst du noch ein Hadoop-Ökosystem benutzen, aber wenn du auch Alternativen in Betracht ziehst, sind hier ein paar andere Frameworks, die von Nutzen sein könnten: Druide. Wurde von MetaMarkets aufgeschlossen. Sieht interessant aus, obwohl ich es selbst nicht benutzt habe. Sturm. Keine Integration mit HDFS, es verarbeitet einfach Daten wie es kommt. HStreaming Integriert mit Hadoop. Yahoo S4 Scheint in der Nähe von Storm. Am Ende denke ich, dass du deine Bedürfnisse wirklich analysieren möchtest und wenn du Hadoop benutzt was du brauchst, weil es nur im Echtzeit-Raum anfängt. Es gibt mehrere andere Projekte, die Ihnen helfen können, Echtzeit-Performance zu erzielen. Wenn Sie Ideen von Projekten präsentieren möchten, schlage ich vor, diesen Link zu betrachten. Sie sind einige Beispiele: FinanceInsurance Klassifizieren Sie Investitionsmöglichkeiten als gut oder nicht z. B. Basierend auf branchenübergreifenden Metriken, Portfolio-Diversity und Währungsrisiken. Klassifizieren Sie Kreditkarten-Transaktionen als gültige oder ungültige, z. B. Ort der Transaktion und Kreditkarteninhaber, Datum, Betrag, Kaufgegenstand oder Dienstleistung, Geschichte der Transaktionen und ähnliche Transaktionen. BiologieMedizin Einreihung von Proteinen in strukturelle oder funktionelle Klassen Diagnostische Klassifizierung, z. B. Krebs-Tumoren basierend auf Bildern Internet-Dokument Klassifizierung und Ranking Malware-Klassifizierung, E-Mailtweetweb Spam-Klassifizierung Produktionssysteme (zB in der Energie - oder Petrochemie) Klassifizierung und Erkennung von Situationen (zB Sweet Spots oder Risikosituationen) basierend auf Echtzeit - und historischen Daten von Sensoren beantwortet Jan 12 13 Um 17:50 Wenn du deine Hände schmutzig auf einem vielversprechenden Streaming-Framework bekommen willst, probier BDAS SPARK Streaming. Achtung, das ist noch nicht freigegeben, aber du kannst in deinem Laptop mit der github Version spielen (githubmesossparktreestreaming) Es gibt viele Samples, um dich zu starten. Auch dies hat viele Vorteile gegenüber bestehenden Frameworks, 1. Es gibt Ihnen die Möglichkeit, Echtzeit-und Batch-Berechnung in einem Stapel 2 zu kombinieren. Es wird Ihnen eine REPL geben, wo Sie Ihre Ad-hoc-Abfragen in einer interaktiven Weise ausprobieren können. 3. Sie können dies in Ihrem Laptop im lokalen Modus ausführen. Es gibt viele andere Vorteile, aber diese drei, glaube ich, wird Ihnen genügen, um loszulegen. Möglicherweise musst du Scala lernen, um die REPL auszuprobieren :-( Ich denke, du kannst ein POC laufen lassen, zum Beispiel ein onlinerecursive Algorithmus für die Regression in mapreduce. Aber denken Sie daran, dass dies nur beweisen wird, dass Ihre Lernregel funktioniert Versuchte dies) können Sie die Ergebnisse in Echtzeit verwenden, indem Sie Ihren Reduzierstücken erzählen, um sie in eine temporäre Datei zu schreiben, die von einem anderen Thread gelesen werden kann. Auch Mahout erlaubt Ihnen, Ihre Datenbank in mehreren verschiedenen SequenceFile s zu setzen. Sie können dies simulieren Ein Online-Stream und classifycluster Ihr Datensatz online. Sie können sogar kopieren Teil der Daten in den Ordner mit den anderen Daten, bevor der Algorithmus begann zu laufen. Madout in Aktion Details, wie dies zu tun. Siehe, wenn einer der folgenden Datensätze zu Ihrem ist Geschmack: archive. ics. uci. edumldatasets. html beantwortet Apr 7 13 um 16:35 Ich suchte so etwas wie dieses - das sind wohldefinierte Probleme, viele von ihnen Big Data Probleme und einige von ihnen erfordern Echtzeitverarbeitung Danke an alle, die antworteten. Antwortete 13. Januar 13 um 13:16 Kaggle ist eine nette Ressource It39s im Bereich der quotPredictive Analyticsquot und nicht unbedingt alle Probleme sind eine gute Passform für Map ReduceHadoopBig Data. Aber ich beleive Mahout (Teil des hadoop Ökosystems) wäre etwas, das ich für relevante Wettbewerbe probieren würde. Ndash parasdoshi Jan 14 13 at 3:11 Vereinbart. Dann was schlägst du vor ndash Kumar Vaibhav Jan 14 13 um 4:47 Ich hatte verwandte Abfrage wie du hatte. Ich wollte auch einen sinnvollen POC erstellen. Ich suchte es und landete bei diesem SO-Faden. Lass mich hoffen, dass jemand uns auf eine Ressource hinweist. Mittlerweile habe ich persönlich das Abspielen mit Samples gemacht: getstarted. hadooponazure ndash parasdoshi Jan 14 13 at 18: 26Ich finde diese Lösungen online, aber es funktioniert nicht für mich. Nach dem Ausführen der Zip - und Jar-Befehle oben bekomme ich noch. Exception in Thread quotmainquot java. io. IOException: Mkdirs nicht zu erstellen varfolders9y4dzrwg8n45z7fbhmlqc7bsgc0000gnThadoop-unjazwnj8203r5690365448328571882zwnj8203license ndash alex9311 Ich lief in dieses gleiche Problem beim Bau MapReduce Jobs auf einem Mac mit MacOS Sierra. Der gleiche Code läuft ohne Probleme auf Ubuntu Linux (14.04 LTS und 16.04 LTS). MapReduce-Verteilung war 2.7.3 und wurde für Single Node, Standalone-Operation konfiguriert. Das Problem scheint mit dem Kopieren von Lizenzdateien in ein METAINF-Verzeichnis verwandt zu sein. Mein Problem wurde durch das Hinzufügen eines Transformators in die Maven Shade Plugin Konfiguration, speziell: ApacheLicenseResourceTransformer gelöst. Hier ist der relevante Abschnitt der POM. xml, der als Teil des ltbuildgt-Abschnitts geht: Beachten Sie, dass ich auch den ManifestResourceTransformer benutze, um die Hauptklasse für den MapReduce Job. Apache Kafka anzugeben. Ein schnelles, skalierbares, fehlertolerantes Messaging-System Apache Kafka ist ein schnelles, skalierbares, langlebiges und fehlertolerantes Publish-Abonnement-Messaging-System. Kafka wird oft anstelle von traditionellen Message Brokern wie JMS und AMQP wegen seiner höheren Durchsatz, Zuverlässigkeit und Replikation verwendet. Kafka arbeitet in Kombination mit Apache Storm, Apache HBase und Apache Spark für Echtzeit-Analyse und Rendering von Streaming-Daten. Kafka kann Geodaten aus einer Flotte von Langstreckenfahrzeugen oder Sensordaten von Heiz - und Kälteanlagen in Bürogebäuden nachrichten. Was auch immer die Branche oder Anwendungsfall, Kafka Broker massive Nachrichtenströme für Low-Latency-Analyse in Enterprise Apache Hadoop. Was Kafka macht Apache Kafka unterstützt eine breite Palette von Anwendungsfällen als Allzweck-Messaging-System für Szenarien, wo hoher Durchsatz, zuverlässige Lieferung und horizontale Skalierbarkeit wichtig sind. Apache Storm und Apache HBase arbeiten beide sehr gut in Kombination mit Kafka. Häufige Anwendungsfälle beinhalten: Stream Processing Website Activity Tracking Metriken Sammlung und Überwachung Log Aggregation Einige der wichtigen Merkmale, die Kafka eine solche attraktive Option für diese Anwendungsfälle machen, sind folgendes: Neueste Entwicklungen Rack-Bewusstsein für erhöhte Resilienz und Verfügbarkeit, so dass Repliken isoliert sind So dass sie garantiert mehrere Racks oder Verfügbarkeitszonen überspannen. Automatisierte Replik-Führer Wahl für die automatisierte, gleichmäßige Verteilung der Führer in einer Cluster-Fähigkeit durch die Erkennung ungleichmäßiger Verteilung mit einigen Brokern, die mehr Daten im Vergleich zu anderen und macht Anpassungen. Message Timestamps, so dass jede Nachricht in Kafka jetzt ein Zeitstempelfeld hat, das die Zeit angibt, zu der die Nachricht erzeugt wurde. SASL-Verbesserungen einschließlich externer Authentifizierungsserver und Unterstützung mehrerer Arten von SASL-Authentifizierung auf einem Server Ambari Ansichten zur Visualisierung von Kafka-operativen Metriken Kafka Security Kafka Sicherheit umfasst mehrere Bedürfnisse 8211 die Notwendigkeit, die Daten zu verschlüsseln, die durch Kafka fließen und verhindern, dass Schurkenvermittler Daten veröffentlichen Kafka, sowie die Möglichkeit, den Zugriff auf bestimmte Themen auf Einzel - oder Gruppenebene zu verwalten. Als Ergebnis werden die neuesten Updates in Kafka die Drahtverschlüsselung über SSL, Kerberos-basierte Authentifizierung und granulare Berechtigungsoptionen über Apache Ranger oder ein anderes steckbares Berechtigungssystem unterstützen. Kafka Tutorials Versuchen Sie diese Tutorials Lernen Sie, die Echtzeit-Daten von Autosensoren mit NiFi aufzunehmen und schicken Sie es an Hadoop. Verwenden Sie Apache Kafka für die Erfassung dieser Daten zwischen NiFi und Storm für Skalierbarkeit und Zuverlässigkeit. Bereitstellung einer Sturmtopologie, die die Daten von Kafka zieht und komplexe Transformationen durchführt, um Geolokalisierungsdaten von Lkws mit Sensordaten von Lkw und Straßen zu kombinieren. Sobald alle Teilprojekte abgeschlossen sind, stellen Sie die Treibermonitor-Demo-Webanwendung bereit, um das Fahrerverhalten, die Vorhersage und die Senkung der Daten in 3 verschiedenen Kartenvisualisierungen zu sehen. Kafka in unserem Blog Kürzlich in den Blog Wir haben gerade unsere hoch besuchte 7-teilige Data-In-Motion Webinar-Serie abgeschlossen. Die letzte Tranche war eine sehr informative Sitzung darüber, wie Apache NiFi, Kafka und Storm zusammenarbeiten. Folien und QampA unten. Sollten Sie noch Fragen haben, empfehlen wir Ihnen, den Data Ingestion amp Streaming Track von Hortonworks Community Connection zu sehen, wo hellip 10. November 2016 Wir haben vor kurzem ein Webinar über die neuesten Features von Hortonworks DataFlow 2.0 Hervorhebung gehostet: die neue Benutzeroberfläche Neue Prozessoren in Apache NiFi Apache NiFi Multi-Tenancy Apache NiFi Null Master Clustering Architektur Apache MiNiFi Eines der ersten Dinge, die Sie vielleicht in Hortonworks DataFlow 2.0 bemerkt haben, ist die neue Benutzeroberfläche auf der Grundlage von Apache hellip 27. Oktober 2016 Wir haben vor kurzem ein Webinar auf gehostet Das Thema HDF 2.0 und die Integration zwischen Apache NiFi, Apache Ambari und Apache Ranger. Wir dachten, wir würden die Fragen amp Antworten aus dem Webinar teilen und auch relevante Daten zu einem einzigen Ort zusammenstellen, um es einfach zu finden und zu verweisen. Sollten Sie irgendwelche hellip haben 17. Oktober 2016 Einer der schönsten Teile meiner Arbeit ist die Arbeit mit Kunden und Partnern, die auf der Hortonworks Connected Data Platform innoviert haben. Unternehmen mögen Servient. Heres ein großartiges echtes Beispiel für einen neuen Anwendungsfall für einen Kunden, den wir zusammen in der Energie vertikal arbeiteten. Ive entfernt den tatsächlichen Namen aus offensichtlichen Gründen. Hellip Wir haben diese Webinar-Serie vor kurzem mit 7 Webinaren und 77 Fragen beantwortet. Alle Webinare, Folien, QampA und verwandte Infos sind unten verfügbar. Sollten Sie noch Fragen haben, empfehlen wir Ihnen, den Data Ingestion amp Streaming Track von Hortonworks Community Connection, wo eine ganze Gemeinschaft von Leuten zu überwachen und hellip 23. September 2016 Mein Leben als Teil eines Hochleistungs-Teams Letzte Woche Wir haben Hortonworks DataFlow HDF 2.0 freigegeben. Es war ein tolles 1-jähriges Jubiläum für mich 8211 ein neues Release des Produkts, das ich seit dem Beitritt zu Hortonworks vor einem Jahr unterstützt habe. Ich habe das Privileg, mit dem talentiertesten, schnelllebigsten, hellip 20. September 2016 Enterprise Produktivität und Integration von Apache NiFi, Kafka und Storm zusammen mit Ambari und Ranger zu arbeiten. Wir freuen uns, Ihnen mitteilen zu können, dass Hortonworks DataFlow (HDF) Version 2.0 Ist jetzt allgemein zum Download verfügbar Im Rahmen eines Open und Connected Data Platforms von Hortonworks bietet HDF 2.0 eine neue Ebene der Unternehmensintegration für Daten hellip 15. September 2016 Streaming Analytics, um eine genaue Einzelkäuferidentität in Echtzeit zu schaffen Und die endgültige Demo der Data Hacks Amp-Demos-Session, bei Hadoop Summit San Jose, wurde von Simon Ball gemacht und es zeigte, wie Apache NiFi parallele Ströme von Streaming-Daten in Spark verwandelte und dann mehr Analyse von hellip durchgeführt werden konnte. IoT verwenden, um real zu werden - Rückmeldung zu Kundenpräferenzen und reagiert auf sie Während der 3. Demo der Data Hacks amp Demos Session, bei Hadoop Summit San Jose, war es Publikum Teilnahme Zeit Kay Lerch demonstriert, wie man mit dem Publikum interagieren, durch spezifische Twitter und SMS-Nachrichten gesendet Zu einer bestimmten Telefonnummer, hellip Hortonworks Dataflow (HDF) bietet eine Kombination Apache NiFI, Kafka und Storm. HDF 2.0 verfügt über umfangreiche Architektur - und Enterprise-Produktivitätsfunktionen, um es schneller und einfacher zu machen, Streaming-Daten zu implementieren, zu verwalten und zu analysieren. In den nächsten Wochen werden wir in weitere Details eingehen, aber für jetzt sind hier die drei Highlights zu beachten, dass hellip Apache NiFi zu priorisieren, welche Bilder an Spark in der Wolke für Computer Vision Maschine Lernen gesendet werden sollte Während der 2. Demo von Die Data Hacks amp Demos Session, bei Hadoop Summit San Jose, Simon Ball demonstriert, wie man Daten von der Kante erhalten und führen Gesichtserkennung auf eine stärkere Wolke hellip Match Bild zu einer Kennung, korrelieren mit Daten und initiieren personalisierte, Echtzeit Elektronischer Konvo mit Kunden im Speicher Während der 1. Demo der Data Hacks Amp-Demos-Session, bei Hadoop Summit San Jose, modellierte Jeremy Dyer das Szenario eines Kunden, der in einen Laden ging, wo ein Einzelhändler herausfinden kann, wer sie hellip So, seins gewesen ist Einen Monat seit dem Hadoop Summit San Jose, wo über 5000 der führenden Tech-Innovatoren in großen Daten zusammenkamen, um ihre Erfindungen, Weisheit und Know-how zu teilen. Einer der Sitzungen 8211 war eine Powerpoint-freie Zone, war Data Hacks amp Demos, eine Keynote-Sitzung, die von Joe Witt gehostet wurde und mit einem internationalen Höllenkopf In Vorbereitung auf den Hadoop Summit San Jose, fragte ich den Chair für den Apache Committer Insights Track, Andy Feng 8211 VP Architektur, Yahoo, die die Top 3 Sessions, die er empfehlen würde. Obwohl es schwierig war, nur 3 zu wählen, empfahl er: HDFS: Optimierung, Stabilisierung und Supportbarkeit Sprecher: Chris Nauroth von Hortonworks und Arpit Agarwal hellip Apache Hadoop existiert in einem breiteren Ökosystem von Unternehmensanalytikpaketen. Dazu gehören ETL-Tools, ERP - und CRM-Systeme, Enterprise Data Warehouses, Data Marts und andere. Moderne Arbeitsbelastungen fließen aus diesen verschiedenen traditionellen analytischen Quellen in Hadoop und kommen dann oft wieder zurück. Welcher Dataset kam aus welchem ​​System, wann und wie hat es sich geändert hellip Einleitung Konfluent freut sich, den Eröffnungs-Kafka-Gipfel 2016 bekannt zu geben, der am 26. April in San Francisco stattfindet. Der Eröffnungs-Kafka-Gipfel ist eine Ganztagskonferenz, die den Apache zusammenbringt Kafka Gemeinschaft. Bei Hortonworks, da wir uns verpflichtet haben, Daten-in-Bewegung und Daten-in-Rest komplett im Freien zu machen, setzen wir fort, hellip vorzustellen Wir haben Hortonworks Community Connection Ende 2015 begonnen, und es gibt einige erstaunliche Inhalte, die alle Daten Entwickler oder Datenadministrator lesen und bookmarken. Ich werde diesen Blog wöchentlich veröffentlichen und die Top-technischen Artikel hervorheben, die auf HCC basieren, basierend auf Community-Aktivitäten und Stimmen. Top 3 Artikel auf der Seite: Beispiel hellip 16. Februar 2016 Unser Geschäft in Europa expandiert weiter und I8217m freut sich, diesen Gast-Blog-Post von Geoff Cleaves, Business Intelligence Manager bei Billy Mobile, einem neuen Hortonworks-Kunden in Barcelona, ​​Spanien, zu teilen. Diese Woche bei Billy Mobile migrieren wir unseren Kerntechnologie-Stack auf HDP 2.3 und Junge freuen uns auf den Höllenschein 19. November 2015 Als YARN die Hadoops als geschäftskritische Datenplattform aufgreift, benötigt das Unternehmen strengere Datensicherheitsmöglichkeiten. Der Apache Ranger bietet einen umfassenden Sicherheitsansatz für einen Hadoop-Cluster. Es bietet eine Plattform für die zentrale Sicherheitspolitik Verwaltung über die Kern-Enterprise-Sicherheitsanforderungen der Autorisierung, Audit und Datenschutz. Am 10. Juni, hellip Letzte Woche hat die Apache Slider Community Apache Slider 0.80.0 veröffentlicht. Obwohl es in Slider 0.80.0 viele neue Features gibt, sind einige Neuerungen besonders bemerkenswert: Containerisierte Applikation Onboarding Nahtlose NULL-Downtime Applikations-Upgrade Hinzufügen von Co-Prozessoren zu App-Paketen ohne Neuinstallation Vereinfachte Applikation Onboarding ohne Verpackungsanforderung Im Folgenden finden Sie einige Details zu diesen wichtigen Eigenschaften. Für den Höllenpunkt haben wir am 4. März in unserem Hortonworks Santa Clara-Büro einen Apache Slider Meetup veranstaltet, in dem sich Vermittler, Mitwirkende und Community-Mitglieder interessierten, die sich für den Apache Slider interessierten, um zu hören, was8217s passiert. Es waren zwei Moderatoren. Um den Kontext für das Publikum zu setzen, hat Steve Loughran, Mitglied des technischen Personals bei Hortonworks, einen extemporanten High-Level-Überblick geliefert. Hellip Hortonworks Data Platforms YARN-basierte Architektur ermöglicht es mehreren Anwendungen, einen gemeinsamen Cluster und Datensatz zu teilen, während ein gleichbleibendes Ansprechverhalten gewährleistet ist Möglich durch eine zentrale architektur möglich Hortonworks führte die Bemühungen um On-Board-Open-Source-Datenverarbeitungs-Engines wie Apache Hive, HBase, Accumulo, Spark, Storm und andere auf Apache Hadoop YARN. In dieser Hölle am 12. Februar 2015 Webinars Presentations View Vergangene Webinare Wenn HP Lovecraft über verbotene Kenntnisse über nicht-menschliche Gottheiten, Wissen, die den Leser zu Wahnsinn reduzieren schrieb, die meisten Menschen davon ausgegangen, dass er eine Fantasy-Welt war. In der Tat dokumentiert er Kerberos und seine Hadoop-Integration. Es gibt einige Dinge, die die Menschheit nicht verstehen sollte. Die meisten Menschen sind besser als leben hellip Es ist immer deutlicher, dass Unternehmen den vollen potenziellen Wert ihres Datenvermögens realisieren können, indem sie die strukturierten Transaktionsdaten mit halbstrukturierten und unstrukturierten Daten kombinieren. Unternehmen bemerken auch, dass sie agil sind und auf Situationen in Echtzeit reagieren, der Zugang zu Transaktionsdaten mit geringer Latenz ist unerlässlich. Low-Latency-Transaktionsdaten bringen zusätzliche Hellip Hortonworks Data Platform 2.2 mit Apache Storm und Apache Kafka für die Verarbeitung von Stream Daten in Hadoop. Jetzt läuft Storm auf YARN mit Apache Slider und es enthält Kerberos Unterstützung. Der neue Apache Kafka Bolt für Storm unterstützt die anspruchsvolle Verkettung für die Echtzeitanalyse. Begleiten Sie Hortonworks Vice President Produktmanagement Tim Hall und Taylor Goetz, hellip

No comments:

Post a Comment