Im Kontext von Apache Spark war "SQLContext" ein Einstiegspunkt für die Arbeit mit strukturierten Daten unter Verwendung von SQL -Abfragen. Es erlaubte dir:
* Datenfehler erstellen: Der Hauptzweck bestand darin, Datenrahmen aus verschiedenen Datenquellen zu erstellen (wie CSV -Dateien, JSON -Dateien, Hive -Tabellen usw.). Datenrahmen sind strukturierte Sammlungen von Daten, die in benannten Spalten organisiert sind.
* SQL -Abfragen ausführen: Sie können SQL -Abfragen direkt gegen DataFrames ausführen, die als temporäre oder persistente Tabellen innerhalb der Spark SQL -Engine registriert sind.
* Zugriff auf Spark SQL -Funktionalität: Es ermöglichte Zugriff auf die verschiedenen Funktionen der Spark SQL-Engine wie Datenumwandlungen, Aggregationen und andere SQL-ähnliche Operationen.
jedoch ist `sqlcontext` veraltet. Es wurde in späteren Versionen von Spark durch "SparkSession" ersetzt. "Sparkssession" kombiniert die Funktionen von "SQLContext", "HiveContext" und "StreamingContext" in einen einzigen Einstiegspunkt und bietet einen einheitlicheren und optimierteren Ansatz für die Arbeit mit Spark.
Wenn Sie im älteren Spark -Code auf "sqlcontext" begegnen, sollten Sie im Wesentlichen auf "SparkSession" migrieren. Sie dienen dem gleichen grundlegenden Zweck, aber "SparkSession" ist der empfohlene und unterstützte Ansatz bei der Entwicklung moderner Funken. Beide interagieren letztendlich mit dem Spark SQL -Engine, aber "SparkSession" bietet ein integrierteres Erlebnis.