24. Juni 2015

REST-Enabling einer Tabelle in fünf Minuten - mit ORDS 3.0

In diesem Blog Posting möchte ich mich den Oracle Rest Data Services (ORDS) widmen. ORDS hat seine Ursprünge im APEX Listener, dem javabasierten Webserver für Application Express. Dieser wurde Stück für Stück um Funktionen zum Bereitstellen von REST-Webservices erweitert - und in diesem Zusammenhang wurde der Name von "APEX Listener" auf "Oracle Rest Data Services geändert". ORDS bietet folgende Funktionen an.
  • Webserver für Application Express
  • REST-Endpoint für relationale Tabellen und Views
  • REST-Endpoint für PL/SQL Funktionen, Prozeduren und anonyme Blöcke
  • REST-Endpoint für die JSON-Funktionen in der Oracle Datenbank 12c (SODA)
  • REST-Endpoint für die Oracle NoSQL DB
Man sieht, dass der Namenswechsel hin zum Thema "REST" absolut gerechtfertigt ist; "APEX Listener" würde den Möglichkeiten nicht wirklich gerecht werden. Im ersten Blog-Posting zu ORDS möchte ich den zweiten Punkt herausgreifen: ORDS bietet wirklich sehr schöne Möglichkeiten an, mit sehr wenig Aufwand REST-Endpoints für Tabellen und Views in einem Datenbankschema bereitzustellen.
Ladet euch ORDS zunächst herunter und packt das ZIP-Archiv aus. Haltet euch Verbindungdaten zur Datenbank, mit der Ihr arbeiten möchtet bereit - Ihr müsst euch als SYS anmelden. Für das heutige Blog Posting muss es nicht zwingend eine 12c-Datenbank sein, eine 11g tut es auch. Nach dem Herunterladen und Auspacken solltet Ihr einen Ordner mit folgenden Dateien haben.
O:\>dir
 Volume in drive O is Data
 Volume Serial Number is 5054-5D26

 Directory of O:\

24.06.2015  15:34    <DIR>          .
24.06.2015  15:34    <DIR>          ..
24.06.2015  15:15    <DIR>          docs
24.06.2015  15:15    <DIR>          examples
12.05.2015  17:04        46.105.880 ords.war
01.05.2015  10:28            23.806 readme.html
               2 File(s)     46.129.686 bytes
               4 Dir(s)  195.599.679.488 bytes free
Nun geht es daran, ORDS erstmalig zu starten - ORDS wird dabei ein Metadaten-Schema in die Datenbank installieren, denn die Definitionen der REST-Services werden in der Datenbank gespeichert. Startet die Installation also mit java -jar ords.war install. Der Installer fragt euch nun nach den Angaben zur Datenbank, also Hostnamen, Listener Port, Service Name und schließlich auch das DBA-Password - das wird zur Installation des Metadaten-Schemas gebraucht.
O:\>java -jar ords.war install
Enter the name of the database server [localhost]:sccloud034
Enter the database listen port [1521]:1521
Enter 1 to specify the database service name, or 2 to specify the database SID [1]:1
Enter the database service name:pdb01.de.oracle.com
Enter 1 if you want to verify/install Oracle REST Data Services schema or 2 to skip this step [1]:1
Enter the database password for ORDS_PUBLIC_USER:******
Confirm password:******

Please login with SYSDBA privileges to verify Oracle REST Data Services schema. Installation may be required.


Enter the username with SYSDBA privileges to verify the installation [SYS]:SYS
Enter the database password for SYS:******
Confirm password:******
Jun 24, 2015 3:42:57 PM oracle.dbtools.rt.config.setup.SchemaSetup addSchemaParams
INFO:
Oracle REST Data Services schema does not exist and will be created.


Enter the default tablespace for ORDS_METADATA [SYSAUX]:SYSAUX
Enter the temporary tablespace for ORDS_METADATA [TEMP]:TEMP
Enter the default tablespace for ORDS_PUBLIC_USER [USERS]:USERS
Enter the temporary tablespace for ORDS_PUBLIC_USER [TEMP]:TEMP
:
Danach geht es mit einer Frage zum APEX Listener weiter - diese ist nur interessant, wenn der ORDS gleichzeitig als APEX-Webserver dienen soll. Das steht heute nicht im Mittelpunkt, daher könnt Ihr den Punkt überspringen.
Enter 1 if you want to use PL/SQL Gateway or 2 to skip this step [1]:2
Enter 1 to specify passwords for Application Express RESTful Services database users (APEX_LISTENER, APEX_REST_PUBLIC_USER) or 2 to skip this step [1]:2
Dann seht Ihr einige Statusmeldungen ...
Jun 24, 2015 3:43:04 PM oracle.dbtools.common.config.file.ConfigurationFilesBase update
INFO: Updated configurations: defaults, apex_pu
Jun 24, 2015 3:43:04 PM oracle.dbtools.installer.Installer installORDS
INFO:
Installing Oracle REST Data Services version 3.0.0.121.10.23
... Log file written to C:\Users\cczarski\ordsinstall_2015-06-24_154305_00043.log
... Verified database prerequisites
... Created Oracle REST Data Services schema
... Granted privileges to Oracle REST Data Services
... Created Oracle REST Data Services database objects
... Created Oracle REST Data Services proxy user
Jun 24, 2015 3:43:50 PM oracle.dbtools.installer.Installer installORDS
INFO: Completed installation for Oracle REST Data Services version 3.0.0.121.10.23. Elapsed time: 00:00:45.343
Zum Abschluß kommt noch die Frage, ob ORDS im Standalone Modus starten soll oder ob Ihr diesen in einen Java-Server wie Weblogic oder Tomcat deployen wollt. Für heute reicht uns der Standalone-Modus aus; den HTTP-Port, nach dem er uns dann fragen wird, legen wir mit 8081 fest.
Enter 1 if you wish to start in standalone mode or 2 to exit [1]:1
Enter the HTTP port [8080]:8081
Soweit ist die Installation fertig; die letzte Statusmeldung sagt euch, dass ORDS jetzt läuft.
:
Jun 24, 2015 3:46:35 PM oracle.dbtools.common.config.db.DatabasePools validatePool
INFO: Pool: apex_pu is correctly configured
2015-06-24 15:46:35.505:INFO:/ords:main: INFO: Oracle REST Data Services initialized|Oracle REST Data Services version :
 3.0.0.121.10.23|Oracle REST Data Services server info: jetty/9.2.z-SNAPSHOT|
2015-06-24 15:46:35.508:INFO:oejsh.ContextHandler:main: Started o.e.j.s.ServletContextHandler@4bb4de6a{/ords,null,AVAILA
BLE}
2015-06-24 15:46:35.588:INFO:oejs.ServerConnector:main: Started ServerConnector@17c386de{HTTP/1.1}{0.0.0.0:8081}
2015-06-24 15:46:35.589:INFO:oejs.Server:main: Started @307536ms
Doch was macht man damit? Wenn man nun die URL {hostname}:8081/ords aufruft, passiert noch gar nichts: Es gibt eine HTTP-404-Fehlermeldung (Not Found) und weiter sieht man nichts.
Grund ist, dass noch keine REST-Services definiert wurden. ORDS bringt dafür keine Web-Oberfläche mit, vielmehr kann man die REST-Services mit dem Oracle SQL Developer oder auf dem SQL-Prompt mit PL/SQL Calls einrichten. Für dieses Blog-Posting nehmen wir letzteren Ansatz. Verbindet euch also (mit dem SQL-Werkzeug eurer Wahl) auf das Schema SCOTT in der Datenbank, die Ihr beim Installieren von ORDS angegeben habt. Schaut euch darin das PL/SQL Paket ORDS an.
SQL> sho user
USER ist "SCOTT"

SQL> desc ords
PROCEDURE CREATE_PRIVILEGE
 Argument Name                  Typ                     In/Out Defaultwert?
 ------------------------------ ----------------------- ------ --------
 P_NAME                         VARCHAR2                IN
 P_ROLES                        TABLE OF VARCHAR2(32000) IN
 P_LABEL                        VARCHAR2                IN     DEFAULT
 P_DESCRIPTION                  VARCHAR2                IN     DEFAULT
PROCEDURE CREATE_PRIVILEGE
 Argument Name                  Typ                     In/Out Defaultwert?
 ------------------------------ ----------------------- ------ --------
 P_NAME                         VARCHAR2                IN
 P_ROLE_NAME                    VARCHAR2                IN
 P_LABEL                        VARCHAR2                IN     DEFAULT
 P_DESCRIPTION                  VARCHAR2                IN     DEFAULT
PROCEDURE CREATE_PRIVILEGE_MAPPING
 Argument Name                  Typ                     In/Out Defaultwert?
 ------------------------------ ----------------------- ------ --------
 P_PRIVILEGE_NAME               VARCHAR2                IN
 P_PATTERNS                     TABLE OF VARCHAR2(32000) IN
:
Besonders interessant sind die Prozeduren ENABLE_SCHEMA und ENABLE_OBJECT. Diese machen das Auto-Rest Feature aus, mit dem sich in wenigen Handgriffen ein REST-Endpoint für eine Tabelle erstellen lässt. Und das machen wir nun. Zuerst müssen wir REST grundsätzlich für das Schema SCOTT freischalten.
begin
  ords.enable_schema (
    P_ENABLED        => true,
    P_SCHEMA         => 'SCOTT',
    P_AUTO_REST_AUTH => false
  );
end;
/
sho err
Die Benutzung von ENABLE_SCHEMA ist wirklich einfach. Der erste Parameter (P_ENABLED) legt fest, ob das Schema freigegeben oder gesperrt sein soll; danach kommt das Schema selbst (P_SCHEMA). Der letzte Parameter P_AUTO_REST_AUTH legt fest, ob sich ein REST-Client authentizieren muss, wenn er die REST-Endpoints verwenden möchte. Der Default ist true, was das Sicherheitslevel etwas erhöht. Für unsere Tests setzen wir es jedoch auf false; Authentifizierung bleibt in diesem Blog-Posting zunächst außen vor. Setzt noch ein COMMIT ab; wir sind ja in der Datenbank. Allerdings steht nun immer noch kein REST-Endpoint bereit, denn wir haben noch keine Tabellen oder Views freigegeben. Das kommt jetzt - mit einem Aufruf von ENABLE_OBJECT.
begin
  ords.enable_object (
    P_ENABLED        => true,
    P_SCHEMA         => 'SCOTT',
    P_OBJECT         => 'EMP',
    P_OBJECT_TYPE    => 'TABLE',
    P_OBJECT_ALIAS   => 'the-emp-table',
    P_AUTO_REST_AUTH => false
  );
end;
/
sho err
Die Parameter P_ENABLED, P_SCHEMA und P_AUTO_REST_AUTH haben die gleiche Bedeutung wie bei ENABLE_SCHEMA. Zusätzlich muss man hier natürlich noch den Namen der Tabelle oder View (P_OBJECT) und (optional) einen URL-Alias (P_OBJECT_ALIAS) angeben. Nach dem obligatorischen COMMIT steht ein REST-Endpoint für die Tabelle EMP unter der URL /ords/scott/the-emp-table bereit. Probiert es aus, und ruft die URL mit dem Browser auf - ihr solltet die Inhalte der Tabelle EMP im JSON-Format sehen.
Stellt nun sicher, dass die Spalte EMPNO der Tabelle EMP als Primärschlüssel definiert ist; oft ist das nicht der Fall.
SQL> alter table EMP add constraint PK_EMP primary key (EMPNO);
Jetzt könnt Ihr per URL auch einzelne Zeilen ansteuern; während die URL /ords/scott/the-emp-table alle Zeilen der Tabelle zurückliefert, liefert die URL /ords/scott/the-emp-table/7839 nur die eine Zeile mit der EMPNO 7839 zurück. Darüber hinaus unterstützt ORDS auch eine "JSON-Query"-Syntax. Probiert mal folgende URLs aus:
  • /ords/scott/the-emp-table/?q={"sal":{"$lt":1000}}
  • /ords/scott/the-emp-table/?q={"ename":{"$like":"S%25"}}
  • /ords/scott/the-emp-table/?q={"ename":{"$eq":"KING"}}
Die komplette Beschreibung der Query-Syntax findet Ihr in der Dokumentation. Zum Lesen der Tabelle gibt es also schon eine sehr elegante REST-Schnittstelle - aber ORDS kann noch mehr.
Setzt man anstelle des HTTP-GET-Requests einen PUT, POST oder DELETE-Request ab, so können die Inhalte der Tabelle auch verändert werden. Hierzu reicht der einfache Browser aber nicht aus; Ihr braucht einen REST-Client. Diese sind auch als Browser-Plugins erhältlich - so gibt es für Chrome die App Advanced REST Client; für Firefox ist das Addon REST-Client verfügbar und als Standalone-Anwendung kommen Kandidaten wie Postman in Frage. Das folgende Bild zeigt die Chrome-App Advanced REST Client.
Nun wollen wir per REST-Request eine Zeile in die Tabelle einfügen. Macht im Chrome Advanced Rest Client folgende Angaben (andere REST-Clients sehen ähnlich aus).
  • Legt PUT als Request-Type fest.
  • Als URL legt Ihr /ords/scott/the-emp-table/8999 fest; hier geben wir den Wert für die EMPNO schon in der URL an, weil die Tabelle EMP keine Sequence und keinen Trigger hat, um die ID automatisch zu generieren. Wenn Ihr eine Tabelle hat, deren Primary Key-Spalte automatisch generiert wird, könnt Ihr zum Einfügen einer Zeile einfach einen POST-Request an die URL der Tabelle (hier: /ords/scott/the-emp-table/) absetzen.
  • Als Payload oder Request Body tragt Ihr die Daten der neuen Zeile im JSON-Format ein, also wie folgt:
    {"empno": 8999, "ename": "CZARSKI", "job": "BLOGGER", "sal": 0, "comm": 0, "mgr": 7839, "deptno": 30}
    
  • Achtet schließlich darauf, dass der HTTP-Header Content-Type auf application/json gesetzt ist; bei der Chrome-App ist das der Default; anderswo muss man es explizit einstellen.
Wenn Ihr den Request dann absendet, bekommt Ihr eine Antwort, welche nochmals die neue Zeile im JSON-Format enthält. Eine Prüfung der Tabelle EMP im SQL-Tool zeigt euch, dass tatsächlich eine Zeile eingefügt wurde.
SQL> select * from emp;

EMPNO ENAME      JOB         MGR HIREDATE              SAL  COMM DEPTNO
----- ---------- --------- ----- ------------------- ----- ----- ------
 7369 SMITH      CLERK      7902 17.12.1980 00:00:00   800           20
 7499 ALLEN      SALESMAN   7698 20.02.1981 00:00:00  1600   300     30
 
 : 

 7934 MILLER     CLERK      7782 23.01.1982 00:00:00  1300           10
 8999 CZARSKI    BLOGGER    7839                         0     0     30
Ein erneutes HTTP-PUT auf die gleiche URL (mit der 8999) führt zu einem Update der Zeile. Um sie zu löschen, braucht es einen DELETE-Request.
  • Legt DELETE als Request-Type fest.
  • Als URL legt Ihr /ords/scott/the-emp-table/8999 fest.
  • Als Payload oder Request Body tragt Ihr nichts ein
  • Stellt sicher, dass der HTTP-Header Content-Type nun auf text/plain gesetzt ist; wenn er noch auf application/json steht, müsst Ihr ihn umstellen.
Ihr solltet die Antwort bekommen, dass eine Zeile gelöscht wurde; eine Kontrolle der EMP-Tabelle sollte dann ergeben, dass die neue Zeile tatsächlich weg ist. Für DELETE-Requests könnt Ihr auch die JSON-Query-Syntax verwenden, die weiter oben bei den GET-Requests beschrieben wurde. Diese Syntax erlaubt euch auch, mehrere Zeilen auf einmal zu löschen.
Für heute soll das mal genügen; allerdings haben wir nur ein wenig an der Oberfläche der neuen Möglichkeiten gekratzt; ORDS erlaubt auch das Erstellen von REST-Services mit eigenen SQL-Queries oder PL/SQL-Objekten - dazu jedoch mehr in späteren Blog-Postings - bis dahin viel Spaß beim Ausprobieren ...
This blog posting will be about Oracle Rest Data Services (ORDS). ORDS is known in the APEX developer community as the APEX Listener, since it was originally introduced as a Java-based Webserver for Oracle Application Express. In the meantime, the development team added more features to provide REST services on top of the Oracle database or Oracle NoSQL DB and to reflect this, its name was changed to "ORDS". ORDS can still act as a webserver for APEX; but beyond this it ...
  • ... can act as the Webserver for Oracle Application Express
  • ... provides REST endpoints for relational tables and views
  • ... provides REST endpoints for PL/SQL functions, procedures or anonymous blocks
  • ... acts as a REST endpoint for the Oracle12c JSON functionalit (SODA, JSON document store)
  • ... provides REST endpoints for Oracle NoSQL Database
So, the name change to ORDS was more than appropriate. In this first blog posting about ORDS I'd like to describe the installation and then I'll pick the second feature in the list above. You'll see that it's very easy to create a REST endpoint on an existing table - this REST endpoint will allow to retrieve and change table data.
First, download ORDS from OTN and unpack the ZIP archive. Also make sure, that you have DBA credentials for your database at hand, since ORDS will need to connect as SYSDBA during installation. You don't necessarily need an Oracle12c database, for this blog posting, 11g will also do. After unpacking the downloaded archive, your directory should look like this.
O:\>dir
 Volume in drive O is Data
 Volume Serial Number is 5054-5D26

 Directory of O:\

24.06.2015  15:34    <DIR>          .
24.06.2015  15:34    <DIR>          ..
24.06.2015  15:15    <DIR>          docs
24.06.2015  15:15    <DIR>          examples
12.05.2015  17:04        46.105.880 ords.war
01.05.2015  10:28            23.806 readme.html
               2 File(s)     46.129.686 bytes
               4 Dir(s)  195.599.679.488 bytes free
When ORDS is being started the first time, it will prompt you for configuration parameters. The most important ones are the hostname, TCP/IP port and service name for your database. Then ORDS will connect to the database as SYS (you'll need the SYS password, then) and install a metadata schema - that schema will contain the REST service definitions. Start the installation by executing java -jar ords.war install.
O:\>java -jar ords.war install
Enter the name of the database server [localhost]:sccloud034
Enter the database listen port [1521]:1521
Enter 1 to specify the database service name, or 2 to specify the database SID [1]:1
Enter the database service name:pdb01.de.oracle.com
Enter 1 if you want to verify/install Oracle REST Data Services schema or 2 to skip this step [1]:1
Enter the database password for ORDS_PUBLIC_USER:******
Confirm password:******

Please login with SYSDBA privileges to verify Oracle REST Data Services schema. Installation may be required.


Enter the username with SYSDBA privileges to verify the installation [SYS]:SYS
Enter the database password for SYS:******
Confirm password:******
Jun 24, 2015 3:42:57 PM oracle.dbtools.rt.config.setup.SchemaSetup addSchemaParams
INFO:
Oracle REST Data Services schema does not exist and will be created.


Enter the default tablespace for ORDS_METADATA [SYSAUX]:SYSAUX
Enter the temporary tablespace for ORDS_METADATA [TEMP]:TEMP
Enter the default tablespace for ORDS_PUBLIC_USER [USERS]:USERS
Enter the temporary tablespace for ORDS_PUBLIC_USER [TEMP]:TEMP
:
The next installer questions will be about Application Express; you can have ORDS providing REST services and acting as the APEX webserver at the same time. For this blog posting, we'll skip all APEX related steps.
Enter 1 if you want to use PL/SQL Gateway or 2 to skip this step [1]:2
Enter 1 to specify passwords for Application Express RESTful Services database users (APEX_LISTENER, APEX_REST_PUBLIC_USER) or 2 to skip this step [1]:2
Then you'll see some more status messages ...
Jun 24, 2015 3:43:04 PM oracle.dbtools.common.config.file.ConfigurationFilesBase update
INFO: Updated configurations: defaults, apex_pu
Jun 24, 2015 3:43:04 PM oracle.dbtools.installer.Installer installORDS
INFO:
Installing Oracle REST Data Services version 3.0.0.121.10.23
... Log file written to C:\Users\cczarski\ordsinstall_2015-06-24_154305_00043.log
... Verified database prerequisites
... Created Oracle REST Data Services schema
... Granted privileges to Oracle REST Data Services
... Created Oracle REST Data Services database objects
... Created Oracle REST Data Services proxy user
Jun 24, 2015 3:43:50 PM oracle.dbtools.installer.Installer installORDS
INFO: Completed installation for Oracle REST Data Services version 3.0.0.121.10.23. Elapsed time: 00:00:45.343
After this, you'll see the question whether to start ORDS in standalone mode or to exit. ORDS can be installed into a Java container like Oracle Weblogic, Glassfish or Tomcat (which is recommended for production systems), but can also run in standalone mode. Standalone is totally sufficient for testing and development. In standalone mode, the installer will finally ask you for an HTTP-Port number. In this example, we choose 8081 - just make sure that the chosen port is available on your system.
Enter 1 if you wish to start in standalone mode or 2 to exit [1]:1
Enter the HTTP port [8080]:8081
This will finish the installation process; the last status message should tell you, that ORDS is now up and running.
:
Jun 24, 2015 3:46:35 PM oracle.dbtools.common.config.db.DatabasePools validatePool
INFO: Pool: apex_pu is correctly configured
2015-06-24 15:46:35.505:INFO:/ords:main: INFO: Oracle REST Data Services initialized|Oracle REST Data Services version :
 3.0.0.121.10.23|Oracle REST Data Services server info: jetty/9.2.z-SNAPSHOT|
2015-06-24 15:46:35.508:INFO:oejsh.ContextHandler:main: Started o.e.j.s.ServletContextHandler@4bb4de6a{/ords,null,AVAILA
BLE}
2015-06-24 15:46:35.588:INFO:oejs.ServerConnector:main: Started ServerConnector@17c386de{HTTP/1.1}{0.0.0.0:8081}
2015-06-24 15:46:35.589:INFO:oejs.Server:main: Started @307536ms
But what to do with this running ORDS instance ...? Calling the URL {hostname}:8081/ords simply leads to an HTTP-404 (Not Found) message. The reason is that we did not define any REST service so far. ORDS does not provide a web interface to define REST services. We can either use Oracle SQL Developer, or the PL/SQL package ORDS within the database. In this blog posting, I'll show how to use the latter option. So, with the SQL tool of your choice, connect (as user SCOTT) to the database, which you configured during ORDS installation. Upon connected, check out the PL/SQL package ORDS.
SQL> sho user
USER ist "SCOTT"

SQL> desc ords
PROCEDURE CREATE_PRIVILEGE
 Argument Name                  Typ                     In/Out Defaultwert?
 ------------------------------ ----------------------- ------ --------
 P_NAME                         VARCHAR2                IN
 P_ROLES                        TABLE OF VARCHAR2(32000) IN
 P_LABEL                        VARCHAR2                IN     DEFAULT
 P_DESCRIPTION                  VARCHAR2                IN     DEFAULT
PROCEDURE CREATE_PRIVILEGE
 Argument Name                  Typ                     In/Out Defaultwert?
 ------------------------------ ----------------------- ------ --------
 P_NAME                         VARCHAR2                IN
 P_ROLE_NAME                    VARCHAR2                IN
 P_LABEL                        VARCHAR2                IN     DEFAULT
 P_DESCRIPTION                  VARCHAR2                IN     DEFAULT
PROCEDURE CREATE_PRIVILEGE_MAPPING
 Argument Name                  Typ                     In/Out Defaultwert?
 ------------------------------ ----------------------- ------ --------
 P_PRIVILEGE_NAME               VARCHAR2                IN
 P_PATTERNS                     TABLE OF VARCHAR2(32000) IN
:
Within the ORDS PL/SQL package, the ENABLE_SCHEMA and ENABLE_OBJECT procedures allow you to create a REST endpoint on a table or view with only two PL/SQL calls: Auto-Rest. First, enable a database schema for "Auto-Rest" by calling ENABLE_SCHEMA.
begin
  ords.enable_schema (
    P_ENABLED        => true,
    P_SCHEMA         => 'SCOTT',
    P_AUTO_REST_AUTH => false
  );
end;
/
sho err
The first parameter of ENABLE_SCHEMA, P_ENABLED is a boolean: true enables a schema, false disables it. The second parameter P_SCHEMA denotes the schema itself. The last parameter P_AUTO_REST_AUTH is about authentication: If set to true (which is the default), a REST client needs to authenticate before performing requests on a table which has been enabled with Auto-Rest. We set this parameter to false since we don't want to use authentication at this time. After this call, execute a COMMIT - we are in a database.
But we still have no working REST endpoint. We now need to explicitly enable a table or view with ORDS.ENABLE_OBJECT.
begin
  ords.enable_object (
    P_ENABLED        => true,
    P_SCHEMA         => 'SCOTT',
    P_OBJECT         => 'EMP',
    P_OBJECT_TYPE    => 'TABLE',
    P_OBJECT_ALIAS   => 'the-emp-table',
    P_AUTO_REST_AUTH => false
  );
end;
/
sho err
The P_ENABLED, P_SCHEMA and P_AUTO_REST_AUTH parameters have the same meaning as for the ENABLE_SCHEMA procedure. For ENABLE_OBJECT, we need to additionally pass the name of the table or view (P_OBJECT) and, optionally a URL alias (P_OBJECT_ALIAS). After executing the final COMMIT, a REST endpoint for the EMP table is available under the URL /ords/scott/the-emp-table. Try it out and call this URL with a browser - you should see the EMP table data in JSON format.
Now make sure, that the EMPNO column is defined as primary key - often, this is not the case.
SQL> alter table EMP add constraint PK_EMP primary key (EMPNO);
The primary key allows to access individual rows by simply appending the PK value to the URL. While /ords/scott/the-emp-table returns all table rows, /ords/scott/the-emp-table/7839 only returns one row (with EMPNO 7839). Beyond this, ORDS also provides a JSON query syntax with more complex filtering capabilities. Here are three examples:
  • /ords/scott/the-emp-table/?q={"sal":{"$lt":1000}}
  • /ords/scott/the-emp-table/?q={"ename":{"$like":"S%25"}}
  • /ords/scott/the-emp-table/?q={"ename":{"$eq":"KING"}}
The ORDS Documentation contains a complete description of the JSON query syntax. So we have a nice REST interface to read data from our table. But ORDS can do more ...
When using HTTP PUT, POST or DELETE methods, instead of GET, you can also manipulate table data. But for this, the plain browser is not enough (browsers can only to GET and POST). So we need a "REST client" application, which allows us to use the full range of HTTP requests. REST clients are also available as browser Add-Ons; we have the Advanced REST client for Chrome, RESTClient for Firefox or Postman as a standalone application. Of course, there several more, also as addons for other browsers. The following screenshot shows Advanced REST client for Chrome.
Now lets's create a new table row with a REST request. In Advanced REST client for Chrome, use the following settings (other REST clients should look similar).
  • Choose PUT as the HTTP method.
  • Use the URL /ords/scott/the-emp-table/8999. In this case, we'll append the primary key value for the new row, explicitly, to the URL. If the table's primary key column had a trigger, and a sequence, which generated the value automatically, we would issue a POST request to the URL of the table (without the primary key value): /ords/scott/the-emp-table/.
  • Provide the data for the new row as Payload or Request Body in JSON format - as follows:
    {"empno": 8999, "ename": "CZARSKI", "job": "BLOGGER", "sal": 0, "comm": 0, "mgr": 7839, "deptno": 30}
    
  • Finally, make sure that the HTTP header named Content-Type is being set to application/json. Advanced Rest Client does this by default; in other clients you might have to adjust this.
After submitting the request, you'll see the server's response. If everything works well, you'll get an HTTP-200 status and the row data in JSON format as the response body. At the SQL level, you might check whether the new row is really present.
SQL> select * from emp;

EMPNO ENAME      JOB         MGR HIREDATE              SAL  COMM DEPTNO
----- ---------- --------- ----- ------------------- ----- ----- ------
 7369 SMITH      CLERK      7902 17.12.1980 00:00:00   800           20
 7499 ALLEN      SALESMAN   7698 20.02.1981 00:00:00  1600   300     30
 
 : 

 7934 MILLER     CLERK      7782 23.01.1982 00:00:00  1300           10
 8999 CZARSKI    BLOGGER    7839                         0     0     30
Another PUT request with the same URL leads to a SQL UPDATE operation on the same row. To delete the row via REST, execute an HTTP DELETE request.
  • Choose DELETE as the HTTP method.
  • Choose a URL pointing to a specific row, for example /ords/scott/the-emp-table/8999.
  • Leave the Payload or Request Body empty.
  • Make sure that the HTTP header Content-Type is now set to text/plain; when it's still set to application/json, change it.
You should get a response indicating that your row has been deleted. For DELETE requests, you can also use the "JSON query syntax", described earlier for GET requests. This syntax allows you to delete multiple rows in one request.
This concludes my blog posting on the first steps with Oracle Rest Data Services (ORDS); expect more in upcoming postings. ORDS provides much more than simple "Auto-Rest" for tables and views - we can create REST services for PL/SQL procedures, functions or packages. More on this to come - stay tuned.

26. Mai 2015

APEX_JSON ohne APEX: JSON parsen mit SQL und PL/SQL

Dies ist das zweite von zwei Blog-Postings zum neuen Package APEX_JSON, mit dem man JSON-Dokumente auch ohne APEX, nur mit PL/SQL, verarbeiten kann. Nachdem das erste Blog-Posting sich mit dem Erzeugen von JSON beschäftigt hat, geht es heute um das Parsen und Auslesen von JSON mit APEX_JSON. Vorher noch wichtiger Hinweis.
Ab Oracle12c, genauer: Ab der Version 12.1.0.2 stellt die Datenbank native SQL-Funktionen zum Parsen von JSON bereit. Diese sind im C-Code des Datenbankkerns implementiert und dürften daher wesentlich effizienter sein als eine PL/SQL-Lösung.
Wenn Ihr könnt, solltet Ihr JSON immer mit den nativen SQL/JSON-Funktionen parsen; in 12c also grundsätzlich diese verwenden. APEX_JSON sollte zum Parsen von JSON nur in 11g-Datenbanken verwendet werden. Weiter unten werden wir noch einen Vergleich durchführen.
Los geht's - als Beispiel nehme ich JSON-Dateien, wie sie von der Twitter-API angeliefert werden; hier ein Ausschnitt.
{
  "id": 578903819884585000,
  "text": "RT @iAdvise_live: #countdown naar #Apexworld @OGh_nl ...
  "geo": {...}
  "lang": "nl",
  "retweet_count": 2,
  "created_at": "Fri Mar 20 13:00:00 +0000 2015",
  "user": {
      "statuses_count": 266,
      "lang": "en",
      "id": 1237892781789,
      "favourites_count": 62,        
      "name": "Jonathan ...",
      "screen_name": "jvanvianen78",
  }
  :
}
Wenn man nun eine Tabelle mit diesen JSON-Dateien hat, kann man diese mit APEX_JSON.PARSE parsen und die Inhalte dann mit GET_VARCHAR2, GET_NUMBER und ähnlichen Calls auslesen. Ein Beispiel könnte dann so aussehen:
Hinweis: Wenn Ihr mit der allerersten APEX-Version 5.0.1 und einer deutschsprachigen Session-Language arbeitet, setzt vorher ein ALTER SESSION SET NLS_NUMERIC_CHARACTERS='.,' ab.
declare
  l_parsed_json apex_json.t_values;
  l_value       varchar2(4000);
begin
  for i in (select tweet from apextweets) loop
    apex_json.parse(
      p_values => l_parsed_json,
      p_source => i.tweet
    );
    dbms_output.put_line(
      'User "'||
      apex_json.get_varchar2(
        p_path => 'user.screen_name',
        p_values => l_parsed_json
      ) ||
      '" tweeted at ' ||
      apex_json.get_varchar2(
        p_path => 'created_at',
        p_values => l_parsed_json
      ) 
    );
  end loop;
end;
/
Das Ergebnis wird in diesem Fall mit DBMS_OUTPUT auf die Konsole geschrieben; natürlich ist auch eine andere Verarbeitung denkbar.
User "jvanvianen78" tweeted at Fri Mar 20 13:00:00 +0000 2015
User "Yvke1983" tweeted at Fri Mar 20 12:58:08 +0000 2015
User "iAdvise_live" tweeted at Fri Mar 20 12:57:35 +0000 2015
User "reynde75" tweeted at Fri Mar 20 11:54:56 +0000 2015
User "Smart4Apex" tweeted at Fri Mar 20 11:42:38 +0000 2015
User "brost" tweeted at Fri Mar 20 11:06:20 +0000 2015
User "johnnyq72" tweeted at Fri Mar 20 10:45:55 +0000 2015
User "crokitta" tweeted at Fri Mar 20 10:44:31 +0000 2015
User "johnnyq72" tweeted at Fri Mar 20 10:27:25 +0000 2015
User "PretiusSoftware" tweeted at Fri Mar 20 09:29:02 +0000 2015
:
Allerdings haben wir hier die gleiche Situation wie im letzten Blog-Posting: Man muss jede Abfragesituation in PL/SQL prozedural kodieren; bei Abfragen wäre es ja interessanter, direkt mit SQL auf die JSON-Dokumente zugreifen zu können. APEX_JSON bietet uns hier einen Trick an: Die Funktion TO_XMLTYPE wandelt das JSON in einen XMLTYPE um ...
select apex_json.to_xmltype(tweet) from tweets_json where rownum = 1
/

APEX_JSON.TO_XMLTYPE(TWEET)
--------------------------------------------------------------------------------
<json>
  <retweeted_status>
    <text>#countdown naar #Apexworld @OGh_nl #iadvise_live @Yvke1983 ...
    <retweeted>false</retweeted>
    <truncated>false</truncated>
    <lang>nl</lang>
    <entities>
      <symbols/>
      <urls/>
      <hashtags>
        <row>
          <text>countdown</text>
          <indices>
            <row>0</row>
            <row>10</row>
:
... und darauf lässt sich nun sehr elegant mit den SQL/XML-Funktionen der Datenbank arbeiten.
select
  screen_name,
  created_at,
  lang 
from tweets_json, xmltable(
  '/json'
  passing apex_json.to_xmltype(tweet)
  columns
    screen_name varchar2(30)  path 'user/screen_name',
    created_at  varchar2(100) path 'created_at',
    lang        varchar2(5)   path 'lang'
)
where rownum <= 20
/  

SCREEN_NAME                    CREATED_AT                          LANG
------------------------------ ----------------------------------- ----
jvanvianen78                   Fri Mar 20 13:00:00 +0000 2015      nl
Yvke1983                       Fri Mar 20 12:58:08 +0000 2015      nl
iAdvise_live                   Fri Mar 20 12:57:35 +0000 2015      nl
reynde75                       Fri Mar 20 11:54:56 +0000 2015      und
Smart4Apex                     Fri Mar 20 11:42:38 +0000 2015      nl
brost                          Fri Mar 20 11:06:20 +0000 2015      en
johnnyq72                      Fri Mar 20 10:45:55 +0000 2015      nl
crokitta                       Fri Mar 20 10:44:31 +0000 2015      nl
johnnyq72                      Fri Mar 20 10:27:25 +0000 2015      en
PretiusSoftware                Fri Mar 20 09:29:02 +0000 2015      en
josepcoves                     Mon Mar 23 18:57:22 +0000 2015      en
Fr4ncis                        Mon Mar 23 18:48:29 +0000 2015      en
BIntsifuL                      Mon Mar 23 17:58:38 +0000 2015      en
pauljacobs123                  Mon Mar 23 17:45:28 +0000 2015      en
S3v3n11                        Mon Mar 23 17:20:52 +0000 2015      en
Das ist doch schon sehr bequem - und man kann zusätzliche Attribute einfach durch Anpassen der SQL-Abfrage dazunehmen. Auch in die Hierarchie kann man einsteigen, genau wie bei XML. Nun wollen wir eine etwas anspruchsvollere Aufgabe lösen: "Wieviele Tweets (ohne "Retweets") hat jeder User abgesetzt?"
select
  screen_name,
  count(*) anzahl_tweets
from tweets_json, xmltable(
  '/json'
  passing apex_json.to_xmltype(tweet)
  columns
    screen_name varchar2(30) path 'user/screen_name',
    created_at  varchar2(100) path 'created_at'
)
where not xmlexists(
  '/json/retweeted_status'
  passing apex_json.to_xmltype(tweet)
)
group by screen_name
order by 2 desc
/  

SCREEN_NAME                    ANZAHL_TWEETS
------------------------------ -------------
orclapexblogs                            186
joelkallman                               62
swesley_perth                             45
flederbine                                39
andre_blu                                 39
:

Elapsed: 00:01:17:55
Man kann mit den XML-Funktionen also eine ganze Menge erreichen. Würde man die gleiche Aufgabe mit PL/SQL Logik lösen, wäre dieser Code hier nötig (die absteigende Sortierung fehlt sogar noch).
declare
  type t_tabtype is table of number index by varchar2(200);

  l_parsed_json apex_json.t_values;
  l_user        varchar2(4000);
  l_tweetsbyusr t_tabtype;
  l_retweeted   boolean; 
begin
  for i in (select tweet from tweets_json) loop
    apex_json.parse(
      p_values => l_parsed_json,
      p_source => i.tweet
    );
    l_retweeted := apex_json.does_exist(
      p_path   => 'retweeted_status',
      p_values => l_parsed_json
    );
    if not l_retweeted then 
      l_user := apex_json.get_varchar2(
        p_path => 'user.screen_name',
        p_values => l_parsed_json
      );
      if l_tweetsbyusr.exists(l_user)  then
        l_tweetsbyusr(l_user) := l_tweetsbyusr(l_user) + 1;
      else 
        l_tweetsbyusr(l_user) := 1;
      end if;
    end if;
  end loop;
  l_user := l_tweetsbyusr.first;
  while l_user is not null loop
    dbms_output.put_line(l_user||':'||l_tweetsbyusr(l_user));
    l_user := l_tweetsbyusr.next(l_user);
  end loop;
end;
/

APEXORADEV:13
AliUK12:1
AljazMali:1
AntonScheffer:2
BIASCareers:2
BIntsifuL:7
BigBen212:1
BlueberryCoder:1
CPiasecki23:1
:

Elapsed: 00:01:06.36
Interessant ist nun aber die Ausführungszeit - für diese Auswertung auf 4.526 JSON-Dateien wurden mit dem XMLTYPE-Ansatz etwa 1 Minute und 17 Sekunden verbraucht, der prozedurale PL/SQL-Ansatz verbrauchte 1 Minute und 6 Sekunden. Halten wir da mal die nativen SQL/JSON-Funktionen, die ab 12.1.0.2 bereitstehen, dagegen.
select
  screen_name,
  count(*) anzahl_tweets
from tweets_json, json_table(
  tweet,
  '$'
  columns (
    screen_name varchar2(30)  path '$.user.screen_name',
    created_at  varchar2(100) path '$.created_at'
  )
)
where not json_exists(tweet, '$.retweeted_status')
group by screen_name
order by 2 desc
/  

SCREEN_NAME                    ANZAHL_TWEETS
------------------------------ -------------
orclapexblogs                            186
joelkallman                               62
swesley_perth                             45
flederbine                                39
andre_blu                                 39
:

Elapsed: 00:00:00:79
Es kommt das gleiche Ergebnis heraus - aber Sub-Second! 0.79 Sekunden, um genau zu sein. Wenn Ihr also auf einer 12c-Datenbank seid, verwendet auf jeden Fall die SQL/JSON-Funktionen zum JSON-Parsong - diese sind wesentlich effizienter. Mit APEX_JSON solltet Ihr nur dann parsen, wenn die nativen SQL/JSON-Funktionen nicht in Frage kommen - das wäre bspw. in einer Oracle11g-Datenbank der Fall.
Das mit APEX 5.0 eingeführte PL/SQL-Paket APEX_JSON eignet sich auch außerhalb von APEX sehr gut, um in PL/SQL mit JSON zu arbeiten. Neben dem Generieren von JSON bietet es auch Möglichkeiten an, JSON zu parsen. Besonders interessant ist die Möglichkeit, ein JSON mit TO_XMLTYPE in einen XMLTYPE zu wandeln, so dass man danach mit den SQL/XML-Funktionen darauf auch komplexere Abfragen durchführen kann.
Die mit Oracle12c eingeführten, nativen SQL/JSON-Funktionen bieten hierfür allerdings eine um Längen bessere Performance, so dass SQL-Funktionen wie JSON_VALUE, JSON_QUERY oder JSON_TABLE zum Parsen von JSON sicherlich zu bevorzugen wären.
This is the second of two blog postings about the new PL/SQL package APEX_JSON, which allows to work with JSON documents in a PL/SQL environment, even outside of APEX. While the first blog posting was about generating JSON with APEX_JSON, this posting will concentrate on the parsing side. We already have a bunch of JSON documents and want to work with their data. Before we begin, here is a very important note.
Beginning with Oracle12c, more specific: 12.1.0.2, the Oracle database provides native SQL/JSON fucntions zu parse and access JSON data. These are implemented within the database kernel and therefore much more efficient than a PL/SQL-based approach.
So, in an Oracle12c environment, always try to work with the nativer SQL/JSON functions instead of programming PL/SQL with APEX_JSON. JSON parsing with APEX_JSON is suited for pre-12c databases, where the native functions are not available. In this bloh posting, you'll also see a comparison between the two approaches.
Here we go: As an example, I'll take some JSON files which I obtained from the Twitter API. Here's a snippet.
{
  "id": 578903819884585000,
  "text": "RT @iAdvise_live: #countdown naar #Apexworld @OGh_nl ...
  "geo": {...}
  "lang": "nl",
  "retweet_count": 2,
  "created_at": "Fri Mar 20 13:00:00 +0000 2015",
  "user": {
      "statuses_count": 266,
      "lang": "en",
      "id": 1237892781789,
      "favourites_count": 62,        
      "name": "Jonathan ...",
      "screen_name": "jvanvianen78",
  }
  :
}
Assumed, we have a table containing instances of these JSON documents, we can start parsing these with APEX_JSON.PARSE. APEX_JSON will generate an in-Memory representation of the JSON data. We can then access the JSON data by calling methods like GET_VARCHAR2 or GET_NUMBER. A first procedure looks like this:
Important: If you are working with the very first APEX 5.0.1 release, and you are using a german or french NLS environment, execute the following call at the beginning of your session: ALTER SESSION SET NLS_NUMERIC_CHARACTERS='.,'
declare
  l_parsed_json apex_json.t_values;
  l_value       varchar2(4000);
begin
  for i in (select tweet from apextweets) loop
    apex_json.parse(
      p_values => l_parsed_json,
      p_source => i.tweet
    );
    dbms_output.put_line(
      'User "'||
      apex_json.get_varchar2(
        p_path => 'user.screen_name',
        p_values => l_parsed_json
      ) ||
      '" tweeted at ' ||
      apex_json.get_varchar2(
        p_path => 'created_at',
        p_values => l_parsed_json
      ) 
    );
  end loop;
end;
/
In this example, the processing results are being written onto the console with DBMS_OUTPUT. Of course, we could also process it otherwise or create a table function which returns structured output. So far, so good.
User "jvanvianen78" tweeted at Fri Mar 20 13:00:00 +0000 2015
User "Yvke1983" tweeted at Fri Mar 20 12:58:08 +0000 2015
User "iAdvise_live" tweeted at Fri Mar 20 12:57:35 +0000 2015
User "reynde75" tweeted at Fri Mar 20 11:54:56 +0000 2015
User "Smart4Apex" tweeted at Fri Mar 20 11:42:38 +0000 2015
User "brost" tweeted at Fri Mar 20 11:06:20 +0000 2015
User "johnnyq72" tweeted at Fri Mar 20 10:45:55 +0000 2015
User "crokitta" tweeted at Fri Mar 20 10:44:31 +0000 2015
User "johnnyq72" tweeted at Fri Mar 20 10:27:25 +0000 2015
User "PretiusSoftware" tweeted at Fri Mar 20 09:29:02 +0000 2015
:
But this is the same situation as described in the first blog posting. We will have to create procedural code for each individual query requirement. It would be much more convenient, to execute a SQL-like query direcly on the JSON data. And APEX_JSON offers a trick: The function TO_XMLTYPE converts JSON to an XMLTYPE instance ...
select apex_json.to_xmltype(tweet) from tweets_json where rownum = 1
/

APEX_JSON.TO_XMLTYPE(TWEET)
--------------------------------------------------------------------------------
<json>
  <retweeted_status>
    <text>#countdown naar #Apexworld @OGh_nl #iadvise_live @Yvke1983 ...
    <retweeted>false</retweeted>
    <truncated>false</truncated>
    <lang>nl</lang>
    <entities>
      <symbols/>
      <urls/>
      <hashtags>
        <row>
          <text>countdown</text>
          <indices>
            <row>0</row>
            <row>10</row>
:
... and as soon as we have XMLTYPE, we can start using the native SQL/XML functions which allow us to author SQL queries directly on XML data.
select
  screen_name,
  created_at,
  lang 
from tweets_json, xmltable(
  '/json'
  passing apex_json.to_xmltype(tweet)
  columns
    screen_name varchar2(30)  path 'user/screen_name',
    created_at  varchar2(100) path 'created_at',
    lang        varchar2(5)   path 'lang'
)
where rownum <= 20
/  

SCREEN_NAME                    CREATED_AT                          LANG
------------------------------ ----------------------------------- ----
jvanvianen78                   Fri Mar 20 13:00:00 +0000 2015      nl
Yvke1983                       Fri Mar 20 12:58:08 +0000 2015      nl
iAdvise_live                   Fri Mar 20 12:57:35 +0000 2015      nl
reynde75                       Fri Mar 20 11:54:56 +0000 2015      und
Smart4Apex                     Fri Mar 20 11:42:38 +0000 2015      nl
brost                          Fri Mar 20 11:06:20 +0000 2015      en
johnnyq72                      Fri Mar 20 10:45:55 +0000 2015      nl
crokitta                       Fri Mar 20 10:44:31 +0000 2015      nl
johnnyq72                      Fri Mar 20 10:27:25 +0000 2015      en
PretiusSoftware                Fri Mar 20 09:29:02 +0000 2015      en
josepcoves                     Mon Mar 23 18:57:22 +0000 2015      en
Fr4ncis                        Mon Mar 23 18:48:29 +0000 2015      en
BIntsifuL                      Mon Mar 23 17:58:38 +0000 2015      en
pauljacobs123                  Mon Mar 23 17:45:28 +0000 2015      en
S3v3n11                        Mon Mar 23 17:20:52 +0000 2015      en
This is much better - by changing the SQL query we can access any JSON attribute we want. By nesting XMLTABLE expressions, we can also access hierarchical structures; this has been an XML requirement for years. Using this powerful tool, we can take a more sophisticated challenge: "We want to know, how many tweets each user posted, but without retweets". The query is straightforward.
select
  screen_name,
  count(*) anzahl_tweets
from tweets_json, xmltable(
  '/json'
  passing apex_json.to_xmltype(tweet)
  columns
    screen_name varchar2(30) path 'user/screen_name',
    created_at  varchar2(100) path 'created_at'
)
where not xmlexists(
  '/json/retweeted_status'
  passing apex_json.to_xmltype(tweet)
)
group by screen_name
order by 2 desc
/  

SCREEN_NAME                    ANZAHL_TWEETS
------------------------------ -------------
orclapexblogs                            186
joelkallman                               62
swesley_perth                             45
flederbine                                39
andre_blu                                 39
:

Elapsed: 00:01:17:55
So, the SQL/XML functions take us a long way in parsing and working with JSON. Without those functions, we would have to author an awful lot of procedural code. In the following example, the descending sort is even missing.
declare
  type t_tabtype is table of number index by varchar2(200);

  l_parsed_json apex_json.t_values;
  l_user        varchar2(4000);
  l_tweetsbyusr t_tabtype;
  l_retweeted   boolean; 
begin
  for i in (select tweet from tweets_json) loop
    apex_json.parse(
      p_values => l_parsed_json,
      p_source => i.tweet
    );
    l_retweeted := apex_json.does_exist(
      p_path   => 'retweeted_status',
      p_values => l_parsed_json
    );
    if not l_retweeted then 
      l_user := apex_json.get_varchar2(
        p_path => 'user.screen_name',
        p_values => l_parsed_json
      );
      if l_tweetsbyusr.exists(l_user)  then
        l_tweetsbyusr(l_user) := l_tweetsbyusr(l_user) + 1;
      else 
        l_tweetsbyusr(l_user) := 1;
      end if;
    end if;
  end loop;
  l_user := l_tweetsbyusr.first;
  while l_user is not null loop
    dbms_output.put_line(l_user||':'||l_tweetsbyusr(l_user));
    l_user := l_tweetsbyusr.next(l_user);
  end loop;
end;
/

APEXORADEV:13
AliUK12:1
AljazMali:1
AntonScheffer:2
BIASCareers:2
BIntsifuL:7
BigBen212:1
BlueberryCoder:1
CPiasecki23:1
:

Elapsed: 00:01:06.36
Let's have a look on the exeution time: The table contains 4.526 JSON documents. For these documents, the SQL/XML approach took about 1 minute and 17 seconds, whereas the procedural approach took 1 minute and 6 seconds. We see, the XML overhead is rather small compared to the JSON parsing time. Let's compare this to the native SQL/JSON functions in Oracle12c.
select
  screen_name,
  count(*) anzahl_tweets
from tweets_json, json_table(
  tweet,
  '$'
  columns (
    screen_name varchar2(30)  path '$.user.screen_name',
    created_at  varchar2(100) path '$.created_at'
  )
)
where not json_exists(tweet, '$.retweeted_status')
group by screen_name
order by 2 desc
/  

SCREEN_NAME                    ANZAHL_TWEETS
------------------------------ -------------
orclapexblogs                            186
joelkallman                               62
swesley_perth                             45
flederbine                                39
andre_blu                                 39
:

Elapsed: 00:00:00:79
We get the same result, but in less than a second! 0.79 Seconds, to be precise. So, once more: If you are working in an Oracle12c environment, make sure to use the native SQL/JSON functions when parsing and accessing JSON data. APEX_JSON is suitable when the SQL/JSON functions are not available (like in Oracle 11.2) or not appropriate (you might want to use pure PL/SQL and avoid SQL in specific situations).
Summarized, the new APEX_JSON package introduced with APEX 5.0, is very usable outside of APEX as well. Beyond generating JSON it also allows o parse JSON documents and to access JSON data. After converting JSON to XMLTYPE, we can perform even flexible queries and access any JSON attribute we want - without authoring additional procedural code.
But the native SQL/JSON functions, which are available in Oracle12c and higher, offer much better query performance since these have been implemented directly into the database kernel. So, if possible, JSON parsing is done best with the JSON_VALUE, JSON_QUERY or JSON_TABLE SQL functions.

4. Mai 2015

APEX_JSON ohne APEX: JSON erzeugen mit SQL und PL/SQL

Dieses Blog Posting dreht sich um ein PL/SQL-Paket, welches mit APEX 5.0 eingeführt wurde, welches aber auch für Nicht-APEX-Entwickler sehr interessant ist: APEX_JSON. Dieses Paket enthält JSON-Unterstützung für PL/SQL-Programmierer - JSON lässt sich damit sowohl parsen und auslesen als auch erzeugen. Erstellt man sich damit eigene Funktionen, so kommt die JSON-Unterstützung auch in die SQL-Welt. APEX_JSON ist zwar Teil von APEX 5.0 (und wird auch mit diesem zusammen installiert), die Nutzung erfolgt aber komplett losgelöst von APEX selbst; man kann es auch ohne APEX verwenden. Für den SQL und PL/SQL Entwickler bieten sich damit zwei Anwendungsfelder für APEX_JSON:
  • JSON kann nun auch in Datenbankversionen vor 12.1.0.2 geparst werden. Ab 12.1.0.2 empfehle ich aber dringend den Einsatz der nativen JSON-Unterstützung - die SQL/JSON-Funktionen wie JSON_VALUE, JSON_QUERY oder JSON_TABLE sind direkt im Datenbankkern implementiert und dürften damit effizienter sein, als eine PL/SQL-Lösung. Wer aber noch 11.2 oder 12.1.0.1 einsetzen muss, findet in APEX_JSON eine Alternative.
  • Das native Erzeugen von JSON mit SQL anhand von Tabellendaten geht auch mit 12.1.0.2 noch nicht; dieses Feature ist zwar geplant, aber eben noch nicht da. Hier kann APEX_JSON ebenfalls Abhilfe leisten.
In diesem Blog-Posting werde ich daher zeigen, wie man JSON mit APEX_JSON aus Tabellendaten generieren kann. Wie man JSON mit APEX_JSON ausliest, bleibt dem nächsten Posting vorbehalten. Wir starten (wie immer) einfach: Es soll ein JSON aus der wohlbekannten Tabelle EMP erzeugt werden. Für den Anfang reicht die Spalte ENAME. Der Code mit APEX_JSON sieht in etwa wie folgt aus.
declare
  l_json clob;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, 2);
  apex_json.open_object();
  apex_json.open_array('emp');
  for i in (select ename from emp) loop
    apex_json.open_object();
    apex_json.write('ename', i.ename);
    apex_json.close_object;
  end loop;
  apex_json.close_array;
  apex_json.close_object;
  dbms_output.put_line(apex_json.get_clob_output);
end;
Als Ergebnis kommt heraus ...
{
  "emp":[
    { "ename":"SMITH" }
   ,{ "ename":"ALLEN" }
   ,{ "ename":"WARD" }
   ,{ "ename":"JONES" }

:

   ,{ "ename":"FORD" }
   ,{ "ename":"MILLER" }
  ]
}
Zu Beginn wird mit INITIALIZE_CLOB_OUTPUT festlegt, dass das generierte JSON in einen CLOB geschrieben werden soll (alternative steht für den APEX-Entwickler der HTP-Buffer bereit). INITIALIZE_CLOB_OUTPUT nimmt drei Parameter entgegen. Die ersten beiden Parameter benötigt APEX_JSON zum Erzeugen des temporären CLOBs - sie werden analog zu DBMS_LOB.CREATETEMPORARY genutzt. Der dritte Parameter legt fest, welche Einrückung für die JSON-Hierarchie verwendet werden soll.
Natürlich kann man auch komplexere JSON-Hierarchien generieren; man muss die Aufrufe von OPEN_OBJECT und OPEN_ARRAY nur entsprechend schachteln. Das folgende PL/SQL generiert JSON mit einer Hierarchieebene für die Tabellen DEPT und EMP.
declare
  l_json clob;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, 2);
  apex_json.open_object();
  apex_json.open_array('dept');
  for i in (select * from dept) loop
    apex_json.open_object();
    apex_json.write('deptno', i.deptno);
    apex_json.write('dname',  i.dname);
    apex_json.open_array('emp');
    for e in (select * from emp where deptno = i.deptno) loop
      apex_json.open_object();
      apex_json.write('empno', e.empno);
      apex_json.write('ename', e.ename);
      apex_json.write('sal',   e.sal);
      apex_json.close_object;
    end loop;
    apex_json.close_array;
    apex_json.close_object;
  end loop;
  apex_json.close_array;
  apex_json.close_object;
  dbms_output.put_line(apex_json.get_clob_output);
end;
/

{
  "dept":[
    {
      "deptno":10
     ,"dname":"ACCOUNTING"
     ,"emp":[
        {
          "empno":7782
         ,"ename":"CLARK"
         ,"sal":2450
        }
       ,{
          "empno":7839
         ,"ename":"KING"

:

   ,{
      "deptno":40
     ,"dname":"OPERATIONS"
     ,"emp":[
      ]
    }
  ]
}
Achtet als Entwickler darauf, die OPEN_OBJECT und OPEN_ARRAY Aufrufe korrekt zu schachteln und mit CLOSE_OBJECT und CLOSE_ARRAY-Aufrufen zu schließen. APEX_JSON stellt das nicht sicher, wenn also ein CLOSE_OBJECT-Aufruf fehlt, bekommt Ihr eine ungültige JSON-Struktur. APEX_JSON bietet euch die Prozedur CLOSE_ALL an, die man am besten als letztes aufruft; diese schließt alle noch offenen Objekte und Arrays - und euer JSON ist syntaktisch korrekt.
Das bedeutet aber, dass die JSON-Hierarchie immer in einer PL/SQL-Prozedur oder einem anonymen Block "programmiert" werden muss. Die Frage ist, ob man da nicht etwas automatisieren kann - und in der Tat gibt es eine Variante von APEX_JSON.WRITE, die einen Cursor entgegennimmt. Die probieren wir gleich mal aus: Wir bauen eine SQL-Funktion, die einen beliebigen Cursor entgegennimmt und daraus JSON generiert.
create or replace function make_json(
  p_cursor in sys_refcursor,
  p_root   in varchar2 default 'query',
  p_indent in number default 2
) return clob 
is
  l_json   clob;
  l_cursor sys_refcursor := p_cursor;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, p_indent);
  apex_json.open_object();
  apex_json.write(p_root, l_cursor);
  apex_json.close_object;
  return apex_json.get_clob_output;
end make_json;
/
sho err
Verwendet wird die Funktion wie folgt ...
SQL select make_json(cursor(select * from emp)) as json_clob from dual;

JSON_CLOB
--------------------------------------------------------------------------------
{
  "query":  [
    {
      "EMPNO":7369
     ,"ENAME":"SMITH"
     ,"JOB":"CLERK"
     ,"MGR":7902
     ,"HIREDATE":"1980-12-17T00:00:00Z"
     ,"SAL":800
     ,"DEPTNO":20
    }
   ,{

:

     ,"SAL":1300
     ,"DEPTNO":10
    }
  ]
}
In diese Funktion könnt Ihr nun jede beliebige Query hineingeben; es wird immer ein JSON mit korrekten Attributnamen generiert. Allerdings ist die Struktur des generierten JSON - ebenso wie das Ergebnis einer SQL-Query - immer flach. Manchmal wird aber JSON mit Hierarchie gebraucht - muss man nun wieder programmieren ...?
Interessanterweise gibt es eine Version von APEX_JSON.WRITE, die einen XMLTYPE entgegennimmt. Ginge es nur darum, das XML so, wie es ist, ins JSON einzubauen, könnte man auch mit der APEX_JSON.WRITE-Variante arbeiten, die einen CLOB entgegennimmt. Wenn es aber eine eigene Variante für XMLTYPE gibt, muss mehr dahinterstecken. Probieren wir das mal aus, indem wir eine kleine Objektstruktur als XMLTYPE modellieren und daraus JSON erzeugen ...
declare
  l_json clob;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, 2);
  apex_json.open_object('xml');
  apex_json.write(xmltype(
'<r>
  <c1>Test</c1>
  <c2>Test2</c2>
  <c3>
    <object>
      <a1>A1</a1>
      <a2>A2</a2>
    </object>
  </c3>
</r>'));
  apex_json.close_object;
  dbms_output.put_line(apex_json.get_clob_output);
end;
/

"xml":{
  {"c1":"Test","c2":"Test2","c3":{"object":{"a1":"A1","a2":"A2"}}}
}
APEX_JSON interpretiert den XMLTYPE ganz offensichtlich - und versucht, die XML-Struktur in JSON nachzubilden. Das kann man sich für unsere obige Funktion MAKE_JSON zunutze machen. Angenommen, wir erstellen eine XML-View auf die Tabelle EMP (dazu kann man die seit langem verfügbaren SQL/XML Funktionen hernehmen) ...
create or replace view empxml as 
select 
  empno, 
  xmlelement(
    "EMP",
    xmlelement("ENAME", ename), 
    xmlelement("SAL", ename), 
    xmlelement("MGR_TO", (
      select 
        xmlagg(
          xmlelement("EMP", 
            xmlelement("ENAME", d.ename)
          )
        )
        from emp d 
        where d.mgr = e.empno
      )
    ) 
  ) as xml from emp e
/
Die View lässt sich ganz normal selektieren ...
SQL> select empno, xmlserialize(document xml indent size=2)  xml from empxml e;

     EMPNO XML
---------- ----------------------------------------
      7369 <EMP>
             <ENAME>SMITH</ENAME>
             <SAL>SMITH</SAL>
             <MGR_TO/>
           </EMP>

      7566 <EMP>
             <ENAME>JONES</ENAME>
             <SAL>JONES</SAL>
             <MGR_TO>
               <EMP>
                 <ENAME>SCOTT</ENAME>
               </EMP>
               <EMP>
                 <ENAME>FORD</ENAME>
               </EMP>
             </MGR_TO>
           </EMP>
Gibt man das SELECT auf diese View nun als Cursor in die MAKE_JSON-Funktion, so bekommen wir JSON mit Hierarchie - und das ohne die Hierarchie in PL/SQL explizit zu programmieren ...
SQL> select make_json(cursor(select empno, xml emp from empxml)) from dual;

MAKE_JSON(CURSOR(SELECTEMPNO,XMLEMPFROMEMPXML))
--------------------------------------------------------------------------------
{
  "query":  [
    {
      "EMPNO":7369
     ,"EMP":{"ENAME":"SMITH","SAL":"SMITH","MGR_TO":null}
    }
   ,{
      "EMPNO":7566
     ,"EMP":{"ENAME":"JONES","SAL":"JONES","MGR_TO":[{"ENAME":"SCOTT"},{"ENAME": "FORD"}]}
    }
:

}
Was die XML-Struktur angeht, ist APEX_JSON sehr empfindlich: Angenommen, es soll ein Array mit Objekten, die je mehrere Attribute haben, generiert werden. Dann sollte in der generierten XML-Struktur jedes Objekt nochmals von einem XML-Tag umgeben sein - ist das nicht der Fall, so generiert APEX_JSON unter Umständen eine andere Struktur. Hier muss man einfach ein wenig experimentieren.
Das mit APEX 5.0 eingeführte PL/SQL-Paket APEX_JSON eignet sich auch außerhalb von APEX sehr gut, um JSON aus SQL und PL/SQL heraus zu generieren. Die zu erzeugende JSON-Struktur kann mit PL/SQL-Aufrufen "programmiert" werden. Darüber hinaus bietet APEX_JSON die Möglichkeit an, JSON anhand eines Cursors zu erzeugen; alle Attributnamen werden dann aus den Tabellenspalten abgeleitet. Selektiert dieser Cursor XML-Dokumente als XMLTYPE, so leitet APEX_JSON die JSON-Strukturen aus dem XML ab - komplexe, hierarchische JSON-Strukturen lassen sich so auch ohne PL/SQL-Programmierung erzeugen: Es braucht nur eine generische SQL-Funktion, welche einen Cursor entgegennimmt und ein CLOB zurückliefert.
This Blog Posting is about a PL/SQL package, which has recently been introduced with APEX 5.0, and which is very interesting also for non-APEX Developers: APEX_JSON. This package is based upon the very popular PL/JSON package and provides PL/SQL support for parsing and generating JSON. By building own SQL functions, APEX_JSON functionality can be brought to the SQL layer as well (if you are interested in this, read on). SQL and PL/SQL developers can find two very nice use-cases for APEX_JSON - outside of APEX:
  • JSON can now be parsed also in pre-12.1.0.2 databases. In 12.1.0.2 and higher, I'd recommand to use the new native SQL/JSON functions. JSON_VALUE, JSON_QUERY or JSON_TABLE have been implemented at SQL level, within the database kernel, and should therefore be more efficient than a PL/SQL solution. But those who need to implement JSON parsing on 11.2 or 12.1.0.1, can now use APEX_JSON very nicely for their requirements.
  • Generating JSON from SQL query results or table data is still not possible with SQL alone - even with 12.1.0.2. Until this feature arrives, we can do this kind of work with APEX_JSON.
So, in this blog posting, I'll show how JSON can be generated from table data using APEX_JSON - but at the SQL and PL/SQL layer - without APEX. The next posting will then be about parsing JSON with APEX_JSON. Let's start easy (as always): We want to generate JSON from the well known table EMP and for this first example, the ENAME column is sufficient.
declare
  l_json clob;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, 2);
  apex_json.open_object();
  apex_json.open_array('emp');
  for i in (select ename from emp) loop
    apex_json.open_object();
    apex_json.write('ename', i.ename);
    apex_json.close_object;
  end loop;
  apex_json.close_array;
  apex_json.close_object;
  dbms_output.put_line(apex_json.get_clob_output);
end;
The result of this PL/SQL block is ...
{
  "emp":[
    { "ename":"SMITH" }
   ,{ "ename":"ALLEN" }
   ,{ "ename":"WARD" }
   ,{ "ename":"JONES" }

:

   ,{ "ename":"FORD" }
   ,{ "ename":"MILLER" }
  ]
}
At the beginning, we initialize the JSON generator with INITIALIZE_CLOB_OUTPUT. So, the JSON output will be written to a (temporary) CLOB. Within APEX, there is also the alternative to write the output to the HTP buffer. INITIALIZE_CLOB_OUTPUT takes three parameters. The first two are being used to construct the internal temporary LOB, usage is the same as in DBMS_LOB.CREATETEMPORARY. The third parameter determines the indentation for the JSON hierarchy.
Of course, APEX_JSON also allows to create more complex JSON hierarchies. It's all about the nesting of OPEN_OBJECT and OPEN_ARRAY calls. So, the following example generates "nested JSON" for the tables DEPT and EMP.
declare
  l_json clob;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, 2);
  apex_json.open_object();
  apex_json.open_array('dept');
  for i in (select * from dept) loop
    apex_json.open_object();
    apex_json.write('deptno', i.deptno);
    apex_json.write('dname',  i.dname);
    apex_json.open_array('emp');
    for e in (select * from emp where deptno = i.deptno) loop
      apex_json.open_object();
      apex_json.write('empno', e.empno);
      apex_json.write('ename', e.ename);
      apex_json.write('sal',   e.sal);
      apex_json.close_object;
    end loop;
    apex_json.close_array;
    apex_json.close_object;
  end loop;
  apex_json.close_array;
  apex_json.close_object;
  dbms_output.put_line(apex_json.get_clob_output);
end;
/

{
  "dept":[
    {
      "deptno":10
     ,"dname":"ACCOUNTING"
     ,"emp":[
        {
          "empno":7782
         ,"ename":"CLARK"
         ,"sal":2450
        }
       ,{
          "empno":7839
         ,"ename":"KING"

:

   ,{
      "deptno":40
     ,"dname":"OPERATIONS"
     ,"emp":[
      ]
    }
  ]
}
Note, that you as the developer are responsible for the correct nesting of your OPEN_OBJECT and OPEN_ARRAY calls and that you have to call CLOSE_OBJECT and CLOSE_ARRAY repectively. Opening an object or an array without closing it leads to a wrong or invalid JSON structure. APEX_JSON provides the CLOSE_ALL procedure, which is best being called at the end of your procedure; it will prevent generating JSON with objects unclosed.
It seems that the JSON hierarchy always has to be "coded" with PL/SQL calls in a procedure or an anonymous block. In practice, we often need something more "automagically": We want to provide a query - and the generator does the rest. For this purpose, one overloading of APEX_JSON.WRITE takes a cursor as parameter. Let's try this out: We build a generic SQL function, taking a Cursor as its parameter and generating JSON from that cursor with APEX_JSON.
create or replace function make_json(
  p_cursor in sys_refcursor,
  p_root   in varchar2 default 'query',
  p_indent in number default 2
) return clob 
is
  l_json   clob;
  l_cursor sys_refcursor := p_cursor;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, p_indent);
  apex_json.open_object();
  apex_json.write(p_root, l_cursor);
  apex_json.close_object;
  return apex_json.get_clob_output;
end make_json;
/
sho err
This function can be used as follows ...
SQL select make_json(cursor(select * from emp)) as json_clob from dual;

JSON_CLOB
--------------------------------------------------------------------------------
{
  "query":  [
    {
      "EMPNO":7369
     ,"ENAME":"SMITH"
     ,"JOB":"CLERK"
     ,"MGR":7902
     ,"HIREDATE":"1980-12-17T00:00:00Z"
     ,"SAL":800
     ,"DEPTNO":20
    }
   ,{

:

     ,"SAL":1300
     ,"DEPTNO":10
    }
  ]
}
Now we have a function which can take any SQL query to generate JSON from its results. And we can use this query in the SQL layer - no PL/SQL needed from here on. With this function you should be able to take out a large amount of PL/SQL "JSON generator" code. This function does it all.
The JSON structure coming out of this function will always be as flat as a SQL query result is. In some cases, more complex JSON with a hierarchy is needed - does that mean we have to write PL/SQL code again ...?
Interestingly, there is another overloading of APEX_JSON.WRITE. This one takes XMLTYPE as its parameter, and its purpose is not to simply embed XML to the JSON output (the CLOB variant does this). This function can do more - and to explore how it works, again, a simple example is needed: Let's model a simple object structure as XMLTYPE and pass this to APEX_JSON.WRITE.
declare
  l_json clob;
begin
  apex_json.initialize_clob_output(DBMS_LOB.CALL, true, 2);
  apex_json.open_object('xml');
  apex_json.write(xmltype(
'<r>
  <c1>Test</c1>
  <c2>Test2</c2>
  <c3>
    <object>
      <a1>A1</a1>
      <a2>A2</a2>
    </object>
  </c3>
</r>'));
  apex_json.close_object;
  dbms_output.put_line(apex_json.get_clob_output);
end;
/

"xml":{
  {"c1":"Test","c2":"Test2","c3":{"object":{"a1":"A1","a2":"A2"}}}
}
APEX_JSON examines the XMLTYPE and tries to rebuild the XML structure in the JSON output. We can use this for the above MAKE_JSON function - the cursor needs to select an XMLTYPE column, then. Thus, we now create a more complex XML structure for the data within the EMP table. We use the SQL/XML functions to generate XML and encapsulate the SQL query in a view.
create or replace view empxml as 
select 
  empno, 
  xmlelement(
    "EMP",
    xmlelement("ENAME", ename), 
    xmlelement("SAL", ename), 
    xmlelement("MGR_TO", (
      select 
        xmlagg(
          xmlelement("EMP", 
            xmlelement("ENAME", d.ename)
          )
        )
        from emp d 
        where d.mgr = e.empno
      )
    ) 
  ) as xml from emp e
/
The view can be selected ...
SQL> select empno, xmlserialize(document xml indent size=2)  xml from empxml e;

     EMPNO XML
---------- ----------------------------------------
      7369 <EMP>
             <ENAME>SMITH</ENAME>
             <SAL>SMITH</SAL>
             <MGR_TO/>
           </EMP>

      7566 <EMP>
             <ENAME>JONES</ENAME>
             <SAL>JONES</SAL>
             <MGR_TO>
               <EMP>
                 <ENAME>SCOTT</ENAME>
               </EMP>
               <EMP>
                 <ENAME>FORD</ENAME>
               </EMP>
             </MGR_TO>
           </EMP>
Passing this query to the MAKE_JSON function leads to a JSON result with a hierarchy according to the structure of the XMLTYPE column XML. We generated JSON with a hierarchy, but we did not hard-code it with PL/SQL calls.
SQL> select make_json(cursor(select empno, xml emp from empxml)) from dual;

MAKE_JSON(CURSOR(SELECTEMPNO,XMLEMPFROMEMPXML))
--------------------------------------------------------------------------------
{
  "query":  [
    {
      "EMPNO":7369
     ,"EMP":{"ENAME":"SMITH","SAL":"SMITH","MGR_TO":null}
    }
   ,{
      "EMPNO":7566
     ,"EMP":{"ENAME":"JONES","SAL":"JONES","MGR_TO":[{"ENAME":"SCOTT"},{"ENAME": "FORD"}]}
    }
:

}
APEX_JSON seems to be a but picky regarding the XML structure; for instance, objects with multiple attributes should be encapsulated with an XML tag; if this is missing, you'll not get the right JSON structure. You might need to experiment a bit ...
Summarized, I think that the new APEX_JSON package introduced with APEX 5.0, is very usable outside of APEX as well. The SQL and PL/SQL programmer finds a nice solution for their "Generating JSON" needs. The option to generate JSON from a cursor allows very generic solutions - one PL/SQL procedure is able to generate JSON from multiple tables - always with correct attributes. Bringing XMLTYPE into the game even allows generic solutions with complex hierarchys. A simple SQL function taking a cursor and returning a CLOB brings all this functionality to the SQL layer.

2. April 2015

DOAG DevCamp - und weitere Veranstaltungen im Frühjahr 2015

This blog posting is about some upcoming events in Germany and in german language - and therefore in german only. Makes sense, doesn't it?
Auch wenn ich dieses Jahr wegen anderer Termine nicht teilnehmen kann, so möchte ich dennoch eine Lanze für das DOAG DevCamp, welches am 29. und 30. April in Frankfurt stattfindet, brechen. Dieses Mal steht die Veranstaltung unter dem allgemeinen Thema Upcycling Software - welches uns im Umfeld von Unternehmensdatenbanken und den Systemen drumherum immer wieder betrifft.
Auf dem ersten DevCamp letztes Jahr in München war ich dabei - und von der Art und Weise der Veranstaltung wirklich angetan. Es gibt im Vorfeld keine feste Agenda, zu Beginn kommen alle Teilnehmer zusammen und erstellen die Agenda gemeinsam. Das Format ist unglaublich flexibel und spontan - und auch ohne vorbereitete Vorträge entstehen Diskussionen, man bekommt eine Menge neuer Ideen, Gedanken und Anregungen.
Insofern: Wer noch kein Barcamp besucht hat, dem möchte ich das hiermit wärmstens empfehlen - probiert es einfach mal aus. Und wer schonmal auf einem war ... der weiss ja Bescheid.
Ich selbst werde, wie schon gesagt, dieses Mal nicht dabei sein - dafür findet Ihr mich in April, Mai und Juni auf folgenden DOAG Veranstaltungen.
  • DOAG BI 2015 in München:
    Hier bin ich mit zwei Vorträgen vertreten. Einmal zum Thema D3.js im Unternehmenseinsatz (auf den freue ich mich besonders) und einmal zum Thema Geodaten mit SQL - und ohne Karte.
  • DOAG Oracle Spatial & Geodata Day:
    Hier trifft sich die Oracle Geodaten-Community - zum ersten Mal nach etwas längerer Zeit. An diesem Tag geht es um Geodaten, die Oracle Datenbank und was man damit machen kann. Themen wie Routing mit der Datenbank, Adressvalidierung mit einem Geocoder und OpenStreetMap-Daten mit Oracle machen doch neugierig, oder?
  • DOAG APEX Connect 2015:
    Und natürlich bin ich beim Highlight des Jahres für alle APEX-Entwickler und solche, die es werden wollen, mit dabei. Die APEX Connect ist die erste reine APEX-Konferenz im deutschsprachigen Raum: Zwei Tage lang nur APEX und sonst nix.

17. März 2015

String-Operationen auf CLOBs - richtig schnell machen!

Making string operations on a CLOB really fast
Dieses Blog Posting behandelt das Thema CLOB, Stringoperationen und PL/SQL - es geht um verschiedene Varianten, wie man mit einer PL/SQL Prozedur, per Zeichenverkettung, einen CLOB zusammenbauen kann. Das kommt in der Praxis ja gar nicht so selten vor. Interessant ist, dass die Performance je nach gewähltem Ansatz wirklich völlig verschieden sein kann. In meinem Beispiel braucht - bei gleichen Datenmengen - die langsamste Methode über 4 Minuten, wogegen die schnellste in 0.2 Sekunden fertig ist.
Zunächst zur Aufgabe: Die etwa 920.000 Zeilen der Demotabelle SALES im Schema SH ...
SQL> select * from sh.sales 

PROD_ID CUST_ID TIME_ID             CHANNEL_ID PROMO_ID QUANTITY_SOLD AMOUNT_SOLD
------- ------- ------------------- ---------- -------- ------------- -----------
     13     987 10.01.1998 00:00:00          3      999             1        1232
     13    1660 10.01.1998 00:00:00          3      999             1        1232
     13    1762 10.01.1998 00:00:00          3      999             1        1232
     13    1843 10.01.1998 00:00:00          3      999             1        1232
     13    1948 10.01.1998 00:00:00          3      999             1        1232
     13    2273 10.01.1998 00:00:00          3      999             1        1232
      :       :                   :          :        :             :           : 
... sollen, semikolon-separiert, in einen CLOB geladen werden.
13;987;10.01.1998 00:00:00;3;999;1;1232,16
13;1660;10.01.1998 00:00:00;3;999;1;1232,16
13;1762;10.01.1998 00:00:00;3;999;1;1232,16
13;1843;10.01.1998 00:00:00;3;999;1;1232,16
13;1948;10.01.1998 00:00:00;3;999;1;1232,16
:
Damit die Tests nicht so lange dauern, beschränke ich mich bei meinen Tests auf die ersten 10.000 Zeilen. Der erste Versuch ist der naivste, ganz einfach "herunterprogrammiert": Ein impliziter Cursor wird geöffnet und in der Cursor-Loop wird der CLOB Schritt für Schritt zusammenkonkateniert. Man kann das mit einen CLOB tatsächlich genauso machen wie mit einem VARCHAR2.
declare
  l_clob clob := '';
begin
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
   l_clob := l_clob || to_char(i.PROD_ID) || ';' || 
                       to_char(i.CUST_ID) || ';' ||  
                       to_char(i.TIME_ID) || ';' ||  
                       to_char(i.CHANNEL_ID) || ';' || 
                       to_char(i.PROMO_ID) || ';' || 
                       to_char(i.QUANTITY_SOLD) || ';' || 
                       to_char(i.AMOUNT_SOLD)|| chr(10);
  end loop;
  dbms_output.put_line(length(l_clob));
  dbms_output.put_line(substr(l_clob, 1, 400));
end;
/
sho err
Da wir schon im Vorfeld wissen, dass das Ergebnis größer als 32.767 Byte sein wird, ist die Variable l_clob nicht vom Typ VARCHAR2, sondern CLOB. Trotzdem kann man in PL/SQL, ganz normal, mit dem || zur Zeichenverkettung arbeiten. Allerdings läuft diese Prozedur lange - allein für 10.000 Zeilen braucht sie etwa 4 Minuten. Über die Laufzeit für alle 920.000 Zeilen möchte ich gar nicht nachdenken.
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL-Prozedur erfolgreich abgeschlossen.

Abgelaufen: 00:04:23.60
Anhand der Data Dictionary-View V$TEMPORARY_LOBS kann man feststellen, dass, während die Prozedur läuft, temporäre LOBs entstehen. Ein temporärer LOB ist ein LOB-Objekt, was nicht in einer Tabelle liegt, sondern nur transient existiert - beispielsweise in einer PL/SQL-Variable. Ein LOB ist immer persistent - in einer Tabelle - oder temporär.
SQL> select * from v$temporary_lobs

       SID CACHE_LOBS NOCACHE_LOBS ABSTRACT_LOBS
---------- ---------- ------------ -------------
        20          0            0             0
        38          0            0             0
       272          6            0             0
Tatsächlich läuft obiger Code nicht optimal. Vor allem das Anhängen der einzelnen Tabellenspalten an den CLOB sorgt dafür, dass sehr viele Konvertierungen von VARCHAR2 nach CLOB stattfinden, und dass sehr viele LOB-Operationen erfolgen. Generell ist das Anhängen eines Strings an einen CLOB wesentlich teurer als an einen VARCHAR2 - hier der Beweis: Zunächst 30.000 Zeichenverkettungen auf einem CLOB ...
declare
  v_result clob;
begin
  for i in 1..30000 loop
    v_result := v_result || '*';
  end loop;
end;
/

PL/SQL-Prozedur erfolgreich abgeschlossen.

Abgelaufen: 00:00:00.56
... dann 30.000 Zeichenverkettungen mit einem VARCHAR2 ...
declare
  v_result varchar2(32000);
begin
  for i in 1..30000 loop
    v_result := v_result || '*';
  end loop;
end;
/

PL/SQL-Prozedur erfolgreich abgeschlossen.

Abgelaufen: 00:00:00.01
Das scheint zumindest etwa der Faktor 60 zu sein; wenn nicht sogar noch mehr. Der nächste Schritt wäre also, dafür zu sorgen, dass unser Code weniger LOB-Verkettungen und mehr VARCHAR2-Verkettungen macht. Das ist auch ganz einfach: Eine Tabellenzeile wird zuerst in eine Variable vom Typ VARCHAR2 geladen und erst dann an den CLOB angehängt ...
declare
  l_clob clob := '';
  l_str  varchar2(32000);
begin
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
    l_str := to_char(i.PROD_ID) || ';' || 
             to_char(i.CUST_ID) || ';' ||  
             to_char(i.TIME_ID) || ';' ||  
             to_char(i.CHANNEL_ID) || ';' || 
             to_char(i.PROMO_ID) || ';' || 
             to_char(i.QUANTITY_SOLD) || ';' || 
             to_char(i.AMOUNT_SOLD)|| chr(10);
    l_clob := l_clob || l_str;
  end loop;
  dbms_output.put_line(length(l_clob));
  dbms_output.put_line(substr(l_clob, 1, 400));
end;
/
sho err
Das Ergebnis kann sich sehen lassen ...
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL-Prozedur erfolgreich abgeschlossen.

Abgelaufen: 00:00:01.61
Damit sind wir von 4 Minuten auf 2 Sekunden herunter - das ist stark. Die ganze Datenmenge von 920.000 Zeilen wird dann also etwa 3 Minuten brauchen. Man kann sogar schon nachdenken, hier aufzuhören ... aber wir sind noch nicht fertig.
Wieder schauen wir in die Dictionary View V$TEMPORARY_LOBS, und diesmal zeigt sie nur noch zwei temporäre LOBs an (vorher waren es sechs). Wenn man aber genauer nachdenkt, so müsste einer eigentlich ausreichen. Es braucht einen einzigen temporären LOB (für das Ergebnis); an den wird alles angehängt. Der PL/SQL Code braucht aber zwei. Nun, im PL/SQL-Code haben wir die Syntax für VARCHAR2 verwendet und es der Engine überlassen, das korrekt auf den CLOB anzuwenden. Machen wir die Arbeit doch mal selbst: Alle Zeichenoperationen, die auf dem CLOB stattfinden, sind nun mit dem Paket DBMS_LOB realisiert. Außerdem legen wir unseren temporären LOB (ebenfalls mit DBMS_LOB) selbst an.
declare
  l_clob clob := '';
  l_str  varchar2(32000);
begin
  dbms_lob.createtemporary(l_clob, true, dbms_lob.call);
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
    l_str := to_char(i.PROD_ID) || ';' || 
             to_char(i.CUST_ID) || ';' ||  
             to_char(i.TIME_ID) || ';' ||  
             to_char(i.CHANNEL_ID) || ';' || 
             to_char(i.PROMO_ID) || ';' || 
             to_char(i.QUANTITY_SOLD) || ';' || 
             to_char(i.AMOUNT_SOLD)|| chr(10);
    dbms_lob.writeappend(l_clob, length(l_str), l_str);
  end loop;
  dbms_output.put_line(dbms_lob.getlength(l_clob));
  dbms_output.put_line(dbms_lob.substr(l_clob, 400, 1));
end;
/
sho err
Wieder gibt es eine Verbesserung. Der Mehraufwand für die "Übersetzung" der Stringoperationen auf das manchmal umständliche DBMS_LOB hat sich gelohnt: Nochmals Faktor 4.
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL-Prozedur erfolgreich abgeschlossen.

Abgelaufen: 00:00:00.35
Kann man noch mehr rausholen? Ja, es geht noch was: Wir haben festgestellt, dass eine Zeichenverkettung für einen LOB wesentlich teurer ist als für ein VARCHAR2. Derzeit bauen wir eine Tabellenzeile als VARCHAR2 zusammen und hängen sie an den CLOB an. Wir haben also soviele LOB-Operationen, wie es Tabellenzeilen gibt. Nun könnte man aber doch mehrere Tabellenzeilen zu einem VARCHAR2 zusammenfassen und die LOB-Operation erst dann machen, wenn der VARCHAR2 "Puffer" mit 32.000 Bytes "voll" ist. In Code sieht das so aus:
declare
  l_clob  clob := '';
  l_str   varchar2(32000) := '';
  l_block varchar2(32000) := '';
begin
  dbms_lob.createtemporary(l_clob, true, dbms_lob.call);
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
    l_str := to_char(i.PROD_ID) || ';' || 
             to_char(i.CUST_ID) || ';' ||  
             to_char(i.TIME_ID) || ';' ||  
             to_char(i.CHANNEL_ID) || ';' || 
             to_char(i.PROMO_ID) || ';' || 
             to_char(i.QUANTITY_SOLD) || ';' || 
             to_char(i.AMOUNT_SOLD)|| chr(10);
    if length(l_block) + length(l_str) > 32000 then
      dbms_lob.writeappend(l_clob, length(l_block), l_block);
      l_block := '';
    end if;
    l_block := l_block || l_str;
  end loop;
  dbms_lob.writeappend(l_clob, length(l_block), l_block);
  dbms_output.put_line(dbms_lob.getlength(l_clob));
  dbms_output.put_line(dbms_lob.substr(l_clob, 400, 1));
end;
/
sho err
Das war Mehraufwand ... aber es hat sich tatsächlich nochmal gelohnt.
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL-Prozedur erfolgreich abgeschlossen.

Abgelaufen: 00:00:00.13
Und damit wäre ich am Optimierungsende angekommen. Es ist schon erstaunlich, was man mit geschicktem Coding herausholen kann. Bei dieser Prozedur traue ich mich nun, die ROWNUM-Beschränkung herauszuholen und den CLOB für die ganze Tabelle generieren zu lassen - der 39MB große CLOB ist in 6 Sekunden erzeugt. Es zeigt sich deutlich, dass, beim Arbeiten mit LOBs, am PL/SQL Paket DBMS_LOB kein Weg vorbeiführt.
Viel Spaß beim Ausprobieren ...
This blog posting is about the CLOB datatype, string operations and PL/SQL. I will elaborate about four different methods to "build" a CLOB from table data with PL/SQL. For 10000 rows, the execution time will vary from 4 Minutes to 0.2 seconds. If you want to know, why the DBMS_LOB package is so important and how to make string operations on CLOB variables really fast, read on.
The exercise: We want to build a CLOB, containing semicolon-separated data, from the well-known demo table SALES within the schema SH. This table contains about 920000 rows.
SQL> select * from sh.sales 

PROD_ID CUST_ID TIME_ID             CHANNEL_ID PROMO_ID QUANTITY_SOLD AMOUNT_SOLD
------- ------- ------------------- ---------- -------- ------------- -----------
     13     987 10.01.1998 00:00:00          3      999             1        1232
     13    1660 10.01.1998 00:00:00          3      999             1        1232
     13    1762 10.01.1998 00:00:00          3      999             1        1232
     13    1843 10.01.1998 00:00:00          3      999             1        1232
     13    1948 10.01.1998 00:00:00          3      999             1        1232
     13    2273 10.01.1998 00:00:00          3      999             1        1232
      :       :                   :          :        :             :           : 
Our result will look like this:
13;987;10.01.1998 00:00:00;3;999;1;1232,16
13;1660;10.01.1998 00:00:00;3;999;1;1232,16
13;1762;10.01.1998 00:00:00;3;999;1;1232,16
13;1843;10.01.1998 00:00:00;3;999;1;1232,16
13;1948;10.01.1998 00:00:00;3;999;1;1232,16
:
To save some time, I will start with focusing on the first 10000 rows. We'll run our procedure for the full dataset, when we have found the most efficient approach. Our first approach: We'll loop using an implicit cursor and use PL/SQL string concatenation operators in order to build the CLOB (as we would do for VARCHAR2). Pretty simple.
declare
  l_clob clob := '';
begin
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
   l_clob := l_clob || to_char(i.PROD_ID) || ';' || 
                       to_char(i.CUST_ID) || ';' ||  
                       to_char(i.TIME_ID) || ';' ||  
                       to_char(i.CHANNEL_ID) || ';' || 
                       to_char(i.PROMO_ID) || ';' || 
                       to_char(i.QUANTITY_SOLD) || ';' || 
                       to_char(i.AMOUNT_SOLD)|| chr(10);
  end loop;
  dbms_output.put_line(length(l_clob));
  dbms_output.put_line(substr(l_clob, 1, 400));
end;
/
sho err
We already know that our result will be larger than 32767 bytes. So we cannot use a VARCHAR2, we must use CLOB as datatype for the variable l_clob. But we can use "normal" PL/SQL string concatenation syntax, though. For 10000 rows, this procedure takes about 4 Minutes - which is long. I don't even want to think about the time needed for the whole table ...
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL procedure successfully completed.

Elapsed: 00:04:23.60
While the procedure runs, it's worthful to have a look into the V$TEMPORARY_LOBS data dictionary view. You'll see that your database session creates some temporary lobs.
SQL> select * from v$temporary_lobs

       SID CACHE_LOBS NOCACHE_LOBS ABSTRACT_LOBS
---------- ---------- ------------ -------------
        20          0            0             0
        38          0            0             0
       272          6            0             0
Let's get this straight: This code is far away from being optimal. All these string concatenation operations on the CLOB variable lead to (too) many temporary lobs being created. And string concatenations on CLOBs are, in general, far more expensive then on VARCHAR2s. Try it out: Here are 30000 string concatenations on a CLOB ...
declare
  v_result clob;
begin
  for i in 1..30000 loop
    v_result := v_result || '*';
  end loop;
end;
/

PL/SQL procedure successfully completed.

Elapsed: 00:00:00.56
... and here is the same on a VARCHAR2:
declare
  v_result varchar2(32000);
begin
  for i in 1..30000 loop
    v_result := v_result || '*';
  end loop;
end;
/

PL/SQL procedure successfully completed.

Elapsed: 00:00:00.01
That is at least factor 50 to 60. So, our next step must be to eliminate string concatenations on the CLOB. This is more easy than you might think: We can build a VARCHAR2 for a complete table row and finally append this (full row) to the CLOB.
declare
  l_clob clob := '';
  l_str  varchar2(32000);
begin
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
    l_str := to_char(i.PROD_ID) || ';' || 
             to_char(i.CUST_ID) || ';' ||  
             to_char(i.TIME_ID) || ';' ||  
             to_char(i.CHANNEL_ID) || ';' || 
             to_char(i.PROMO_ID) || ';' || 
             to_char(i.QUANTITY_SOLD) || ';' || 
             to_char(i.AMOUNT_SOLD)|| chr(10);
    l_clob := l_clob || l_str;
  end loop;
  dbms_output.put_line(length(l_clob));
  dbms_output.put_line(substr(l_clob, 1, 400));
end;
/
sho err
The result is nothing less than impressive ...
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL procedure successfully completed.

Elapsed: 00:00:01.61
We are down from 4 Minutes to 2 seconds; just with a very tiny code adjustment. For the complete dataset of 920000 rows, we now have to expect an execution time of about 3 minutes. But we are not finished here - the story continues ...
Again, we have a look into V$TEMPORARY_LOBS, while the procedure is running. It shows us that two temporary LOBs are in use. But we really need only one temporary LOB and nothing more. Why? Because our result (which is a CLOB) must be hold as temporary LOB; all other temporary content can be handled as VARCHAR2. Since we used plain PL/SQL string operations, we left it up to the engine, how these operations are to be exeucuted on the CLOB. Thus, in our third approach, we'll do the job ourselves: All string operations are now done with the procedures and functions of the DBMS_LOB package. And ... we'll also create the temporary LOB explicitly and ourselves.
declare
  l_clob clob := '';
  l_str  varchar2(32000);
begin
  dbms_lob.createtemporary(l_clob, true, dbms_lob.call);
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
    l_str := to_char(i.PROD_ID) || ';' || 
             to_char(i.CUST_ID) || ';' ||  
             to_char(i.TIME_ID) || ';' ||  
             to_char(i.CHANNEL_ID) || ';' || 
             to_char(i.PROMO_ID) || ';' || 
             to_char(i.QUANTITY_SOLD) || ';' || 
             to_char(i.AMOUNT_SOLD)|| chr(10);
    dbms_lob.writeappend(l_clob, length(l_str), l_str);
  end loop;
  dbms_output.put_line(dbms_lob.getlength(l_clob));
  dbms_output.put_line(dbms_lob.substr(l_clob, 400, 1));
end;
/
sho err
Using this obscure DBMS_LOB package seems to pay off: Performance improvement by factor 4.
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL procedure successfully completed.

Elapsed: 00:00:00.35
That's all ...? No, we can get even better: We have learned, that a string operation on a CLOB is far more expensive than on a VARCHAR2. Now, we build each table row as VARCHAR2 and append it to the CLOB. So we have as many CLOB concatenations as there are table rows. But we could also aggregate multiple table rows into the VARCHAR2, up to its limit of 32000 bytes. When the VARCHAR buffer is full, we append it to the CLOB and start again. Translated to code, this looks as follows ...
declare
  l_clob  clob := '';
  l_str   varchar2(32000) := '';
  l_block varchar2(32000) := '';
begin
  dbms_lob.createtemporary(l_clob, true, dbms_lob.call);
  for i in (
    select * from sh.sales where rownum <= 10000
  ) loop
    l_str := to_char(i.PROD_ID) || ';' || 
             to_char(i.CUST_ID) || ';' ||  
             to_char(i.TIME_ID) || ';' ||  
             to_char(i.CHANNEL_ID) || ';' || 
             to_char(i.PROMO_ID) || ';' || 
             to_char(i.QUANTITY_SOLD) || ';' || 
             to_char(i.AMOUNT_SOLD)|| chr(10);
    if length(l_block) + length(l_str) > 32000 then
      dbms_lob.writeappend(l_clob, length(l_block), l_block);
      l_block := '';
    end if;
    l_block := l_block || l_str;
  end loop;
  dbms_lob.writeappend(l_clob, length(l_block), l_block);
  dbms_output.put_line(dbms_lob.getlength(l_clob));
  dbms_output.put_line(dbms_lob.substr(l_clob, 400, 1));
end;
/
sho err
It's faster - again.
426038
13;987;10.01.1998 00:00:00;3;999;1;1232,16
:
13;2683;10.01.1998 00:00:00;3;999;1;1232,16
13;2865;10.01.1998 00:00:00;3;999;1;1232,16
13;46

PL/SQL procedure successfully completed.

Elapsed: 00:00:00.13
And this is the end of the optimization. These differences are stunning: We started with 4 minutes and came down to 0.2 seconds; which is a factor of 1200. Now, I'm totally relaxed when running the code for whole table of 920000 rows - the CLOB of 39MB is being build in just 6 seconds. As so often, the first and "most easy" approach isn't the best: When it's about working with CLOBs, there is now way around the (kind of obscure) DBMS_LOB package. Getting familiar with it, is (as we see) absolutely worth the effort ...
As always - habe a lot of fun while playing with this ...

Beliebte Postings