all repos — gemini-redirect @ eeab66bc9b797abda69f66981da8479ba428a2e4

blog/mdad/cassandra-introduccion/index.html (view raw)

 1<!DOCTYPE html>
 2<html>
 3<head>
 4<meta charset="utf-8" />
 5<meta name="viewport" content="width=device-width, initial-scale=1" />
 6<title>Cassandra: Introducción</title>
 7<link rel="stylesheet" href="../css/style.css">
 8</head>
 9<body>
10<main>
11<p><img src="1200px-Cassandra_logo.png" alt="" /></p>
12<div class="date-created-modified">Created 2020-03-05<br>
13Modified 2020-03-30</div>
14<p>Este es el primer post en la serie sobre Cassandra, en el cuál introduciremos dicha bases de datos NoSQL y veremos sus características e instalación.</p>
15<p>Otros posts en esta serie:</p>
16<ul>
17<li><a href="/blog/mdad/cassandra-introduccion/">Cassandra: Introducción</a> (este post)</li>
18<li><a href="/blog/mdad/cassandra-operaciones-basicas-y-arquitectura/">Cassandra: Operaciones Básicas y Arquitectura</a></li>
19</ul>
20<p>Este post está hecho en colaboración con un compañero.</p>
21<hr />
22<h2 class="title" id="finalidad_de_la_tecnología"><a class="anchor" href="#finalidad_de_la_tecnología">¶</a>Finalidad de la tecnología</h2>
23<p>Apache Cassandra es una base de datos NoSQL distribuida y de código abierto (<a href="https://github.com/apache/cassandra">con un espejo en GitHub</a>). Su filosofía es de tipo «clave-valor», y puede manejar grandes volúmenes de datos</p>
24<p>Entre sus objetivos, busca ser escalable horizontalmente (puede replicarse en varios centros manteniendo la latencia baja) y alta disponibilidad sin ceder en rendimiento.</p>
25<h2 id="cómo_funciona"><a class="anchor" href="#cómo_funciona">¶</a>Cómo funciona</h2>
26<p>Instancias de Cassandra se distribuyen en nodos iguales (es decir, no hay maestro-esclavo) que se comunican entre sí (P2P). De este modo, da buen soporte entre varios centros de datos, con redundancia y réplicas síncronas.</p>
27<p><img src="multiple-data-centers-and-data-replication-in-cassandra.jpg" alt="" /></p>
28<p>Con respecto al modelo de datos, Cassandra particiona las filas con el objetivo de re-organizarla a lo largo distintas tablas. Como clave primaria, se usa un primer componente conocido como «clave de la partición». Dentro de cada partición, las filas se agrupan según el resto de columnas de la clave. Cualquier otra columna se puede indexar independientemente de la clave primaria.</p>
29<p>Las tablas se pueden crear, borrar, actualizar y consultar sin bloqueos. No hay soporte para JOIN o subconsultas, pero Cassandra prefiere de-normalizar los datos haciendo uso de características como coleciones.</p>
30<p>Para realizar las operaciones sobre cassandra se usa CQL (Cassandra Query Language), que tiene una sintaxis muy similar a SQL.</p>
31<h2 id="características"><a class="anchor" href="#características">¶</a>Características</h2>
32<p>Como ya hemos mencionado antes, la arquitectura de Cassandra es <strong>decentralizada</strong>. No tiene un único punto que pudiera fallar porque todos los nodos son iguales (sin maestros), y por lo tanto, cualquiera puede dar servicio a la petición.</p>
33<p>Los datos se encuentran <strong>replicados</strong> entre los distintos nodos del clúster (lo que ofrece gran <strong>tolerancia a fallos</strong> sin necesidad de interrumpir la aplicación), y es trivial <strong>escalar</strong> añadiendo más nodos al sistema.</p>
34<p>El nivel de <strong>consistencia</strong> para lecturas y escrituras es configurable.</p>
35<p>Siendo de la familia Apache, Cassandra ofrece integración con Apache Hadoop para tener soporte MapReduce.</p>
36<h2 id="arista_dentro_del_teorema_cap"><a class="anchor" href="#arista_dentro_del_teorema_cap">¶</a>Arista dentro del Teorema CAP</h2>
37<p>Cassandra se encuentra dentro de la esquina «AP» junto con CouchDB y otros, porque garantiza tanto la disponibilidad como la tolerancia a fallos.</p>
38<p>Sin embargo, puede configurarse como un sistema «CP» si se prefiere respetar la consistencia en todo momento.</p>
39<p><img src="0.jpeg" alt="" /></p>
40<h2 id="descarga"><a class="anchor" href="#descarga">¶</a>Descarga</h2>
41<p>Se pueden seguir las instrucciones de la página oficial para <a href="https://cassandra.apache.org/download/">descargar Cassandra</a>. Para ello, se debe clicar en la <a href="https://www.apache.org/dyn/closer.lua/cassandra/3.11.6/apache-cassandra-3.11.6-bin.tar.gz">última versión para descargar el archivo</a>. En nuestro caso, esto es el enlace nombrado «3.11.6», versión que utilizamos.</p>
42<h2 id="instalación"><a class="anchor" href="#instalación">¶</a>Instalación</h2>
43<p>Cassandra no ofrece binarios para Windows, por lo que usaremos Linux para instalarlo. En nuestro caso, tenemos un sistema Linux Mint (derivado de Ubuntu), pero una máquina virtual con cualquier Linux debería funcionar.</p>
44<p>Debemos asegurarnos de tener Java y Python 2 instalado mediante el siguiente comando:</p>
45<pre><code>apt install openjdk-8-jdk openjdk-8-jre python2.7
46</code></pre>
47<p>Para verificar que la instalación ha sido correcta, podemos mostrar las versiones de los programas:</p>
48<pre><code>$ java -version
49openjdk version &quot;1.8.0_242&quot;
50OpenJDK Runtime Environment (build 1.8.0_242-8u242-b08-0ubuntu3~18.04-b08)
51OpenJDK 64-Bit Server VM (build 25.242-b08, mixed mode)
52
53$ python2 --version
54Python 2.7.17
55</code></pre>
56<p>Una vez las dependencias estén instaladas, extraemos el fichero descargado o bien mediante la interfaz gráfica de nuestro sistema, o bien mediante un comando:</p>
57<pre><code>tar xf apache-cassandra-3.11.6-bin.tar.gz
58</code></pre>
59<p>Y finalmente, lanzar la ejecución de Cassandra:</p>
60<pre><code>apache-cassandra-3.11.6/bin/cassandra
61</code></pre>
62<p>Es posible que tarde un poco en abrirse, pero luego debería haber muchas líneas de log indicando. Para apagar el servidor, simplemente basta con pulsar <code>Ctrl+C</code>.</p>
63<h2 id="referencias"><a class="anchor" href="#referencias">¶</a>Referencias</h2>
64<ul>
65<li><a href="https://blog.yugabyte.com/apache-cassandra-architecture-how-it-works-lightweight-transactions/">Apache Cassandra Architecture Fundamentals – The Distributed SQL Blog</a></li>
66<li><a href="https://cassandra.apache.org/">Apache Cassandra</a></li>
67<li><a href="https://www.datastax.com/blog/2019/05/how-apache-cassandratm-balances-consistency-availability-and-performance">How Apache Cassandra™ Balances Consistency, Availability, and Performance – Datasax</a></li>
68<li><a href="https://blog.yugabyte.com/apache-cassandra-architecture-how-it-works-lightweight-transactions/">Apache Cassandra Architecture Fundamentals</a></li>
69</ul>
70</main>
71</body>
72</html>
73