MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA EN BIG DATA · Gráfico 3. Total de publicaciones de Big...
Transcript of MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA EN BIG DATA · Gráfico 3. Total de publicaciones de Big...
MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA
EN BIG DATA
Ministerio de Ciencia, Tecnología e Innovación ProductivaSecretaría de Planeamiento y Políticas
2
AUTORIDADES
Presidenta de la Nación
Dra. Cristina Fernández de Kirchner
Ministro de Ciencia, Tecnología e Innovación Productiva
Dr. Lino Barañao
Secretaria de Planeamiento y Políticas en Ciencia, Tecnología
e Innovación Productiva
Dra. Ruth Ladenheim
Subsecretario de Estudios y Prospectiva
Lic. Jorge Robbio
Director Nacional de Información Científica
Lic. Gustavo Arber
3
RECONOCIMIENTOS
El presente estudio fue elaborado por la Dirección Nacional de Información Científica
(DNIC) de la Subsecretaría de Estudios y Prospectiva dependiente de la Secretaría de
Planeamiento y Políticas del Ministerio de Ciencia, Tecnología e Innovación
Productiva de la República Argentina. El proyecto fue llevado a cabo en agosto de
2015 y estuvo a cargo de la Prof. María Victoria Juárez Micó.
4
ÍNDICE
INTRODUCCIÓN ..................................................................................................................... 5
METODOLOGÍA ...................................................................................................................... 7
PRINCIPALES RESULTADOS ............................................................................................... 9
CONCLUSIONES .................................................................................................................. 26
BIBLIOGRAFÍA CONSULTADA ........................................................................................... 28
ANEXO ................................................................................................................................... 29
5
INTRODUCCIÓN
En un contexto de creciente generación de nuevos datos y la subsiguiente necesidad
de explotarlos, el concepto Big Data surge como una necesidad de entender y poder
aprovechar la información disponible. Siendo un fenómeno global, Big Data puede
llegar a tener un impacto económico, beneficiando a los sectores público y privado,
aumentando la productividad y la competitividad, y la calidad de vida (Malvicino, F. y
Yoguel, G., 2014).
Dada la novedad de la temática resulta interesante un análisis de su evolución y
relevancia en el mundo académico, a partir de la producción científica, y así poder
conocer las principales tendencias a nivel mundial y en Argentina del fenómeno Big
Data.
Si bien la medición de los resultados de las actividades científicas mediante
indicadores bibliométricos tiene una larga trayectoria y su validez se sustenta a partir
de ser las publicaciones científicas uno de sus principales resultados (Sancho, 2002),
siendo muy incipientes este tipo de trabajos en el área de Big Data1.
Por su papel decisivo en la difusión de nuevos conocimientos, los artículos científicos
son ampliamente usados como unidad de medida de la producción científica tanto de
un país como de una institución. Y si bien no representan el único producto de la
ciencia y no todas las disciplinas difunden los conocimientos de igual manera, el uso
de los indicadores bibliométricos nos permite un primer acercamiento a la disciplina
en estudio.
En este sentido, el objetivo del presente documento es el presentar un conjunto de
indicadores bibliométricos sobre el área de Big Data que muestren su evolución, su
1 Ver http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/
6
participación relativa respecto a otras disciplinas, los principales actores involucrados,
entre otros, y sea el puntapié inicial para futuros estudios de mayor profundidad.
7
METODOLOGÍA
Para la construcción de los indicadores aquí presentados se ha elegido la base de
datos bibliográfica multidisciplinar Scopus de la editorial Elsevier2. Además de ser una
de las más utilizadas internacionalmente, lo cual permite la comparación internacional
con otros estudios, es una de las más completas, comprendiendo más de 57
millones de registros, entre ellos, documentos provenientes de 21.000 revistas con
referato, 40.000 libros y 6,4 millones de artículos de congresos3. Si bien cubren un
amplio espectro en lo que refiere a literatura científica, el fuerte de estas bases de
datos reside en contener a las principales revistas referentes del maistream de la
ciencia, lo cual le otorga cierto nivel de excelencia académica.
Sin embargo, el representar principalmente a las corrientes principales de
conocimiento puede resultar una limitación si se desea estudiar temas que no se
encuentren entre los de frontera. Esto ocurre principalmente cuando se tratan de
problemáticas locales o regionales. Otro punto a considerar es que las principales
revistas internacionales publican su contenido en inglés, por lo cual existe una barrera
idiomática a la hora de difundir conocimientos, quedando relegados aquellos que no
son de habla inglesa. Asimismo, los journals más importantes pertenecen a los
países centrales, por lo cual no todas las naciones tienen la misma participación.
Mientras que más de 12.000 revistas son europeas y alrededor de 6.400 del norte de
América, sólo 715 son latinoamericanas y 54 argentinas4.
Otra de las limitaciones que tienen este tipo de bases de datos es que no están
representadas de igual manera todas las disciplinas, donde por lo general las ciencias
sociales tienen una menor participación en el volumen total de registros. Esto debe
tenerse en consideración si se desea realizar estudios de comparación entre
disciplinas, ya que como se mencionó anteriormente no solo pueden diferir en la
2 http://www.scopus.com
3 http://www.elsevier.com/__data/assets/pdf_file/0007/69451/sc_content-coverage-guide_july-2014.pdf
4 http://www.scimagojr.com/
8
forma que difunden los conocimientos sino que también pueden no estar igualmente
representadas en la base de datos.
El estudiar un área transversal como Big Data presenta la dificultad en cómo
determinar sus límites. Basados en experiencias de otras disciplinas como es el caso
de la biotecnología (ANPCYT, CONICET-CAICyT, 2008) o las TIC (MINCYT, 2012), se
decidió primero definir un conjunto de palabras clave (ver Anexo) que permitiera
delimitar el sector en la base de datos, entendiendo que el recorte resultaría limitado
al utilizar sólo el término “Big Data”. Para ello se contó con la participación de un
grupo de expertos que sugirieron términos que pudieran representar la temática,
hasta contar con un primer conjunto de palabras. Luego, se pusieron en práctica
diferentes estrategias de búsqueda que se perfeccionaron a partir de la revisión de
los documentos obtenidos. Por último, se decidió tomar de la base de datos sólo
aquellos registros que pertenecieran al área de las Ciencias de la Computación.
Si bien el término Big Data como tal aparece por primera vez en un trabajo académico
en el año 19995, en las búsquedas realizadas en Scopus se pudo observar un
importante crecimiento hacia el año 2005, lo cual podría asociarse con el surgimiento
de Apache Hadoop6, un framework de código abierto que soporta aplicaciones
distribuidas y permite trabajar con miles de nodos y petabytes de datos. Por esta
razón se decidió hacer el estudio a partir de dicho año, tomando el período 2005-
2014, entendiendo que es a partir del cual comienza a tomar un mayor protagonismo
este concepto.
5 Bryson, S. et al. (1999). Visually exploring gigabyte data sets in real time. COMMUNICATIONS OF THE
ACM August 1999/Vol. 42, No. 8.
6 Para mayor información puede consultarse https://hadoop.apache.org/
9
1.665.132
1.777.107
1.886.718
1.992.467
2.118.805
2.250.630
2.400.089
2.491.479
2.561.504
2.523.254
-
500.000
1.000.000
1.500.000
2.000.000
2.500.000
3.000.000
3.500.000
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
Pu
blic
acio
ne
s
PRINCIPALES RESULTADOS
En el siguiente apartado se presenta una selección de indicadores que reflejan el
desempeño de las publicaciones científicas indexadas en la base de datos Scopus en
materia de Big Data, dando cuenta del estado actual de este campo disciplinar en
relación a lo acontecido en el mundo, la región latinoamericana y el país.
En los 10 años de estudio (2005-2014) se puede observar que el total de registros en
la base de datos Scopus aumenta en un 50%, pasando de 1.665.132 a 2.523.254
documentos, con una tasa promedio de crecimiento anual (TPCA) del 5% (Gráfico 1)7.
Gráfico 1. Total de publicaciones mundiales de la base de datos Scopus por año
(2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
7 Las consultas en la base de datos se realizaron entre enero y febrero de 2015. En este sentido, los
registros del año 2014 pueden aún no estar completos por el tiempo que lleva la actualización de la base
Scopus.
10
En particular, en el campo de las Ciencias de la Computación, el crecimiento de la
producción científica es aún más significativo, superando el 150% entre extremos (de
111.873 a 281.160 registros) con una TPCA del 11% (Gráfico 2).
Cabe destacar asimismo, que la participación relativa de las Ciencias de la
Computación en el total de la base Scopus fue creciendo hasta alcanzar su pico en
2009 con un 14%, para luego estabilizarse en torno al 11-12% hacia el final del
período.
Gráfico 2. Total de publicaciones en Ciencias de la computación y porcentaje sobre el
total de la base de datos Scopus, por año (2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Sin embargo, al analizar el área de Big Data la evolución en dicho período supera esta
tendencia ampliamente, aumentando casi siete veces su volumen. Esto da cuenta de
7% 8%
10%
12% 14% 13%
13% 12% 12% 11% 111.873
143.136
182.760
236.581
286.630 300.167
301.174
301.906
295.817
281.160
0%
2%
4%
6%
8%
10%
12%
14%
16%
-
50.000
100.000
150.000
200.000
250.000
300.000
350.000
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
Po
rce
nta
je
Pu
blic
acio
ne
s
% sobre total mundial Publicaciones Cs. de la Comp.
11
un sector que se encuentra en una creciente expansión, considerando que tan solo
en los últimos dos años casi se duplica la producción y que entre 2005 y 2014
mantiene una TPCA superior al 25%. Asimismo, el porcentaje de participación sobre
el total de registros de Ciencias de la Computación también aumenta de forma
constante a lo largo de los años analizados, superando el 4% en 2014, dando cuenta
del crecimiento que este sector tiene dentro de la misma disciplina (Gráfico 3).
Gráfico 3. Total de publicaciones de Big Data y porcentaje sobre el total de Ciencias
de la Computación, por año (2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Al analizar el tipo de documentos que se publica en la base de datos Scopus, se
observa que en su mayoría son artículos científicos (65%), un porcentaje menor de
documentos presentados en congresos y conferencias (19%) y el resto lo compone
un conjunto de registros variados tales como revisiones, capítulos de libros, entre
otros (15%) (Gráfico 4). Este tipo de información da muestra de qué manera se
suelen difundir los conocimientos, es decir, principalmente en papers publicados en
0,22% 0,24% 0,29% 0,33% 0,46% 0,61% 0,80%
1,41%
2,66%
4,16%
606 719 866
997
1.390
1.749 1.900
2.571
3.810
4.649
0%
1%
2%
3%
4%
5%
0
500
1.000
1.500
2.000
2.500
3.000
3.500
4.000
4.500
5.000
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
Po
rce
nta
je
Pu
blic
acio
ne
s
% sobre Cs. de la Comp. Documentos
12
revistas científicas. Es el caso de nuestro país donde más del 80% de la producción
científica en Scopus se corresponde a artículos científicos8. Sin embargo, como se ha
mencionado anteriormente, debe considerarse que la base de datos tiene sus
limitaciones y no resulta igualmente representativa para todas las disciplinas, por lo
cual no permite analizar en su conjunto la divulgación del conocimiento ni a nivel local
ni a nivel mundial.
Gráfico 4. Distribución por tipo de publicación para el total mundial de la base de
datos Scopus (2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Sin embargo, dado que cada área de conocimiento tiene su propia manera de
divulgar, resulta importante observar cómo es la distribución por tipo de registro para
las Ciencias de la Computación y Big Data. En este caso no es la misma que para el
global, siendo la mayor parte de los registros artículos presentados en conferencias y
congresos (65% para Ciencias de la Computación y 68% en Big Data), dando cuenta
entonces de la importancia de este tipo de actividades en el campo de las TIC y, en
particular, en Big Data (Gráfico 5).
8 http://indicadorescti.mincyt.gob.ar/
19%
65%
15%
Artículos de conferencias
Artículos científicos
Otros
13
Gráfico 5. Distribución por tipo de publicación de Ciencias de la computación y Big
Data (2005-2014)
La cooperación9 en la producción científica entre instituciones de distintos países es
una tendencia mundial en aumento, la cual se evidencia al comparar la colaboración
entre pares de distintas nacionalidades para los años 2005 y 2014 sobre el total de la
base de datos Scopus. Tanto en Norteamérica como en Europa la participación de
pares extranjeros en la producción científica aumenta ocho puntos porcentuales
entre los años 2005 y 2014, mientras que para el caso de Asia el crecimiento es
menor, alcanzando los dos puntos. A diferencia del resto, en Latinoamérica se
observa una pequeña retracción de dos puntos porcentuales en 2014, aunque esto
puede ser explicado por cambios en la composición de la base de datos10 (Gráfico 6).
9 Las publicaciones escritas en cooperación son aquellas en las que participa más de una institución,
siendo las de colaboración internacional aquellas en las que los pares pertenecen a instituciones de
distintos países.
10 Para el año 2005 la participación de revistas regionales en la base Scopus era menor, por lo cual
pueden resultar más significativas las publicaciones de autores latinoamericanos en colaboración
internacional.
68%
25%
7%
Big Data
65%
31%
4%
Ciencias de la computación
Artículos deconferencias
Artículoscientíficos
Otros
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
14
Gráfico 6. Porcentaje de publicaciones con y sin colaboración internacional para la
base de datos Scopus en los años 2005 y 2014
Fuente: elaboración propia en base a datos de SCImago Journal & Country Rank.
Para el caso de la producción científica en Big Data, la participación de pares
extranjeros, tanto en 2005 como en 2014, es menor que la tendencia mundial, sin
embargo se observa que el aumento es proporcional, siendo de siete puntos
porcentuales entre extremos (Gráfico 7).
38%
25% 32%
18%
36% 33% 40%
20%
62%
75% 68%
82%
64% 67% 60%
80%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Lati
no
amé
rica
No
rtea
mér
ica
Euro
pa
Asi
a
Lati
no
amé
rica
No
rtea
mér
ica
Euro
pa
Asi
a
2005 2014
Po
rce
nta
je
Con colaboración internacional Sin colaboración internacional
15
Gráfico 7. Porcentaje de publicaciones en Big Data según con y sin colaboración
internacional en los años 2005 y 2014
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
En cuanto a los principales países11 que publican en esta temática, Estados Unidos y
China ocupan el primero y segundo lugar con 5.393 y 3.627 publicaciones
respectivamente entre 2005 y 2014. Le siguen Alemania, Reino Unido e India, con
volúmenes muy inferiores (1.247, 903 y 886 registros cada uno) (Gráfico 8). Esto se
pone en evidencia al comparar la participación relativa de cada uno de estos países
en el volumen global de publicaciones en Big Data. Mientras que Estados Unidos se
encuentra cerca del 30% de aporte y China del 20%, Alemania, Reino Unido e India
no superan el 6% de participación individual.
11 Se utiliza la metodología de contabilización por enteros, es decir, se computa un documento completo
para cada una de las naciones participantes. Debido a esto y a las repeticiones generadas por las
coautorías en colaboración internacional, la suma de la producción de los países es superior al total
mundial.
16% 23%
84% 77%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2005 2014
Po
rce
nta
je
Sin colaboracióninternacional
Con colaboracióninternacional
16
Asimismo, con excepción de la India, el resto de los países mencionados también
son los principales productores de publicaciones a nivel global y específicamente en
Ciencias de la Computación. Sin embargo, mientras los primeros poseen una TPCA
de entre el 20 y 30% entre 2005 y 2014, la República de la India alcanza casi un 50%,
mostrando un crecimiento relativamente mayor que el del resto de las naciones
mencionadas en el total producido en Big Data.
Gráfico 8. Total de publicaciones en Big Data según los principales países del mundo,
por año (2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Observando la red12 de países que publican sobre la temática Big Data en el año 2014
se evidencia la participación de Estados Unidos como nodo central, conectando a 51
de las 92 naciones involucradas. Contando con 504 documentos en colaboración, de
un total de 1.209 registros, el país del norte posee un 42% de su producción en
cooperación, porcentaje superior a la tendencia general de colaboración internacional
12 Los nodos representan a los países que publican y los enlaces la colaboración entre ellos.
196 224
389
539
1107
99 146
336
478
971
48 44 88
130
218
35 55 86 88
226
7 28 57 110
179
0
200
400
600
800
1.000
1.200
1.400
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
Pu
blic
aico
ne
s
EEUU China Alemania Reino Unido India
17
en materia de Big Data (23% para el año 2014). El país con el que presenta una mayor
colaboración es China, alcanzando los 132 documentos conjuntos (Gráfico 9). Como
se ha mencionado precedentemente ambos son, a su vez, los principales
productores en esta temática y sumando sus participaciones individuales y colectivas
alcanzan los 2.048 registros, lo cual equivale al 44% del total producido en el año
analizado.
En el caso de nuestro país, para el 2014 se detecta colaboración con Uruguay y
Bélgica, obteniendo apenas dos registros para este año.
18
Gráfico 9. Red de colaboración mundial de publicaciones en Big Data (2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
En cuanto a las instituciones productoras de publicaciones en Big Data en el período
2005-2014, entre las 10 primeras se encuentran tres universidades chinas, y tres
universidades y cuatro empresas con su filial principal en Estados Unidos (Tabla 1).
En este sentido, llama la atención la participación del sector privado ya que
usualmente no se encuentran entre los principales productores de publicaciones
científicas. Las cuatro empresas pertenecen al área de las TIC y como se ha
mencionado, todas son de Estados Unidos. Por lo general no poseen muchas
19
presentaciones en cooperación con otras instituciones, en su mayoría universidades,
siendo China el principal país colaborador, seguido de los principales países
productores de Big Data como Alemania y Reino Unido. Asimismo, en el caso de
Hewlett Packard Laboratories se advierte que entre los colaboradores se encuentra
Brasil, aunque sigue siendo una baja participación (seis publicaciones conjuntas).
Tabla 1. Principales instituciones que publicaron en Big Data (2005-2014)
Instituciones Cantidad
Chinese Academy of Sciences 187
Tsinghua University 181
Carnegie Mellon University 149
IBM Thomas J. Watson Research Center 145
Beijing University of Posts and Telecommunications 138
Hewlett Packard Laboratories 132
Microsoft Research 129
UC Berkeley 122
University of Illinois at Urbana-Champaign 113
Google Inc. 111
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Si nos centramos en el ámbito regional se observa que entre los años 2005 y 2014 la
producción científica en la base de datos Scopus se duplica, pasando de 52.464
registros en 2005 a 110.832 en 2014. Este crecimiento implica una TPCA del 9%,
superando en 4 puntos porcentuales la tendencia global13. Analizando las Ciencias de
la Computación, el aumento es aún más significativo, tendencia que ya se ha visto a
nivel global, triplicando su volumen en el período de estudio (aumento de 2.709 a
10.122 registros), con una TPCA del 16%, representando un 9% del total de
13 La TPCA mundial en Scopus entre 2005 y 2014 es del 5%.
20
publicaciones para el año 2014. Si bien la presencia latinoamericana aumenta en los
últimos 10 años, no supera el 4% del total de la base para el año 2014 (Gráfico 10).
Gráfico 10. Total de registros latinoamericanos en Scopus, Ciencias de la
Computación y Big Data, por año (2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
En cuanto al sector Big Data, aún se encuentra en una fase muy incipiente, con 110
publicaciones para el 2014, apenas un 2% del total mundial. En el acumulado 2005-
2014 alcanza los 520 registros, representando un 3% del global de Big Data (19.257
publicaciones). A pesar de los altibajos a lo largo del período, alcanza una TPCA de
23%, similar a la mundial.
5% 6% 6% 8% 8% 9% 8% 9% 9% 9%
52.464 63.872 68.226
78.180
85.680
91.459
98.868
107.568
111.515
110.832
17
24 24
46 43
53
43
63
97
110
0
20
40
60
80
100
120
-
20.000
40.000
60.000
80.000
100.000
120.000
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
Pu
blic
acio
ne
s
Pu
blic
acio
ne
s
Cs. de la Comp. (% sobre el total)
Total Scopus
Big Data
21
Al observar los principales países de Latinoamérica, Brasil se ubica en la primera
posición contando con 304 publicaciones en el total del período analizado,
participando en más de la mitad del total de la región (520 registros latinoamericanos
entre 2005-2014). Participación que casi llega al 70% en el año 2014. Le siguen
México y Chile con 74 y 46 registros para el total de años en estudio, y luego
Argentina (23) y Colombia (23) (Gráfico 11).
Gráfico 11. Publicaciones en Big Data según los principales países de Latinoamérica
(2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Por último, si se estudia la producción local, se observa que aún es muy incipiente en
nuestro país, con apenas 23 publicaciones encontradas entre 2005 y 2014. En total
son diez las instituciones argentinas que se han detectado con documentos en la
temática, siendo la Universidad de Buenos Aires (UBA) y el Instituto Tecnológico de
Buenos Aires (ITBA), las que cuentan con mayor producción, con doce y ocho
artículos respectivamente, cuatro de los cuales han sido escritos entre ambas casas
de estudio (Tabla 2).
304
74
46 23 23
0
50
100
150
200
250
300
350
Brasil Mexico Chile Argentina Colombia
Pu
blic
acio
ne
s
22
Tabla 2. Instituciones argentinas que publicaron en Big Data (2005-2014)
Instituciones Cantidad
Universidad de Buenos Aires 12
Instituto Tecnológico de Buenos Aires 8
Universidad Abierta Interamericana 1
Universidad Católica Argentina 1
Universidad Nacional Del Nordeste 1
Universidad Nacional de la Patagonia Austral 1
Universidad Nacional de La Plata 1
Universidad Nacional de Rosario 1
Universidad Nacional del Sur 1
Universidad Tecnológica Nacional 1
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
Se detectan 18 dependencias extranjeras colaboradoras (Tabla 3) en materia de Big
Data con las 10 instituciones locales mencionadas, lo cual pone en evidencia una alta
tasa de colaboración internacional14 en los artículos (70% de los documentos escritos
en cooperación), teniendo en cuenta que el porcentaje promedio, entre 2005 y 2014,
de documentos escritos con un par internacional para Argentina es de 43%15. Siendo
los dos países que más cooperan Bélgica y Estados Unidos, con ocho y seis artículos
respectivamente. Asimismo, tres cuartas partes de la producción son realizadas en
colaboración entre instituciones (locales y extranjeras) y en más del 50% de los casos
participan tres o más dependencias. Finalmente, en más del 80% de los casos se
trató de artículos escritos por tres o más investigadores.
14 Como se ha mencionado anteriormente, las publicaciones con colaboración internacional son aquellas
en las cuales los autores firmantes pertenecen a instituciones de distintos países. 15
www.scimagojr.com
23
Tabla 3. Instituciones extranjeras que colaboran con dependencias argentinas en Big
Data (2005-2014)
Nombre País Sector
Vienna University of Technology Austria Educación superior
Luciad NV Bélgica Empresa
Transnational University of Limburg Bélgica Educación superior
Université Libre de Bruxelles Bélgica Educación superior
University of Hasselt Bélgica Educación superior
Universidade de São Paulo Brasil Educación superior
Univ. De Chile Chile Educación superior
Universidad de Magallanes Chile Educación superior
The American University in Cairo Egipto Educación superior
Univ. A Coruña España Educación superior
Duke University Estados
Unidos
Educación superior
Iowa State University Estados
Unidos
Educación superior
National Center for Atmospheric
Research
Estados
Unidos
Entidad sin fines de
lucro
Pittsburgh Supercomputing Center Estados
Unidos
Entidad sin fines de
lucro
University of California Estados
Unidos
Educación superior
University of Florida Estados
Unidos
Educación superior
Telecom. ParisTech Francia Educación superior
Universidad de la República Uruguay Educación superior
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
24
Este complejo de relaciones de colaboración puede observarse en la red de
instituciones (Gráfico 12) donde los nodos representan a las dependencias que
producen el conocimiento y los enlaces la frecuencia del trabajo conjunto. El tamaño
del nodo lo determina la cantidad de publicaciones que posee la institución y el color
utilizado demarca si son de carácter nacional o internacional (lila y celeste,
respectivamente).
Gráfico 12. Red de colaboración de publicaciones de Big Data entre instituciones
nacionales y extranjeras (2005-2014)
Fuente: elaboración propia en base a datos de Scopus-Elsevier.
25
Puede observarse que, como se ha mencionado, existe una colaboración frecuente
entre la UBA y el ITBA, las cuales a su vez, conforman el principal entramado de la
red. Además, se muestran algunos nodos aislados (Universidad Abierta
Interamericana, Universidad Nacional del Sur y Universidad Nacional Del Nordeste) y
pequeños clusters en los que participa una institución local y una o dos extranjeras.
26
CONCLUSIONES
Del conjunto de indicadores aquí presentados, elaborados a partir de la producción
científica en Big Data en la base de datos Scopus, se pueden destacar los siguientes
resultados:
La evolución de los documentos publicados en el área de Big Data en el período
2005-2014 supera ampliamente la tendencia mundial de la base de datos Scopus
(que ronda el 50%), aumentando casi siete veces su volumen. Dando cuenta de un
sector que se encuentra en una creciente expansión, que tan solo en los últimos dos
años casi duplica la producción y que entre 2005 y 2014 tiene una TPCA superior al
25%.
La mayor parte de los registros son artículos presentados en conferencias y
congresos (68% de las publicaciones en Big Data), a diferencia del patrón general de
publicaciones en esta base de datos que contiene principalmente artículos científicos
(65%), y un porcentaje menor de documentos presentados en congresos y
conferencias (19%).
Estados Unidos y China son los principales productores en esta temática, ocupando
el primero y segundo lugar con 5.393 y 3.627 publicaciones respectivamente entre
2005 y 2014. Le siguen Alemania, Reino Unido e India, con volúmenes muy inferiores
(1.247, 903 y 886 registros cada uno). Para el 2014, sumando sus participaciones
individuales y colectivas, Estados Unidos y China alcanzan los 2.048 registros, lo cual
equivale al 44% del total producido en el año analizado.
En el caso latinoamericano, el sector de Big Data aún se encuentra en una fase muy
incipiente, con 110 publicaciones para el 2014, apenas un 2% del total mundial. En el
acumulado 2005-2014 alcanza los 520 registros, representando un 3% del global de
Big Data (19.257 publicaciones). A pesar de los altibajos a lo largo del período,
alcanza una TPCA de 23%, similar a la tendencia mundial.
27
Al observar los principales países de Latinoamérica, Brasil se ubica en la primera
posición contando con 304 publicaciones en el total del período analizado,
participando en más de la mitad del total de la región (520 registros). Participación
que casi llega al 70% en el año 2014. Le siguen México y Chile con 74 y 46 registros
para el total de años en estudio, y luego Argentina (23) y Colombia (23).
Por último, al analizar las publicaciones locales, se observa que las dos instituciones
que cuentan con mayor producción son la Universidad de Buenos Aires (UBA) y el
Instituto Tecnológico de Buenos Aires (ITBA), con 12 y 8 artículos respectivamente, 4
de los cuales han sido escritos entre ambas casas de estudio.
28
BIBLIOGRAFÍA CONSULTADA
ANPCYT, CONICET-CAICyT (2008), Biotecnología: Tendencias recientes en
investigación científica y desarrollo tecnológico (I+D).
Bryson, S. et al. (1999). Visually exploring gigabyte data sets in real time.
COMMUNICATIONS OF THE ACM, August 1999, Vol. 42, No. 8
Halevi, G. y Moed, H. (2012). The Evolution of Big Data as a Research and Scientific
Topic: Overview of the Literature. Research Trends, Elsevier, September 2012.
Malvicino, F. y Yoguel, G. (2014), Big Data. Avances Recientes a Nivel Internacional y
Perspectivas para el Desarrollo Local.
Sancho R. (2002), Indicadores de los Sistemas de Ciencia, Tecnología e Innovación,
Economía Industrial N° 343, p. 97-109.
Vila Seoane, M. y Juárez Micó, M. (2012), Medición de áreas prioritarias, Producción
científica y tecnológica en TIC, Ministerio de Ciencia, Tecnología e Innovación
Productiva. Agosto 2012.
29
ANEXO
Palabras clave utilizadas en la categoría “Ciencias de la Computación”, base de datos
Scopus:
Big Data
Big datum
Big transaction data
Hadoop
Hbase
Mapreduce
Data warehouse
Large data set
Large dataset
Large-scale data sets
Big Table AND google
Cassandra AND (apache OR nosql OR java)
Massively parallel software
Massively parallel processing
3Vs
Parallel DBMS
Godoy Cruz 2320 (C1425FQD)Ciudad Autónoma de Buenos Aires - República Argentina
[email protected] · www.mincyt.gob.ar