G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y...

Post on 27-Mar-2020

0 views 0 download

Transcript of G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y...

AnuarioThinkEPI2011

211

G.6.Google Scholar:noesorotodoloquerelucePorIsidroF.Aguillo

11enero2011

Aguillo,IsidroF.“GoogleScholar:noesorotodoloquereluce”.AnuarioThinkEPI,2011,v.5,pp.211-215.

Resumen:Luegodeunacortaperspectivahistóricade lasbasesdedatosbiblio-gráficas concitas,quepermiten realizarestudiosbibliométricos, se comentan lascaracterísticasdeGoogleScholarcomoposiblebasededatosparalamismautiliza-ción.SibienScholaresgratuitoymásexhaustivoqueWoSyScopus,noseaconsejasuusopararealizaranálisisbibliométricosconfinesdeevaluacióndepersonaseinstituciones.

Palabrasclave:GoogleScholar,GoogleAcadémico,WoS,Webofscience,Scopus,Basesdedatosbibliográficas,Citas,Bibliometría.

Title:GoogleScholar: all that glitters is not gold

Abstract:Afterashorthistoricalperspectiveofbibliographicdatabaseswithcita-tions,whichallowbibliometricstudies,thefeaturesofGoogleScholarasapossible

databaseforthesamepurposearediscussed.WhileScholarisfreeandmorecomprehensivethanWoSandScopus,itsuseisnotrecommendedforbibliometricanalysis,especiallyfortheevaluationofindividualsandinstitutions.

Keywords:GoogleScholar,WoS,Webofscience,Scopus,Bibliographicdatabases,Appointments,Biblio-metrics.

Introducción

ELFACTORLIMITANTEenlosestudiosdelaactividad científica, especialmente los queutilizan técnicas cuantitativas, ha sido ladisponibilidaddebasesdedatos.

La bibliometría de las últimas décadas nohubierasidoposiblesinlasbasesdeISI/Thomson(citation indexes)1. La explosión de la patento-metría coincide con el acceso en abierto de losservicios web de las organizaciones de patenteseuropeas,estadounidensesyjaponesasy,enfin,la cibermetría existe en buena medida por lasbondades de los motores de búsqueda comer-ciales.

En muchos casos dichas bases de datos nohabían sido diseñadas específicamente para laactividad bibliométrica y fue necesario (y toda-vía lo es) realizar un importante esfuerzo deselección,limpieza,organizaciónynormalizaciónde los resultados, antes de comenzar cualquieranálisis.

Los costes eran enormes (acceso vía Dialog2,adquisición de versiones en cd-rom) y lo siguensiendo (licencias nacionales WoK3 y Scopus), y,además de ciertas limitaciones legales, estabanlasdecaráctertécnico.Éstassonrelevantesparaentenderlatipologíayprofundidaddelostraba-

josbibliométricosrealizadosenlos80ylos90.Eradifícil exportar grandes cantidades de registros,ciertos campos tenían múltiples valores difícilesde segregar (autores, direcciones, citas), habíaque repasar errores y normalizar entradas, eracomplejo hacer correspondencias entre autoresy susdirecciones cuandovarios tenían lamismaafiliacióninstitucional.

La imposibilidad práctica de corresponderreferenciasconartículosgeneralizóelusodelascitas “esperadas” (el infame factor de impacto,porelquesesuponeacadaartículoparticularelvalordelarevista),envezdeutilizarlas“obser-vadas”orealesdecadauno.Otrasconsecuenciasfueron el desprecio hacia los recuentos fraccio-nados de los cada día más frecuentes trabajosmultiautoradosoelinsólitofiltradotemáticoporcategoríasdisciplinaresderevistasoporseleccióndepalabrasclave(¡enbasesdedatossinauténticaindización!). Todo ello motivado por las limita-cionesdecontenidoyestructuradelasbasesdedatos, pero también por un sistema de gestiónintencionadamentecapadoqueimpedíaunaade-cuadaautomatizacióndeciertosprocesos.

Laconsecuenciadirectaesqueelusuariofinaldel trabajo del bibliómetra (otros colegas, fun-damentalmenteaquéllosobjetodeanálisis,ylosgestoresdeinstitucionesydepolíticascientíficas)

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

AnuarioThinkEPI2011

212

apenassereconoceenlosresultados,quepuedenpecartantodeexcesivasencillez(plenosdeerro-res) como de inaguantable profundidad (tablasdensísimas,sinningunautilidadpráctica).

“Ladificultaddeindizarlallamadainternetinvisiblemotivólaelaboración

deunproductoquenodependieradelosrobotsautomáticos”

Huboysiguehabiendo(cadavezmenos,esosí) trabajos mediocres, pero quizá la principalcarencia es la ausencia de escenarios generales,con históricos de datos correctamente organi-zados y que evitara la continua reinvención dela rueda a la que nos tiene acostumbrada estadisciplinaennuestropaís(aunqueenestecasolaculpaescompartidapor la inauditaausenciadeunmanualdecalidad,actualizadoencastellano,delconjuntodelasdisciplinascuantitativas).

Obviamente esta nota no es la primera quellama laatenciónsobreelcuidadoextremoquesehadetenertantoalahoradeseleccionarlasfuentes bibliográficas como en el diseño de laextracción y utilización de los datos correspon-dientes. Y es posible que vuelva a caer en sacoroto.

Google Scholar

Para los afortunadosque trabajan en insti-tucionesquesepuedenpermitir el indecentedispendiodetenercon-tratadaslasdosgrandesbases de datos de citas(Web of science y Sco-pus), la labor bibliomé-tricasehizounpocomáscompleja con la apari-cióndeéstesegundo,elnuevoproductodeElse-vier. No sólo las basesdedatoserandiferentes(Scopus es ligeramentemayoryconmenorses-goanglosajón),sinoquelasherramientasdecon-sulta y extracción y losindicadores(externosenel caso de Scopus) erantambiéndistintos.

Sinembargolasventajasseimpusieron,yaquelacompetenciamejoró lasprestacionesdelWoS(ventanas de citación más amplias, nuevos indi-cadores)ysucoberturageográfica(conunciertonúmeroderevistasnoanglosajonas, sobretodode ciencias sociales y humanas –que al parecertienenunsignificativomenorimpacto–).Amedioplazo,trabajosdefusióndeambasbasesdedatosproporcionaránunamejorideadelasbondadesylimitacionesdecadaunadeellas,peromientrastanto,cabeesperarlamultiplicacióndeestudiosdisciplinaresy/o temporalesque remeden losyarealizadospreviamenteconayudadeWoS.

En ese contexto apareció un nuevo e inte-resante actor, Google Scholar, la base de datosacadémicadelfamosobuscador4.

Dentro de la estrategia global de Google derecolectartodalainformaciónposible5,ladificul-taddeindizarlallamadainternetinvisiblemotivólaelaboracióndeunproductoquenodependieradelosrobotsautomáticos.

“LaopacidaddeGooglerespectoalasfuentesqueutilizahadificultado

elanálisisglobaldelbuscadoracadémico”

Scholarsenutredeunaseriedeacuerdosconproductores y distribuidores de bases de datos

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

AnuarioThinkEPI2011

213

académicas y científicas de todo el mundo queceden sus registros bajo distintas condiciones(tantolalistadesuministradorescomolosdeta-llesde loscontratossonsecretoscomercialesdeGoogle).

Google proporciona ciertos valores añadidos(citas, enlaces, etiquetas) además de añadir lagigantesca sección académica de la web visiblequeapareceenelbuscadorgeneral.

Elresultadoesunagranbasededatosbiblio-gráfica multidisciplinar que incluye citas a losdiferentes artículos (fundamentalmente comoayuda a la recuperación). Es decir, es el tercergran sistema de citas junto con WoS y Scopus,con la ventaja de su mayor tamaño y el hechofundamentalde serdeaccesogratuito.Se tratadeunproductotodavíaenversiónbeta (¡desde2004!), cuyo futuro no está garantizado y queal parecer es mantenido por un equipo muyreducido. Todo ello podría explicar la falta denormalizacióndocumental,muynecesariaenunproductomultifuentetanheterogéneoformalysustantivamente.

Apesarde losdistintosproblemasdocumen-talesdeGoogleScholar,larecienteaparicióndelsoftwaregratuitoPublishorperish6,quepermitelacapturadirectadelosregistrosycalculaauto-máticamente diversos indicadores (incluyendodistintas variantes del índice h), ha renovado ygeneralizadoelinterésporScholarenlacomuni-dadbibliométrica.

Enlabibliografíadeestanotafiguraunaselec-ción de artículos que tratan fundamentalmentedos áreas: la comparación directa de GoogleScholar con lasotrasgrandesbasesdedatosdecitas(WoSyScopus),ylautilizaciónderegistrosdeScholarparalarealizacióndeestudiosbiblio-métricos.

Losárbolesnodejanverelbosque

LaopacidaddeGooglerespectoalasfuentesque utiliza (y la evolución temporal de dichacobertura, que parece se incrementó significa-tivamenteen losúltimosaños)hadificultadoelanálisisglobaldelbuscadoracadémico.Dehecho,eldiseñodemuchosestudioscomparativosimpli-cabautilizarbásicamenteinstitucionesyautoresdereconocidoprestigio,paralosqueseobteníauna cierta equivalencia con los resultados obte-nidosenlosproductosde“calidadcontrastada”(basadosmásomenosennúcleosdeBradford).Las diferencias en los estudios disciplinares seatribuían a diferencias de cobertura y, en fin,otras discrepancias se atribuían a problemas ylimitacionestécnicasquesetratabandedescribiryevaluarosimplementesecitabansinmás,comopretexto.

Enel cursodeunestudio cibermétrico sobrela distribución institucional de los contenidosrecogidosenGoogleScholar,descubrimosquelasdiscrepanciassonmayoresdeloqueseestimabay que de hecho esta base no es comparable aWoSoScopus,ysuusobibliométricopuedeestardesaconsejadocomonormageneral.

Se recogieron los registros totales (al menoscon resumen) que aparecen en Scholar parados grupos de dominios: 225 top level domains(incluyendo dominios nacionales como .es, .fr o.it,ylosgenéricostalescomo.com,.orgo.net)y10.442dominiosuniversitarios(porejemplo:ucm.es,harvard.eduuox.ac.uk).

“Google ScholareseltercergransistemadecitasjuntoconWoSy

Scopus,conlaventajadesumayortamañoysergratuito”

Delaprimerapoblaciónseobtuvountotalde86millonesde registros,de losque55millones(el64%)correspondíanadominiosgenéricos, loquecabríaesperardeproductoresydistribuido-rescomerciales(.com)uorganizacionessinánimode lucrofuertementepresenteseneste“merca-do”(.org).HayquetenerencuentaqueGoogleScholar muestra registros únicos, que “unifica”duplicados, es decir registros que pueden apa-recer en repositorios institucionales o páginaspersonalesperoqueestántambiénrecogidosendistribuidorescomerciales.

Elsegundogrupo(universidades)proporcionó9 millones de registros, que supone un 10,6%deltotalobtenidoenlaestimaciónglobalde86millones, lo que implica que hay alrededor deun cuarto de los contenidos que bajo banderanacional (dominio propio) son provistos desdeinstitucionesnouniversitarias (productores loca-les,centrosdeinvestigación,portales,bibliotecasyrepositoriosdigitales).

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

Genéricos64%

Universitarios11%

Nouniversitarios

25%

AnuarioThinkEPI2011

214

Lamuestrauniversitariapuedeutilizarseparaunanálisisenmásprofundidad,aunquehayqueadvertir que en muchos casos se trata de pro-ducciónhospedada,esdecir,ademásdetrabajospublicadosporpersonaldelainstituciónsepue-den encontrar contribuciones de terceros, talescomopresentacionesencongresoscelebradosenlauniversidadhospedadoraomaterialdidácticoproducido por otros autores pero puesto a dis-posición(posiblementesincoberturacontractual)porelprofesoradopropio.

Endichoanálisisaparecenlassorpresas,yaquetrasEUA,lossiguientespaísesmejorrepresenta-dossonrespectivamenteEspaña,BrasilyTaiwán(pordelantedeJapón,Alemania,CanadáyReinoUnido).Entre losveinteprimerosaparecentam-biénCostaRica,MéxicoeIndonesia.

Descendiendo a nivel institucional, tras Har-vard(basededatosdeastronomía)seencuentranPennsylvaniaStateUniversity(CiteSeerX),laUni-versidaddeLaRioja(Dialnet),JohnsHopkinsUni-versity(MUSE),Catie(CostaRica,basededatosdeagronomía),UniversidadComplutensedeMadrid(CompluDoc) o la Universidad Autónoma delEstadodeMéxico(Redalyc).

Esdecir,deacuerdoconlasactualespolíticasinstitucionales, sus páginas web buscan reflejarnosólolaproducciónde“excelencia”delauni-versidad,sinotodoslosresultadosindependiente-mentedesucalidadytipo,einclusohospedandoproducción de terceros, ya sea puntualmenteo exhaustivamente como parte de consorciosamplios.GoogleScholarestárecogiendoyrefle-jando todo ello (y cada vez más, a medida quelasiniciativasopenaccessvantriunfando,aunquesealentamente).

Enresumen,GoogleScholaresunainteresanteherramienta de recuperación de información,conlimitacionesderivadasdesufaltadecontroldocumental, que se pueden soslayar dado su

tamaño y el hecho desergratuita.Laofertadecitas bibliográficas clar-amente incrementa suvalor,pero laevoluciónreciente la aleja cadadíamásdeaquellasquefiltran contenidos deacuerdoconcriteriosdecalidad (¿o impacto?).Esteruidoextradesacon-sejasuusoliberalenlosestudios bibliométricos,especialmente aquellosquetenganfinesevalu-ativos.

“Scholaresunainteresanteherramientaderecuperaciónde

información,perosedesaconsejasuusoliberalenlosestudios

bibliométricos”

Notas

1. ISI(InstituteforScientificInformation)eslaempresaqueen1960fundóEugeneGarfield,creadordelas3bases de datos Science Citation Index. Fue compradaporThomsonReutersen1992.

2. Dialog,fundadaporRogerK.Summiten1980,fuecomprada por Thomson en 2000, y revendida a Pro-Questen2008.

3. WoK(Webofknowledge)eselnombrecomercialdeunpaquetedebasesdedatosdeThomsonReutersqueincluye WoS (los 3 citation indexes), Journal CitationReports(JCR),Biosis,Derwent,yotras.

4. http://scholar.google.com

5. http://www.google.com/corporate

6. http://www.harzing.com/pop.htm

Referenciasbibliográficas

Bar-Ilan,Judit.“Acloserlookatthesourcesofinfor-metricresearch”.Cybermetrics,2009,v.13,paper4.http://www.cindoc.csic.es/cybermetrics/articles/v13i1p4.pdf

Bar-Ilan, Judit.“Citations to the ‘Introductionto in-formetrics’indexedbyWoS,ScopusandGoogleSchol-ar”.Scientometrics,2010,v.82,n.3,pp.495-506.DOI:10.1007/s11192-010-0185-9.

Bar-Ilan,Judit.“Whichh-index?AcomparisonofWoS,

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

Resultado parcial del análisis de la producción del autor Lluís Codina mediante elprogramaPublishorPerish,http://www.harzing.com

AnuarioThinkEPI2011

215

Scopus and Google Scholar”. Scientometrics, 2008, v.74,n.2,pp.257–271.DOI:10.1007/s11192-008-0216-y.http://sci2s.ugr.es/hindex/pdf/Bar-Ilan2008.pdf

Beel, Joeran; Gipp, Bela. “Academic search enginespamandGoogleScholar’sresilienceagainstit”.Jour-nalofelectronicpublishing,2010,v.13,n.3.DOI:10.3998/3336451.0013.305.http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0013.305

García-Pérez,MiguelA.“AccuracyandcompletenessofpublicationandcitationrecordsintheWebofSci-ence,PsycInfo,andGooglescholar:acasestudyforthecomputationofhindicesinpsychology”.JournaloftheAmericanSocietyforInformationScienceandTechnol-ogy, 2010, v. 61, n. 10, pp. 2070-2085. DOI: 10.1002/asi.21372.

Harzing, Anne-Wil; Van-der-Wal, Ron. “A GoogleScholar h-index for journals: an alternative metric tomeasure journal impact in economics and business”.Journal of the American Society for Information Sci-enceandTechnology,2008,v.60,n.1,pp.41-46.

Harzing, Anne-Wil; Van-der-Wal, Ron. “GoogleScholarasanewsourceforcitationanalysis”.Ethicsinscienceandenvironmentalpolitics,2008,v.8,n.1,pp.61-73.DOI:10.3354/esep00076.http://www.int-res.com/articles/esep2008/8/e008p061.pdf

Jacsó,Peter.“GoogleScholarrevisited”.Onlineinfor-mationreview,2008,v.32,n.1,pp.102-114.http://www.cs.unibo.it/~cianca/wwwpages/dd/08Jacso.pdf

Jacsó,Peter.“Savvysearching.Pragmaticissuesincal-culatingandcomparingthequantityandqualityofre-searchthroughratingandrankingofresearchersbasedonpeerreviewsandbibliometricindicatorsfromWebofScience,ScopusandGoogleScholar”.Onlineinfor-mationreview,2010,v.34,n.6,pp.972-982.

Kousha,Kayvan;Thelwall,Mike.“SourcesofGoog-leScholarcitationsoutsidetheScienceCitationIndex:acomparisonbetweenfoursciencedisciplines”.Scien-tometrics,2008,v.74,n.2,pp.273-294.DOI:10.1007/s11192-008-0217-x.

Li, Jie; Burnham, Judy F.; Lemley, Trey; Britton,Robert M. “Citation analysis: comparison of Web ofScience,Scopus,SciFinder,andGoogleScholar”.Jour-nalofelectronicresourcesinmedicallibraries,2010,v.7,n.3,pp.196-217.DOI:10.1080/15424065.2010.505518.

Mayr, Phillip; Walter, Anne-Kathrin. “An explora-torystudyofGoogleScholar”.Onlineinformationre-view,2007,v.31,n.6,pp.814-830.http://www.ib.hu-berlin.de/~mayr/arbeiten/OIR-Mayr-Walter-2007.pdf

Meho, Lokman I.; Yang, Kiduk. “Impact of datasourcesoncitationcountsandrankingsofLISfaculty:WebofSciencevs.ScopusandGoogleScholar”.Jour-nal of the American Society for Information ScienceandTechnology,2007,v.58,n.13,pp.2105-25.DOI:10.1002/asi.v58:13.

Mikki,Susanne.“ComparingGoogleScholarand ISIWeb of Science for earth sciences”. Scientometrics,2010,v.82,n.2,pp.321-331.DOI:10.1007/s11192-009-0038-6.

Torres-Salinas, Daniel; Ruiz-Pérez, Rafael; Delga-do-López-Cózar,Emilio.“GoogleScholarcomoher-ramientaparalaevaluacióncientífica”.Elprofesionalde la información, 2008, v.18,n.5,pp.501-510.DOI:10.3145/epi.2009.sep.03.

White,Bruce.“ExaminingtheclaimsofGoogleScholarasaseriousinformationsource”.NewZealandlibrary&informationmanagementjournal,2006,v.50,n.1,pp.11-24.http://muir.massey.ac.nz/bitstream/10179/571/5/GoogleScholar.pdf

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo