学术论文归档保存应从数字化转向数据化
创始人
2024-04-30 09:21:58
0

原标题:学术论文归档保存应从数字化转向数据化

日前,一项发表在《图书馆学与学术交流杂志》上的针对700多万份数字出版物的研究表明,超过200万篇标有数字对象标识符(DOI)的学术论文未得到妥善归档和保存。尽管这项研究被认为存在一定局限性,但研究的相关分析结果仍然引起了文献专家的关注与讨论。

如今,学术论文的产出数量大、速度快。上述研究指出,在线保存论文的系统已经无法满足研究产出的增长速度。是否有必要对所有学术论文进行归档保存?学术论文归档保存面临哪些机遇和挑战?

交流共享是重要目的

上世纪八十年代前,纸质化保存是学术论文归档保存的主流形式,主要以期刊为保存单元。“纸质化保存成本很高。购买纸质期刊需要成本,存放期刊要占用巨大空间。”中国人民大学信息资源管理学院教授索传军说。

随着数字技术水平提高,学术论文数字化保存逐渐成为主流,在保存单元上也打破期刊限制,将单篇学术论文作为基本保存单元。数字化保存使获取学术论文的便捷性、开放性更高,保存成本更低,同时解决了存储面积不足和期刊重复保存造成资源浪费等问题。

“现在有一些机构采用混合存档,对大多数学术论文进行数字化保存,对少量重要期刊和论文仍以纸质化形式保存。国家科技图书文献中心(NSTL)采用的就是这种方式。”索传军介绍,此外,还有一些机构对二次文献或学术论文的元数据进行保存,或是只保存论文的摘要、关键词等。

在探讨对学术论文归档保存的必要性之前,需要明确保存论文的目的。索传军认为,学术论文是对科研结果的记录,保存学术论文是为了让后人能够有效获取并了解前人的研究成果,保持学术研究的传承性和连贯性。同时,保存学术论文也是为了实现更大范围的知识交流与共享,提高科研效率,节省研究资源和成本。

“在我看来,对所有学术论文进行归档保存,从理论上来说没有必要。”索传军认为,一方面,根据文献计量学中经典的布拉德福定律,期刊是分层的,学术论文也是分层的。一些学术论文价值不高、创新性不强、研究结论过时,还有些论文甚至可能存在一定重复或错误。此类论文没有必要进行保存。另一方面,依据信息生命周期理论,学术论文的学术价值也随时间变化。大部分论文生命周期较短,很快就会因过时而失去参考价值。

从国内外有关机构的粗略统计分析结果看,60%以上的学术论文在发表后从未被访问和获取,即从未参与知识交流和共享。此外,由于每个人的时间和精力有限,论文保存得越多,人们有效获取信息的效率就越低,知识交流共享的成本也就越高。

“学术论文是为了保存而保存,还是为了满足当下国家重大科学技术和经济发展需求,以及科研人员对知识交流共享的实际需要而保存?这是一个本质问题。”索传军说。

逐步缩小保存单元

数字化时代,学术论文归档保存工作的挑战和机遇并存。“我国在算力、云存储等方面的水平较高,因此技术问题并非最大挑战。目前我们面临的主要问题在于,如何选择判断需要归档保存的学术论文。这不仅缺乏较为统一的选择判断标准,而且也缺乏较为科学的评价方法。”索传军说。

直至目前,人们仍主要依据学术期刊的影响因子大小判断一本期刊及其刊载论文的重要性或学术价值。从客观上看,期刊的影响因子并不能代表其刊载论文的学术价值,每种期刊刊载的每篇学术论文质量和价值不同。

大多数情况下,人们并不需要阅读一篇学术论文的完整文本,而是要借鉴和利用论文中有学术价值的内容,这些内容可以被称为“知识元”。索传军认为,一篇学术论文本质上是一组知识元的逻辑组合。论文最有创新价值的部分,就浓缩在这些知识元中。知识元才是人们真正需要的,也是真正需要归档保存的。

“数字化保存单元已经从期刊变为论文,下一步能否打破对学术论文全文保存的限制,只保存论文的核心知识元?如果归档保存的单元是知识元,读者直接获取的也是知识元。我们归档保存对象的单元会更小,成本会更低,读者获取利用效率会更高。”索传军认为,学术论文中知识元的识别和提取是一大关键挑战。这不仅是对相关技术的挑战,更是对学界和业界在保存学术论文的认识和观念上的挑战。

当前,国际上一些学术期刊杂志社(出版集团)已经进行了小范围尝试。他们要求作者在投稿时提供论文所阐述的新观点,即让作者描述最具价值的创新知识元。在索传军看来,这种尝试是有益的,但同时会存在主观性偏强的问题。如有些作者为了发表文章拔高论文的创新性,或是因个人的认知水平不足而对创新性的描述过高。

索传军认为,当下数字技术的发展,要求学术论文的保存单元不再局限于期刊,“一刀切”的保存策略或许也应做出改变。“我们对学术论文的数字化保存,应该顺应时代发展,逐步过渡到数据化保存阶段。这需要将学术论文转化成更精细的数据,而不是机械性地把纸质论文转化成计算机上‘0’和‘1’的符号。”他说。

在首次全国数据工作会议上,国家数据局提出,探索建设国家级数据标注基地。索传军说,学术论文也是数据标注的对象之一。对学术论文内容进行深入、细致、准确标注,可以较为精准地定位、获取、利用知识元。

生成式人工智能和大语言模型等新技术的应用有望实现这一目标。“学术论文是针对研究问题开展的。如果能通过机器学习找到每篇学术论文的主要研究问题,就可以对此进行标注,进而使读者能通过研究问题来检索论文。”索传军说,这将是一个长期积累和发展的过程,必须循序渐进地构建起不同领域、不同学科的标准和参照系,利用大语言模型和机器学习等技术,经过不断优化迭代,最终使标注结果达到科学准确。(实习记者 沈 唯)

相关内容

热门资讯

新型催化剂可高效回收废旧聚酯塑... 喝剩的矿泉水瓶、淘汰的旧衣物,这些常见的聚酯类废弃物有望通过一场温和的“分子手术”实现完美回收。记者...
“内爆雕刻”技术可在三维材料内... 美国麻省理工学院(MIT)研究团队开发出一种名为“内爆雕刻”的新型纳米制造技术,可在三维材料内部精确...
激扬少年“山海之志”   “在火星能种出水稻吗?”“航天技术和我们日常生活有什么关联?”……一场别开生面的讲座在宁夏银川永...
书香润童心 阅读伴成长 竹园小... 近日,市竹园小学“书香润童心·阅读伴成长”主题读书月活动。系列阅读活动,让琅琅书声回荡校园,让阅读之...
中央财政安排5亿元支持4.1...   本报北京5月14日电 (记者曲哲涵)记者从财政部获悉:近日,中央财政继续安排5亿元奖补资金,支...
在课堂上就能畅享游泳乐趣   天气渐热,重庆市永川区体育中心游泳馆人气十足。伴随着阵阵欢笑声,泳池内水花翻腾,当地一所学校的2...
在更广阔的“课堂”里创新叙事 原标题:在更广阔的“课堂”里创新叙事  【专家点评】  “读万卷书,行万里路”是刻在每个中国人记忆深...
中小学教辅管理政策直通车 为进一步规范我市中小学教辅管理工作 加强政策宣传引导,现将相关政策及解读 梳理汇总供广大师生、家长学...
无需预约就能进校园,这是大学该... 齐鲁晚报·齐鲁壹点评论员 王学钧 当许多大学还在“门禁森严”的时候,武汉大学选择以更彻底的姿态打开校...
用爱与责任陪伴学生成长 本报北京5月13日讯(记者李丹)国务院新闻办13日举行“新征程上的奋斗者”系列中外记者见面会,五位优...
学政公考:考上公务员后还能考研... 考上公务员后,完全可以考研究生。但选择“在职读”还是“辞职读全日制”,两者的难度和路径完全不同。 在...
如何为有育儿困惑的家庭挑选合适... 当下不少有0-18岁孩子的家庭,在育儿过程中或多或少会遇到各类共性难题:青春期孩子叛逆难以沟通、孩子...
新增38种专业 本科专业调整折... 新华社北京5月14日电 题:新增38种专业 本科专业调整折射哪些新趋势 新华社“新华视点”记者王鹏、...
数字化背景下中华传统文化融入高... 来源:滚动播报 (来源:新华日报) □ 简玉梅 当前,数字化浪潮正深刻重塑教育教学的形态与范式,5G...
@济南高三生,快检查一下身份证... 距2026高考不足30天 考生在奋力备考的同时 也要注意检查身份证情况 根据相关规定 高考时 监考员...
上海交大综评“上新”:具身智能... 来源:滚动播报 (来源:上观新闻) 上海交通大学今天发布《2026年在上海市综合评价录取改革试点招生...
漳河新区重拳整治课外辅导乱象 荆门晚报讯(记者曹雨薇 通讯员冉从香)近日,漳河新区科技教育局联合多部门,对辖区课外辅导机构开展全覆...
怀进鹏会见乌兹别克斯坦、泰国、... 5月10日至11日,教育部部长怀进鹏先后会见了出席2026年世界数字教育大会的乌兹别克斯坦学前和中小...
立足职责督促加强师德师风建设 师德师风建设是落实立德树人根本任务,守护教育公平正义的关键所在。南通大学纪委立足监督职责,聚焦师德师...
@高三生,快检查一下你的身份证... 距2026高考不足30天,考生在奋力备考的同时也要注意检查身份证情况。根据相关规定,高考时,监考员须...