硬核观察 #568 科学家扩展 DNA “字母表”以存储更多数据

2022-03-07
2分钟阅读时长

科学家扩展 DNA “字母表”以存储更多数据

科学家们一直在研究一种相当独特的解决方案:将文件、照片和文档存储在大自然自己的信息数据库中 —— DNA。每天,互联网上都会产生几百 PB 的数据,而只要一克的 DNA 就足以存储这些数据。DNA 用四种叫做核苷酸的分子来编码遗传信息,分别用 A、G、C 和 T 来代表。这相当于一个四字母的字母表。为了存储更多数据,科学家们在 DNA “字母表”中人为 增加了七个新字母,即新的核苷酸。为了可以精确地读回合成 DNA 的数据,研究人员使用了深度学习算法和人工智能。

老王点评:这就是字面意义上的“交换 DNA 就是交换信息”。

研究人员发布第一个开源的代码生成 AI 模型

尽管像 OpenAI 和 DeepMind 等已经开发出了强大的代码生成人工智能,但这些系统并没有开源,比如, 为 GitHub Copilot 提供动力的 OpenAI Codex 的训练数据尚未公开。研究人员开发了 PolyCoder,这是一个基于 OpenAI 的 GPT-2 的模型,在 12 种编程语言的 249 GB 代码数据库上进行了训练。虽然 PolyCoder 在表现上无法与顶级代码生成器相提并论,但研究人员声称,PolyCoder 能够用 C 语言编写代码,其准确度高于所有已知模型,包括 Codex。

老王点评:只有开源才能让更多的人参与进来,才能培养出生态,而不仅仅是某些大公司的专有服务。

9% 的安全事件由 USB 和其他可移动介质引起

在一份 报告 中发现,可移动媒体占所有安全事件的 9%。而在去除涉及云服务的事件后,这一比例增加到 20%。受信任的 USB 设备可能会感染恶意软件,然后会搜索连接到受害者主机的外部存储设备,以感染它们并进一步传播。当终端用户将 USB 设备从个人设备转移到企业资产时,这种风险会更大。

老王点评:USB 是安全风险的重要源头,但这事我觉得不能怨 USB。