Dna Data Storage Concept 777x518 1 2
Thông tin công nghệ

Phần mềm dịch thuật cho phép lưu trữ hiệu quả một lượng lớn dữ liệu trong các phân tử DNA

DNA cung cấp một cách nhỏ gọn để lưu trữ lượng dữ liệu khổng lồ với chi phí hiệu quả. Phòng thí nghiệm Quốc gia Los Alamos đã phát triển ADS Codex để dịch số 0 và 1 của các tệp máy tính kỹ thuật số thành mã gồm bốn chữ cái của DNA.

ADS Codex dịch dữ liệu nhị phân thành các nucleotide có thể được sắp xếp theo trình tự trong phân tử dưới dạng tệp để truy xuất sau này, giúp tiết kiệm chi phí tiềm năng và ‘kho lạnh’ nhỏ gọn.

Để hỗ trợ một dự án hợp tác lớn nhằm lưu trữ một lượng lớn dữ liệu trong các phân tử DNA, một nhóm do Phòng thí nghiệm Quốc gia Los Alamos đứng đầu đã phát triển một công nghệ cho phép quan trọng giúp chuyển các tệp nhị phân kỹ thuật số sang bảng chữ cái di truyền bốn chữ cái cần thiết để lưu trữ phân tử.

“Phần mềm của chúng tôi, Bộ giải mã lưu trữ DNA thích ứng (ADS Codex), dịch các tệp dữ liệu từ những gì một máy tính hiểu thành những gì sinh học hiểu,” Latchesar Ionkov, một nhà khoa học máy tính tại Los Alamos và điều tra viên chính của dự án cho biết. “Nó giống như dịch từ tiếng Anh sang tiếng Trung, chỉ khó hơn.”

“Phần mềm của chúng tôi, Bộ mã lưu trữ DNA thích ứng (ADS Codex), dịch các tệp dữ liệu từ những gì máy tính hiểu thành những gì sinh học hiểu.” – Latchesar Ionkov

Công việc này là một phần quan trọng trong chương trình Lưu trữ Thông tin Phân tử (MIST) của Hoạt động Dự án Nghiên cứu Nâng cao Trí tuệ (IARPA) nhằm mang lại khả năng lưu trữ rẻ hơn, lớn hơn, lâu hơn cho các hoạt động dữ liệu lớn trong chính phủ và khu vực tư nhân. Mục tiêu ngắn hạn của MIST là viết 1 terabyte — một nghìn tỷ byte — và đọc 10 terabyte trong vòng 24 giờ với giá 1.000 đô la. Các nhóm khác đang tinh chỉnh các thành phần viết (tổng hợp DNA) và truy xuất (giải trình tự DNA) của sáng kiến, trong khi Los Alamos đang nghiên cứu mã hóa và giải mã.

Bradley Settlemyer, nhà nghiên cứu hệ thống lưu trữ và nhà lập trình hệ thống chuyên về máy tính hiệu suất cao tại Los Alamos cho biết: “DNA mang đến một giải pháp đầy hứa hẹn so với băng, phương pháp lưu trữ lạnh phổ biến, là công nghệ có từ năm 1951. “Việc lưu trữ DNA có thể làm gián đoạn cách chúng ta nghĩ về việc lưu trữ trong kho lưu trữ, bởi vì việc lưu trữ dữ liệu quá lâu và mật độ dữ liệu quá cao. Bạn có thể lưu trữ tất cả YouTube trong tủ lạnh của mình, thay vì trong các trung tâm dữ liệu bằng mẫu Anh. Nhưng các nhà nghiên cứu trước tiên phải giải quyết một số rào cản công nghệ khó khăn liên quan đến việc tích hợp các công nghệ khác nhau. “

Không bị mất trong bản dịch

So với phương pháp lưu trữ dài hạn truyền thống sử dụng cuộn băng từ có kích thước bằng bánh pizza, lưu trữ DNA có khả năng ít tốn kém hơn, nhỏ gọn hơn về mặt vật lý, tiết kiệm năng lượng hơn và lâu dài hơn — DNA tồn tại hàng trăm năm và không cần bảo trì. Các tệp được lưu trữ trong DNA cũng có thể được sao chép rất dễ dàng với chi phí không đáng kể.

Mật độ lưu trữ của DNA là đáng kinh ngạc. Hãy xem xét điều này: loài người sẽ tạo ra ước tính khoảng 33 zettabyte vào năm 2025 — đó là 3,3 và tiếp theo là 22 số 0. Tất cả những thông tin đó sẽ phù hợp với một quả bóng bàn, có chỗ trống. Thư viện Quốc hội có khoảng 74 terabyte, hay 74 triệu triệu byte, thông tin — 6.000 thư viện như vậy sẽ nằm gọn trong một kho lưu trữ DNA có kích thước bằng một hạt anh túc. 300 petabyte (300.000 terabyte) của Facebook có thể được lưu trữ trong một nửa hạt anh túc.

Việc mã hóa tệp nhị phân thành phân tử được thực hiện bằng quá trình tổng hợp DNA. Một công nghệ được hiểu khá rõ ràng, tổng hợp tổ chức các khối cấu tạo của DNA thành nhiều cách sắp xếp khác nhau, được biểu thị bằng trình tự của các chữ cái A, C, G và T. Chúng là cơ sở của tất cả mã DNA, cung cấp các chỉ dẫn để xây dựng mọi sinh vật. điều trên trái đất.

ADS Codex của nhóm Los Alamos cho biết chính xác cách dịch dữ liệu nhị phân — tất cả các số 0 và 1 — thành chuỗi gồm bốn tổ hợp chữ cái A, C, G và T. Codex cũng xử lý việc giải mã trở lại thành hệ nhị phân. DNA có thể được tổng hợp bằng một số phương pháp và ADS Codex có thể đáp ứng tất cả. Nhóm Los Alamos đã hoàn thành phiên bản 1.0 của ADS Codex và vào tháng 11 năm 2021 có kế hoạch sử dụng nó để đánh giá hệ thống lưu trữ và truy xuất do các nhóm MIST khác phát triển.

Thật không may, việc tổng hợp DNA đôi khi gây ra những sai lầm trong quá trình mã hóa, vì vậy ADS Codex giải quyết hai trở ngại lớn trong việc tạo các tệp dữ liệu DNA.

Đầu tiên, so với các hệ thống kỹ thuật số truyền thống, tỷ lệ lỗi khi ghi vào bộ lưu trữ phân tử là rất cao, vì vậy nhóm nghiên cứu đã phải tìm ra các chiến lược mới để sửa lỗi. Thứ hai, các lỗi trong quá trình lưu trữ DNA phát sinh từ một nguồn khác với các lỗi xảy ra trong thế giới kỹ thuật số, khiến việc sửa lỗi trở nên phức tạp hơn.

“Trên đĩa cứng kỹ thuật số, lỗi nhị phân xảy ra khi số 0 chuyển sang số 1 hoặc ngược lại, nhưng với DNA, bạn gặp nhiều vấn đề hơn do lỗi chèn và xóa,” Ionkov nói. “Bạn đang viết A, C, G và T, nhưng đôi khi bạn cố gắng viết A, và không có gì xuất hiện, vì vậy chuỗi các chữ cái dịch chuyển sang trái hoặc nó nhập AAA. Các mã sửa lỗi thông thường không hoạt động tốt với điều đó ”.

ADS Codex thêm thông tin bổ sung được gọi là mã phát hiện lỗi có thể được sử dụng để xác thực dữ liệu. Khi phần mềm chuyển đổi dữ liệu trở lại dạng nhị phân, nó sẽ kiểm tra xem các mã có khớp nhau hay không. Nếu không, ACOMA sẽ thử loại bỏ hoặc thêm nucleotide cho đến khi xác minh thành công.

Mở rộng quy mô thông minh

Các kho lớn chứa các trung tâm dữ liệu lớn nhất hiện nay, với dung lượng lưu trữ ở quy mô exabyte — tức là một nghìn tỷ triệu byte trở lên. Tốn hàng tỷ USD để xây dựng, cấp nguồn và vận hành, loại trung tâm dữ liệu kỹ thuật số này có thể không phải là lựa chọn tốt nhất vì nhu cầu lưu trữ dữ liệu tiếp tục tăng theo cấp số nhân.

Việc lưu trữ lâu dài với các phương tiện rẻ hơn rất quan trọng đối với sứ mệnh an ninh quốc gia của Los Alamos và những người khác. “Tại Los Alamos, chúng tôi có một số dữ liệu kỹ thuật số lâu đời nhất và kho dữ liệu lớn nhất, bắt đầu từ những năm 1940,” Settlemyer nói. “Nó vẫn có giá trị to lớn. Bởi vì chúng tôi lưu giữ dữ liệu mãi mãi, chúng tôi đã ở trên đỉnh của mũi nhọn trong một thời gian dài khi nói đến việc tìm ra giải pháp lưu trữ lạnh ”.

Settlemyer cho biết lưu trữ DNA có tiềm năng trở thành một công nghệ đột phá vì nó lai giữa các lĩnh vực chín muồi với sự đổi mới. Dự án MIST đang kích thích một liên minh mới giữa các nhà cung cấp lưu trữ kế thừa, những người sản xuất băng từ, các công ty tổng hợp DNA, các công ty giải trình tự DNA và các tổ chức máy tính hiệu suất cao như Los Alamos đang thúc đẩy máy tính vào các chế độ mô phỏng dựa trên khoa học ngày càng lớn hơn. mang lại lượng dữ liệu đáng kinh ngạc phải được phân tích.

Tìm hiểu sâu hơn về DNA

Khi hầu hết mọi người nghĩ về DNA, họ nghĩ đến sự sống, không phải máy tính. Nhưng bản thân DNA là một mã gồm bốn chữ cái để truyền thông tin về một sinh vật. Các phân tử DNA được tạo ra từ bốn loại bazơ, hoặc nucleotide, mỗi loại được xác định bằng một chữ cái: adenine (A), thymine (T), guanine (G) và cytosine (C).

Các bazơ này quấn thành một chuỗi xoắn xung quanh nhau – chuỗi xoắn kép quen thuộc – để tạo thành phân tử. Việc sắp xếp các chữ cái này thành chuỗi sẽ tạo ra một mã cho một sinh vật biết cách hình thành. Bộ phân tử DNA hoàn chỉnh tạo nên bộ gen — bản thiết kế cơ thể của bạn.

Bằng cách tổng hợp các phân tử DNA — tạo ra chúng từ đầu — các nhà nghiên cứu đã phát hiện ra rằng họ có thể chỉ định hoặc viết các chuỗi dài của các chữ cái A, C, G và T và sau đó đọc lại các trình tự đó. Quá trình này tương tự như cách một máy tính lưu trữ thông tin bằng cách sử dụng các số 0 và 1. Ionkov cho biết, phương pháp này đã được chứng minh là có hiệu quả, nhưng việc đọc và ghi các tệp mã hóa DNA hiện đang mất nhiều thời gian.

“Việc gắn một nucleotide vào DNA diễn ra rất chậm. Phải mất một phút, ”Ionkov nói. “Hãy tưởng tượng việc ghi một tệp vào ổ cứng mất hơn một thập kỷ. Vì vậy, vấn đề đó được giải quyết bằng cách đi song song ồ ạt. Bạn viết hàng chục triệu phân tử đồng thời để tăng tốc độ ”.

Trong khi các công ty khác nhau đang nghiên cứu các cách tổng hợp khác nhau để giải quyết vấn đề này, ADS Codex có thể được điều chỉnh cho phù hợp với mọi cách tiếp cận.

Nguồn vốn cho ADS Codex được cung cấp bởi Hoạt động Dự án Nghiên cứu Nâng cao Trí tuệ (IARPA), một cơ quan nghiên cứu thuộc Văn phòng Giám đốc Tình báo Quốc gia.

Theo Scitechdaily

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0

You may also like

Leave a reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.