Làm việc với File trong Python

Đọc file trong Python như thế nào? Ở bài viết này, hãy cùng Quantrimang.com tìm hiểu về cách đọc file Python nhé!

Xử lý file trong Python là một công cụ mạnh mẽ và linh hoạt, có thể được dùng để triển khai một loạt các hoạt động khác nhau. Tuy nhiên, điều quan trọng ở đây là bạn cần xem xét cẩn thận ưu và nhược điểm của xử lý file khi viết các chương trình Python, để đảm bảo rằng code an toàn, đáng tin cậy và được triển khai tốt.

Thao tác với file trong Python

Python cũng hỗ trợ xử lý file và cho phép người dùng xử lý tập tin, ví dụ đọc và ghi file, cùng với nhiều lựa chọn xử lý file khác để thao tác trên file. Khái niệm xử lý file đã có ở hầu hết mọi ngôn ngữ lập trình, nhưng việc triển khai khá phức tạp và dài dòng. Tuy nhiên, giống như các khái niệm khác trong Python, khái niệm xử lý file cũng dễ dàng và ngắn gọn.

Python xử lý các file khác nhau dưới dạng văn bản hoặc nhị phân. Điều này rất quan trọng. Mỗi dòng code đều bao gồm một chuỗi ký tự và chúng tạo thành một file văn bản. Mỗi dòng của file được kết thúc bằng một ký tự đặc biệt, mang tên EOL hay ký tự kết dòng như dấu phẩy hoặc ký tự báo dòng mới. Nó chấm dứt dòng hiện tại và cho trình phiên dịch biết một dòng mới đã bắt đầu. Giờ chúng ta hãy cùng nhau tìm hiểu cách đọc dữ liệu từ file trong Python.

File là gì?

File hay còn gọi là tệp, tập tin. File là tập hợp của các thông tin được đặt tên và lưu trữ trên bộ nhớ máy tính như đĩa cứng, đĩa mềm, CD, DVD,...

Khi muốn đọc hoặc ghi file, chúng ta cần phải mở file trước. Khi hoàn thành, file cần phải được đóng lại để các tài nguyên được gắn với file được giải phóng.

Do đó, trong Python, một thao tác với file diễn ra theo thứ tự sau.

  1. Mở tệp tin
  2. Đọc hoặc ghi
  3. Đóng tệp

Mở File trong Python

Trong Python, có một hàm được xây dựng sẵn phục vụ cho việc mở file: open(). Hàm này trả về đối tượng file hay còn gọi là “handle” vì bạn có thể thực hiện các hoạt động đọc, ghi, sửa đổi trên file đó.

>>> f = open("test.txt") # mở file cùng thư mục với file hiện tại
>>> f = open("C:/Python33/README.txt") # mở file ở thư mục khác, đường dẫn đầy đủ

Bạn có thể xác định cách thức mà tập tin được mở ra để làm gì như read, write, append,... Đây là thông số tùy chọn có thể có hoặc không. Ngoài ra bạn cũng có thể định rõ file mở ra dạng văn bản hay dạng nhị phân.

Chế độ truy cập file mặc định là read (r). Khi dùng mode này chúng ta sẽ nhận được giá trị chuỗi trả về dạng văn bản.

Mặt khác nếu giá trị trả về ở dạng byte thì tệp được mở ra là hình ảnh hoặc exe.

Dưới đây là danh sách các chế độ mode khác nhau khi mở một file:

MODEMÔ TẢ
‘r’Chế độ chỉ được phép đọc.
‘r+’Chế độ được phép đọc và ghi
‘rb’Mở file chế độ đọc cho định dạng nhị phân. Con trỏ tại phần bắt đầu của file
‘rb+’
‘r+b’
Mở file để đọc và ghi trong định dạng nhị phân. Con trỏ tại phần bắt đầu của file
‘w’Mở file để ghi. Nếu file không tồn tại thì sẽ tạo mới file và ghi nội dung, nếu file đã tồn tại thì sẽ bị cắt bớt (truncate) và ghi đè lên nội dung cũ
‘w+’Mở file để đọc và ghi. Nếu file không tồn tại thì sẽ tạo mới file và ghi nội dung, nếu file đã tồn tại thì sẽ bị cắt bớt (truncate) và ghi đè lên nội dung cũ
‘wb’Mở file để ghi cho dạng nhị phân. Nếu file không tồn tại thì sẽ tạo mới file và ghi nội dung, nếu file đã tồn tại thì sẽ bị cắt bớt (truncate) và ghi đè lên nội dung cũ
‘wb+’
‘w+b’
Mở file để đọc và ghi cho dạng nhị phân. Nếu file không tồn tại thì sẽ tạo mới file và ghi nội dung, nếu file đã tồn tại thì sẽ bị cắt bớt (truncate) và ghi đè lên nội dung cũ
‘a’Mở file chế độ ghi tiếp. Nếu file đã tồn tại rồi thì nó sẽ ghi tiếp nội dung vào cuối file, nếu file không tồn tại thì tạo một file mới và ghi nội dung vào đó.
‘a+’Mở file chế độ đọc và ghi tiếp. Nếu file đã tồn tại rồi thì nó sẽ ghi tiếp nội dung vào cuối file, nếu file không tồn tại thì tạo một file mới và ghi nội dung vào đó.
‘ab’,Mở file chế độ ghi tiếp ở dạng nhị phân. Nếu file đã tồn tại rồi thì nó sẽ ghi tiếp nội dung vào cuối file, nếu file không tồn tại thì tạo một file mới và ghi nội dung vào đó.
‘ab+’
‘a+b
Mở file chế độ đọc và ghi tiếp ở dạng nhị phân. Nếu file đã tồn tại rồi thì nó sẽ ghi tiếp nội dung vào cuối file, nếu file không tồn tại thì tạo một file mới và ghi nội dung vào đó.
‘x’Mở file chế độ ghi. Tạo file độc quyền mới (exclusive creation) và ghi nội dung, nếu file đã tồn tại thì chương trình sẽ báo lỗi
‘x+’Mở file chế độ đọc và ghi. Tạo file độc quyền mới (exclusive creation) và ghi nội dung, nếu file đã tồn tại thì chương trình sẽ báo lỗi
‘xb’Mở file chế độ ghi dạng nhị phân. Tạo file độc quyền mới và ghi nội dung, nếu file đã tồn tại thì chương trình sẽ báo lỗi
‘xb+’
‘x+b’
Mở file chế độ đọc và ghi dạng nhị phân. Tạo file độc quyền mới và ghi nội dung, nếu file đã tồn tại thì chương trình sẽ báo lỗi
‘b’Mở file ở chế độ nhị phân
‘t’Mở file ở chế độ văn bản (mặc định)

f = open("test.txt") # mở file mode 'r' hoăc 'rt' để đọc

f = open("test.txt",'w') # mở file mode ‘w’ để ghi
f = open("img.bmp",'r+b') # mở file mode ‘r+b’ để đọc và ghi dạng nhị phân

Khi làm việc với các tệp ở chế độ văn bản, bạn nên chỉ định loại mã hóa.

f = open("test.txt",mode = 'r',encoding = 'utf-8')

Đóng File trong Python

Sau khi thực hiện xong các thao tác với file thì bạn cần đóng nó lại.

Đóng file để đảm bảo quy chế đóng mở và giải phóng bộ nhớ cho chương trình nên điều này là cần thiết.

Việc đóng file được xây dựng trong Python bằng hàm close().

Python cũng tự động đóng một file khi đối tượng tham chiếu của file đã được tái gán cho một file khác. Tuy nhiên, sử dụng phương thức close() để đóng một file vẫn tốt hơn.

f = open("test.txt",encoding = 'utf-8')
# thực hiện các thao tác với tệp
f.close()

Tuy nhiên cách này chưa thực sự đảm bảo. Vẫn có trường hợp một số ngoại lệ xảy ra khi chúng ta thực hiện các thao tác với file khiến chương trình tự động thoát ra mà không đóng tệp.

Để đảm bảo hơn, bạn nên sử dụng khối lệnh try...finally (finally sẽ luôn luôn được thực thi bất chấp có hay không ngoại lệ) ở đây.

try:
f = open("test.txt",encoding = 'utf-8')
# thực hiện các thao tác với tệp
finally:
f.close()

Bằng cách này, ta có thể yên tâm file được đóng đúng ngay cả khi phát sinh ngoại lệ khiến chương trình dừng đột ngột.

Một cách khác để đóng file là sử dụng câu lệnh with. Lệnh with cho chúng ta bảo đảm rằng file luôn luôn được đóng mà không cần biết những logic xử lý bên trong.

with open("test.txt",encoding = 'utf-8') as f:
# thực hiện các thao tác với tệp

So sánh hai cách viết này thì chúng ta đã thấy rất rõ ràng rằng, sử dụng with cho chúng ta cách viết code ngắn gọn hơn hẳn.

Ghi File trong Python

Để ghi một file ta cần mở file bằng cú pháp để ghi, sử dụng mode write ‘w’, append ‘a’ hoặc mode tạo độc quyền ‘x’

Bạn cần cẩn thận với chế độ ‘w’, vì nó ghi đè lên nội dung nếu file đã tồn tại, các dữ liệu trước đó sẽ bị xóa.

Nếu bạn ghi vào file dạng nhị phân các chuỗi văn bản hoặc chuỗi dạng byte thì kết quả trả về sẽ là số kí tự được ghi vào file.

with open("test.txt",'w',encoding = 'utf-8') as f:
f.write("Quantrimang\n")
f.write("Kiến thức - Kinh nghiệm - Hỏi đáp\n\n")
f.write("Quantrimang.com\n")

Với ví dụ trên, chương trình sẽ tạo một file có tên là test.txt nếu tệp chưa tồn tại, nếu tồn tại rồi sẽ bị ghi đè lên.

Sử dụng các kí tự ‘\n’ để phân biệt các dòng với nhau.

Kết quả được trả về là:

Quantrimang
Kiến thức - Kinh nghiệm - Hỏi đáp

Quantrimang.com

Đọc File trong Python

Tương tự ghi file, để đọc một file ta cần mở file bằng cú pháp để đọc, sử dụng mode read ‘r’.

Dùng read(size)

Sử dụng phương thức read(size) để lấy về dữ liệu có kích thước bằng size. Nếu để trống tham số này thì nó sẽ đọc hết file hoặc nếu file quá lớn thì nó sẽ đọc đến khi giới hạn của bộ nhớ cho phép.

f = open("test.txt",'r',encoding = 'utf-8')
a = f.read(12) # đọc 12 kí tự đầu tiên
print('Nội dung 11 kí tự đầu là:\n', (a))
b = f.read(35) # đọc 35 kí tự tiếp theo
print('Nội dung 35 kí tự tiếp theo là:\n', (b))
c = f.read() # đọc phần còn lại
print('Nội dung phần còn lại là:\n', (c))

Chạy chương trình, kết quả trả về là:

Nội dung 12 kí tự đầu là:
Quantrimang

Nội dung 35 kí tự tiếp theo là:
Kiến thức - Kinh nghiệm - Hỏi đáp

Nội dung phần còn lại là:
Quantrimang.com

Dùng tell() và seek()

Ngoài ra, ta có phương thức tell() cho bạn biết vị trí hiện tại bên trong file. Nói cách khác, việc đọc và ghi tiếp theo sẽ diễn ra tiếp tục trên các byte đó.

Phương thức seek() thay đổi vị trí hiện tại bên trong file.

f = open("test.txt",'r',encoding = 'utf-8')
a = f.read(12) # đọc 12 kí tự đầu tiên
print('Nội dung là: \n', (a))

b = f.tell() # Kiểm tra vị trí hiện tại
print ('Vị trí hiện tại: ', (b))

f.seek(0) # Đặt lại vị trí con trỏ tại vị trí đầu file
c = f.read()
print('Nội dung mới là: \n', (c))

Kết quả trả về:

Nội dung là: 
Quantrimang

Vị trí hiện tại: 13
Nội dung mới là:
Quantrimang
Kiến thức - Kinh nghiệm - Hỏi đáp

Quantrimang.com

Dùng readline()

Phương thức này cho phép đọc từng dòng trong file:

f = open("test.txt",'r',encoding = 'utf-8')
a = f.readline()
print ('Nội dung dòng đầu: ', (a))
b = f.readline()
print ('Nội dung dòng 2: ', (b))
c = f.readline()
print ('Nội dung dòng 3: ', (c))
d = f.readline()
print ('Nội dung dòng 4: ', (d))

Kết quả in ra màn hình:

Nội dung dòng đầu: Quantrimang

Nội dung dòng 2: Kiến thức - Kinh nghiệm - Hỏi đáp

Nội dung dòng 3:

Nội dung dòng 4: Quantrimang.com

Dùng readlines()

Phương thức readlines() trả về toàn bộ các dòng còn lại trong file và trả về giá trị rỗng khi kết thúc file.

f = open("test.txt",'r',encoding = 'utf-8')
a = f.readline()
print ('Nội dung dòng đầu: ', (a))
b = f.readlines()
print ('Nội dung các dòng còn lại: \n', (b))
c = f.readlines()
print ('Nội dung các dòng còn lại: \n', (c))

Kết quả hiện thị trên màn hình:

Nội dung dòng đầu: Quantrimang

Nội dung các dòng còn lại:
['Kiến thức - Kinh nghiệm - Hỏi đáp\n', '\n', 'Quantrimang.com\n']
Nội dung các dòng còn lại:
[]

Một số phương thức làm việc với File trong Python

Có rất nhiều phương thức khác nhau để làm việc với file được tích hợp sẵn trong Python, trong đó có một vài phương thức đã được Quantrimang tìm hiểu ở trên.

Bảng dưới đây là danh sách đầy đủ các phương thức dưới dạng text, các bạn tham khảo thêm.

PHƯƠNG THỨCMÔ TẢ
close()Đóng một file đang mở. Nó không thực thi được nếu tập tin đã bị đóng.
fileno()Trả về một số nguyên mô tả file (file descriptor).
flush()Xóa sạch bộ nhớ đệm của luồng file.
isatty()Trả về TRUE nếu file được kết nối với một thiết bị đầu cuối.
read(n)Đọc n kí tự trong file.
readable()Trả về TRUE nếu file có thể đọc được.
readline(n=-1)Đọc và trả về một dòng từ file. Đọc nhiều nhất n byte/ký tự nếu được chỉ định.
readlines(n=-1)Đọc và trả về một danh sách các dòng từ file. Đọc nhiều nhất n byte/ký tự nếu được chỉ định.
seek(offset,from=SEEK_SET)Thay đổi vị trí hiện tại bên trong file.
seekable()Trả về TRUE nếu luồng hỗ trợ truy cập ngẫu nhiên.
tell()Trả về vị trí hiện tại bên trong file.
truncate(size=None)Cắt gọn kích cỡ file thành kích cỡ tham số size.
writable()Trả về TRUE nếu file có thể ghi được.
write(s)Ghi s kí tự vào trong file và trả về.
writelines(lines)Ghi một danh sách các dòng và file.

Ưu và nhược điểm của đọc dữ liệu từ file trong Python

Ưu điểm

  • Linh hoạt: Xử lý file trong Python cho phép bạn triển khai một loạt các hoạt động như tạo, đọc, viết, bổ sung, đổi tên và xóa file.
  • Linh động: Xử lý file trong Python có độ linh hoạt cao vì nó cho phép bạn hoạt động với các kiểu file khác nhau (ví dụ: file văn bản, file nhị phân, file CSV…) và để thực hiện các tác vụ khác nhau trên file (ví dụ: đọc, viết, bổ sung…).
  • Thân thiện người dùng: Python cung cấp giao diện thân thiện người dùng trong việc xử lý file, khiến nó dễ dàng tạo, đọc và chỉnh sửa file.
  • Chéo nền tảng: Các hàm xử lý file trong Python hoạt động trên các nền tảng khác nhau (ví dụ: Windows, Mac, Linux), cho phép tích hợp và tương thích liền mạch.

Nhược điểm

  • Dễ bị lỗi, nhất là khi code không được viết cẩn thận hoặc hệ thống gặp vấn đề.
  • Tiềm ẩn rủi ro bảo mật.
  • Phức tạp, nhất là khi làm việc với các định dạng file nâng cao.
  • Tốc độ xử lý chậm hơn các ngôn ngữ lập trình khác.

Xem thêm:

Bài trước: Ma trận trong Python

Bài tiếp: Quản lý File và thư mục trong Python

Thứ Sáu, 25/08/2023 16:54
4,420 👨 122.943
0 Bình luận
Sắp xếp theo
    ❖ Python