Ok, bắt đầu thôi! Hôm nay tui muốn chia sẻ về cái vụ “betis fc vs valencia” mà tui vừa thực hành xong. Nghe thì có vẻ bóng đá, nhưng thực chất là tui đang tập tành làm việc với dữ liệu bóng đá đó mấy ông ạ.
Đầu tiên, tui tìm kiếm dữ liệu. Tui lượn lờ trên mấy trang web thể thao, mò mẫm xem có trang nào cung cấp dữ liệu về trận đấu này không. Mất cả buổi chiều mới vớ được một trang có vẻ ngon nghẻ, nhưng mà dữ liệu nó lại nằm lộn xộn, chẳng theo hàng lối gì cả.
Thế là tui phải ngồi gõ lại. Đúng nghĩa đen luôn đó. Tui mở Excel ra, rồi cứ nhìn vào trang web mà gõ từng thông số một: đội hình ra sân, số bàn thắng, số lần sút trúng đích, số lần phạm lỗi… Gõ xong mà tay muốn rụng rời luôn.
Gõ xong thì lại đến công đoạn làm sạch dữ liệu. Mấy ông biết đó, dữ liệu “sống” nó bẩn lắm. Chỗ thì viết hoa, chỗ thì viết thường, chỗ thì dùng dấu chấm, chỗ thì dùng dấu phẩy. Tui phải ngồi sửa từng lỗi một, cho nó đồng nhất, dễ bề phân tích.
Tiếp theo là phân tích dữ liệu. Cái này mới là phần thú vị nè. Tui dùng Excel để vẽ mấy cái biểu đồ, so sánh các chỉ số của hai đội. Ví dụ như là đội nào sút nhiều hơn, đội nào kiểm soát bóng tốt hơn… Nhìn vào mấy cái biểu đồ đó, tui cũng hiểu sơ sơ về diễn biến của trận đấu.
- Số bàn thắng: Betis 2 – Valencia 1
- Số lần sút trúng đích: Betis 6 – Valencia 4
- Tỷ lệ kiểm soát bóng: Betis 55% – Valencia 45%
Cuối cùng là rút ra kết luận. Dựa vào những phân tích trên, tui thấy Betis đá có vẻ hiệu quả hơn, kiểm soát bóng tốt hơn, và dĩ nhiên là thắng rồi. Nhưng mà Valencia cũng không phải dạng vừa, họ sút trúng đích cũng khá nhiều, chỉ là không may mắn thôi.
Nói chung, cái vụ “betis fc vs valencia” này tuy hơi tốn công sức, nhưng mà tui học được nhiều điều lắm. Tui biết cách tìm kiếm, thu thập, làm sạch và phân tích dữ liệu. Mấy cái này sau này chắc chắn sẽ có ích cho tui.
À, mà tui cũng nhận ra một điều là dữ liệu bóng đá nó phức tạp hơn mình nghĩ. Muốn hiểu sâu hơn về bóng đá, chắc phải học thêm nhiều kiến thức nữa quá.
Một vài khó khăn gặp phải:
Trong quá trình thực hiện, tui cũng gặp phải một vài khó khăn. Ví dụ như là:
- Tìm nguồn dữ liệu tin cậy: Mấy trang web thể thao nhiều vô kể, nhưng mà không phải trang nào cũng cung cấp dữ liệu chính xác và đầy đủ.
- Làm sạch dữ liệu: Dữ liệu “sống” nó lộn xộn lắm, phải mất nhiều thời gian và công sức để làm sạch.
- Chọn công cụ phân tích phù hợp: Có nhiều công cụ phân tích dữ liệu khác nhau, nhưng không phải công cụ nào cũng phù hợp với trình độ của tui.
Tuy nhiên, nhờ sự kiên trì và ham học hỏi, tui cũng đã vượt qua được những khó khăn này. Tui tin rằng, chỉ cần có đam mê và quyết tâm, thì không có gì là không thể.
Mong là những chia sẻ của tui sẽ có ích cho mấy ông. Nếu mấy ông cũng thích tìm hiểu về dữ liệu bóng đá, thì cứ thử làm theo cách của tui xem sao nhé!