FAO học Data Science

Thứ Hai, 21 tháng 11, 2022

Bảy trụ cột thông thái của thống kê học

1. Aggregation: loại bỏ dữ liệu để thu nạp thông tin

Lấy số trung bình để làm đại diện cho một dãy số

2. Information: giảm lượng thông tin

Lượng thông tin không phải là hàm tuyến tính của lượng dữ liệu mà là hàm căn bậc hai, theo công thức tính sai số chuẩn

3. Likelihood: thu nạp thông tin từ tình trạng bất định

Kiểm định thống kê giúp giảm sự bất định trong cuộc sống

4. Intercomparison: so sánh

So sánh và kiểm định để xem sự sai khác là do ngẫu nhiên hay do một yếu tố nào => tìm quy luật nhân quả

5. Regression: thu nạp thông tin từ luật hồi quy về số trung bình

Hồi quy vừa là thu nạp thông tin, vừa là đúc rút quy luật, từ quy luật mà trở nên kiến thức

6. Design: thu nạp thông tin từ số ngẫu nhiên

Sử dụng ngẫu nhiên hóa trong thiết kế kiểm định để xác nhận một giả thiết là đúng hay sai

7. Residual: thu nạp thông tin từ sai số

Làm chính xác hơn quy luật đã phát biểu trước đây bằng cách tìm quy luật trong sai số

Trích sách Suy nghĩ thống kê trong đời thường - Nguyễn Văn Tuấn

Chủ Nhật, 2 tháng 8, 2020

Đạo hàm - hàm phái sinh - hàm chỉ lối - Derivative

Rảnh rỗi trà nước nghĩ ngợi chơi chơi, bỗng thắc mắc vì sao gọi là "đạo hàm"? Nếu không có khái niệm gì cả thì nghe đến "đạo" và "hàm" ta sẽ nghĩ ngay tới cái gì? Giả dụ "hàm" là viết tắt của "hàm số" thì "đạo" sẽ có nghĩa là gì?

Thử google chơi chơi thì hơi khó tìm xem khái niệm "đạo hàm" do ai sử dụng lần đầu vào khi nào. Đành lục tìm Wikipedia để xem những khái niệm giống nhau được viết bằng các chữ khác nhau như thế nào và trang (Hán Việt Tự điển trích dẫn) để tra cứu các yếu tố Hán Việt. Tiếng Việt mình còn nhiều yếu tố Hán-Việt nên cần tìm về từ/chữ gốc Hán để tra cứu chút chút.

Wikipedia định nghĩa "đạo hàm" (tiếng Anh - Derivative, tiếng Trung - 导数) là là sự mô tả sự biến thiên của hàm số tại một điểm nào đó. Hay viết theo công thức là:

\[f'(x)=\lim_{x\to x_0} \frac{f(x) - f(x_0)}{x - x_0}\]

Trong vật lý thì ví dụ cổ điển nhất là vận tốc tức thời, hay vận tốc trung bình khi khoảng thời gian di chuyển trở nên cực ngắn. Derivative của tiếng Anh có thể tìm thấy các từ tương đương trong tiếng Việt như phát sinh, phái sinh, dẫn xuất ... (đều có nghĩa gần giống như là xuất phát từ một cái gì đó có trước - thì hẳn nhiên có quy tắc f(x) thì mới tính được f'(x0) như công thức ở trên kia).

Quay lại tiếng Việt chút - "đạo" là gì mà "hàm" là cái chi chi. Vậy nhìn xa hơn chút qua tiếng Trung. `导数` được cấu thành từ 2 'chữ' giản thể '导' của `導` (đạo - dẫn, khai) và '数' của `數` (có nhiều chữ Việt tương đương, trong đó có chữ số-học về toán). Vậy `导数` nên đọc là số dẫn xuất hay số dẫn đường nhỉ? Chắc phải hỏi mấy bạn học tiếng Trung thôi, tới đây đuối rồi. Nhưng "đạo" trong `đạo hàm` chắc giống `导` trong `导数`, còn "hàm" chắc là hàm số (function - 函数, với `函` = hàm = cái hộp biến đổi). Thôi tới đây tóm gọn lại chút `đạo hàm` là cái 'hàm số dẫn xuất', tức là cái `hàm` được sinh ra từ một `hàm` có trước và cũng có tác dụng dẫn lối cái `hàm` có trước ấy theo một `vận tốc` tức thời nào đó (hay to tát hơn chút là gradient).

Nghĩ cũng kì-kì-hay-hay, ngôn ngữ là công cụ của tư duy. Nếu chỉ làm việc trên mặt chữ mà quên mất cái khái niệm/sự vật/hiện tượng mà ngôn ngữ biểu thị thì hỏng hỏng. Ngôn ngữ cũng phản ánh tư duy và hiểu biết của người sử dụng. Và cũng nhiều người biết công cụ nhưng không có khái niệm, bởi đó không phải là chuyên môn của họ. Còn nếu họ như các cháu đánh vần xong nói ngon ơ "đạo hàm" mà không biết nó là cái gì thì đành chịu vậy.

Thứ Bảy, 7 tháng 7, 2018

Tại sao các thuật toán học máy vẫn gặp đầy khó khăn trong tài chính?

Hôm trước ngồi đọc mấy bài báo về sử dụng mạng nơ ron tích chập trong bài toán nhận diện đối tượng xong thấy mệt mỏi và chán nản quá (Thật ra thì bao giờ tiếp thu cái mới và bắt bộ não làm việc thì các vấn đề tâm sinh lí như trên luôn xảy ra. Con người chúng ta thực sự lười biếng và không thông minh lắm đâu.) nên đi tìm cái mới để đổi gió. Mình có một dự định sâu xa nên nhảy vào xem có ứng dụng gì của học sâu trong tài chính không. Cũng không hẳn là để buôn bán cổ phiếu hay làm gì, mà biết đâu, nếu được thì cũng làm luôn. Kẻ biết ít luôn liều lĩnh hơn người thấu đáo (như trong hình minh họa dưới đây)

Nói chung là việc áp dụng máy học vào tài chính không quá nhiều như các lĩnh vực khác và gặp đầy khó khăn. Cái blog dưới đây đã điểm qua khá nhiều thách thức, mình chưa có ý kiến gì mới, lược dịch cho bà con xem. Phần tiếng Anh để nguyên.

Link bài viết gốc: Why is machine learning in finance so hard?

2011: học Máy học và tự hỏi "Đúng rồi, mình có thể sử dụng thuật toán phân lớp để dự đoán giá cổ phiếu và giàu lên từ đó". 2018: Mình không chắc là cái mô hình này có thể học được gì không hay đây là một lần nữa ném tiền qua cửa sổ.

"Financial markets have been one of the earliest adopters of machine learning (ML). People have been using ML to spot patterns in the markets since the 1980s. Even though ML has had enormous successes in predicting the market outcomes in the past, the recent advances in deep learning haven’t helped financial market predictions much. While deep learning and other ML techniques have finally made it possible for Alexa, Google Assistant, and Google Photos to work, there hasn’t been much progress when it comes to stock markets."

Thị trường tài chính là một trong những nơi đầu tiên áp dụng máy học (ML). Người ta đã dùng máy học để xác định các mẫu/mô hình/quy luật trong thị trường từ những năm 1980. Mặc dù trong quá khứ ML đã đạt được nhiều thành công trong việc dự đoán đầu ra, ở thời điểm hiện tại học sâu (DL - một phần của học máy) vẫn chưa hỗ trợ gì nhiều trong việc dự báo thị trường. Trong khi DL và các thuật toán ML khác đã được áp dụng thành công bởi Alexa, Google Assitant và Goole Photos thì vẫn chưa có nhiều tiến bộ khi áp dụng các kĩ thuật này vào thị trường chứng khoán.

"I am not a researcher. But, I apply machine learning to real-world financial prediction problems. Even though there are a number of papers claiming the successful application of deep learning models, I view those results with skepticism. Some of these models do actually have better accuracies. However, the magnitude of difference is often not high enough."

Không phải là một nhà nghiên cứu, nhưng tôi đã và đang áp dụng máy học vào dự báo với dữ liệu thật trong tài chính. Mặc dù một lượng lớn các nghiên cứu/bài báo đã tuyên bố việc ứng dụng thành công các mô hình học sâu, tôi vẫn nhìn nhận các kết quả đó với đầy hoài nghi. Một vài trong số những mô hình đó đã có những cải thiện đáng kể về độ chính xác. Tuy nhiên, sự khác biệt thường vẫn chưa đủ cao.

"Improvements in NLP have helped increase the effectiveness of quantitative strategies that rely on document analysis. This is one rare benefit of deep learning models in financial markets. Even in this set of problems, the predictions remain weak."

Những tiến bộ trong xử lí ngôn ngữ tự nhiên (NLP - natural language processing) đã phần nào thúc đẩy hiệu quả các chiến lược định lượng dựa trên việc phân tích tài liệu. Đây là một trong những lợi ích hiếm hoi của các mô hình học sâu (DL - deep learning) trong thị trường tài chính. Tuy vậy, ở điểm sáng này các dự báo vẫn còn non yếu.

"All this leads to the fact that financial markets are inherently unpredictable. There are multiple reasons why it’s so hard to predict here. I want to highlight some major reasons that make it hard."

Tất cả những yếu tố này đều gợi ra một sự thật rằng thị trường chứng khoán vốn dĩ rất khó dự báo. Có nhiều nguyên nhân dẫn đến điều này, ở đây tôi xin nhấn mạnh một số lí do cốt lõi nhất.

"Data Distribution
The issue of data distribution is crucial - almost all research papers doing financial predictions miss this point.

We can contrast the financial datasets with the image classification datasets to understand this well. Let’s consider the CIFAR-10 dataset. It consists of 10 classes. There are exactly 5000 images in the training set for each class and exactly 1000 images in the test set for each class."

Sự phân bố dữ liệu
Phân bố dữ liệu là yếu tố quan trọng nhất, và hầu hết các nghiên cứu dự báo tài chính đều bỏ quên điều này.
Chúng ta hãy so sánh các dữ liệu tài chính và dữ liệu của bài toán phân loại ảnh để có một cái nhìn rõ hơn. Và cụ thể ở đây là tập dữ liệu CIFAR-10 (minh họa bên dưới), chứa 10 phân lớp, trong đó mỗi phân lớp có 5000 ảnh sử dụng cho huấn luyện và 1000 ảnh khác dùng để kiểm định mô hình.

Tập dữ liệu dùng cho việc phân loại ảnh với 10 lớp/nhóm: máy bay, xe hơi, chin, mèo, hươu, chó, ếch, ngựa, thuyền bè và xe tải

"We expect the distribution of pixel weights in the training set for the dog class to be similar to the distribution in the test set for the dog class. In other words, dog images will contain dogs both in the training set as well as the test set. It is quite silly to state the obvious: dogs images has to contain dogs."

Chúng ta mong chờ rằng phân bố các trọng số trong tập huấn luyện của lớp "cún" là tương tự với phân bố của chúng trong tập kiểm thử/kiểm nghiệm. Nói cách khác, lớp "cún" sẽ chứa "cún", trong tập huấn luyện như nào thì tập kiểm thử sẽ như thế. Điều đó đủ ngớ ngẩn để trích dẫn một điều được coi hiển nhiên là "ảnh chó thì phải có chó".

"This obvious property simply doesn’t hold for most financial datasets. What you may see in future may be completely different from the data you have seen so far. In fact, this is a common issue when it comes to applying machine learning to real-world problems. In addition to making sure the test and train sets have similar distributions, you also have to make sure the trained model is used in production only when the future data adheres to the train/validation distribution."

Thật không may, cái chân lí đó không đúng với dữ liệu tài chính. Điều bạn thấy trong tương lai thường là khác biệt với những dữ liệu mà bạn quan sát/thu thập được. Sự thật mà nói thì đây là một vấn đề phổ biến khi áp dụng máy học vào các bài toán thực tế. Để chắc chắn rằng dữ liệu huấn luyện và kiểm thử có phân bố giống nhau, bạn phải chắc chắn rằng mô hình được huấn luyện xong chỉ được áp dụng vào sản phẩn thực tế khi dữ liệu trong tương lai phải tuân thủ tỉ lệ dùng để huấn luyện/xác thực.

"While most researchers have been mindful not to incorporate look-ahead bias into their research, almost everyone fails to acknowledge the issue of evolving data distributions."

Trong khi các nhà khoa học chưa lưu tâm đầy đủ đến việc kết hợp những "thiên kiến/thiên vị" nhìn thấy trước vào nghiên cứu của mình, số đông vẫn đang thất bại trong việc nhìn nhận sự phân bố của dữ liệu.

"Walk forward optimization is one option available to deal with this problem. This is relatively known among practitioners, but researchers often fail to mention this. However, even the *walk forward optimization is not a panacea for the underlying problem - it makes assumptions for how the future data distribution will look like. This is why walk forward approach doesn’t really get you to high accuracies - it just makes practical"

Hướng đến tối ưu hóa là một lựa chọn khả thi trong vấn đề trên. Điều này được biết một cách tương đối giữa các nhà "thực hành", nhưng các nhà khoa học vẫn còn gặp thất bại khi đề cập đến nó. Tuy nhiên, hướng đến sự tối ưu hóa không phải là một phương thuốc thần kì, nó chỉ là những giả định về việc sự phân bố của dữ liệu tương lai trông sẽ như thế nào. Điều này giải thích tại sao tối ưu không giúp bạn có kết quả tốt hơn, nó chỉ giúp bạn có những kết quả thực tế hơn mà thôi.

"Small Sample Sizes
There is often a requirement to do prediction from small datasets. One example is the labor statistics like the unemployment rate and nonfarm payrolls. They have one datapoint for each month. There is simply not enough history. An extreme case would be the financial crisis - there is just one datapoint for us to learn from."

Cỡ mẫu nhỏ (hay không đủ dữ liệu)
Có quá nhiều yêu cầu đối với việc dự đoán từ dữ liệu nhỏ. Ví dụ như thống kê lí thuyết về tỉ lệ thất nghiệp và "biên chế" phi nông nghiệp, mà người ta chỉ thu thập mỗi tháng một lần. Điều này đơn giản dẫn đến việc thiếu lịch sử để dự báo tương lai. Và đây cũng chính là một trường hợp "nguy hiểm" trong tài chính: ta chỉ có một điểm dữ liệu để mà học.

"This makes it really hard to apply automated learning approaches. One approach many people end up taking is to combine less frequent statistics with relatively frequent data. For example, you can combine nonfarm payroll with the daily stock returns and feed this combined dataset to the model. However, there is often a lot of oversight needed to remove the doubts about the quality of the model."

Và điều này làm cho việc áp dụng các cách tiếp cận tự động trở nên vô cùng khó khăn. Người ta đã nghĩ ra một cách khắc phục phần nào là cố gắng phối kết hợp các dữ liệu ít thường xuyên và tương đối thường xuyên (về mặt thống kê) với nhau. Ví dụ như bạn có thể kết hợp "biên chế" phi nông nghiệp với giá cổ phiếu cuối mỗi ngày rồi chuyển bộ dữu liệu này cho mô hình. Tuy nhiên, cần phải giám sát nhiều để có thể đập tan các hoài nghi về chất lượng của mô hình.

"Unquantifiable Data
One could argue that the timeline of our financial history is same as the human history itself. Unfortunately, it’s hard to convert that to quantifiable data - to a form that algorithms can understand. For example, even if we have a complete understanding of what happened during the great depression of the 1930s, it’s hard to convert it to a form that makes it usable for an automated learning process."

Dữ liệu phi định lượng/không xác nhận được
Một vài người có thể tranh luận rằng chuỗi thời gian trong lịch sử tài chính cũng giống như lịch sử của loài người vậy. Thật không may, thật khó để mà chuyển đổi các loại dữ liệu phi định lượng/không xác định được thành cái mà thuật toán hiểu được. Ví dụ như cho dù ta có đầy đủ kiến thức về thời đại suy thoái vào những năm 1930, ta vẫn không thể biên phiên dịch hết những hiểu biết đó trở nên hữu dụng với các quá trình học tự động.

"It’s Quite Complex
The complete financial prediction problem is really complicated. Various things drive prices at different scales:

High frequency trading and algorithmic trading are the main drivers of price at short intervals (< 1 day).
Opening and closing prices have their own patterns - both in stocks and futures - the two asset classes I have worked with.
News and rumors are the driving forces when it comes to multi-day horizons. Specific company news can happen at any time without any prior notice. However, the timeline for some events is known beforehand. Company result schedule, as well as the economic data calendar, are known beforehand.
Value investing and economic cycles matter the most when it comes to price changes at a multi-year range."

Nó thật sự phức tạp:
Vấn đề dự đoán một cách đầy đủ trong tài chính là thật sự phức tạp. Những nguyên nhân khác nhau khiến ta phải trả giá cho các quy mô khác nhau là:

Giao dịch tần số cao và giao dịch có quy tắc là những cái giá cho quãng thời gian ngắn (<1 ngày),
Giá mở của và đóng cửa có quy luật riêng của chúng trong cả đầu từ và chứng khoán, hai lĩnh vực mà tôi đã có nhiều năm kinh nghiệm,
Tin tức và tin đồn là động lực khi chúng kéo dài qua nhiều ngày. Tin tức bất kì về công ti có thể xuất hiện không báo trước bất cứ lúc nào. Tuy nhiên, lịch trình của một số sự kiện thì vẫn biết trước. Lộ trình kết quả của công ti cũng như lịch trình các dữ liệu kinh tế đều có thể biết trước,
Giá trị đầu tư và các chu kì kinh tế là những thách thức lớn khi chúng làm thay đổi giá cả trong nhiều năm.

"Mixture of experts can be used to combine the models from different scales - but, this is a hard problem as well. (Please note that mixture of experts is a very common technique to combine the models from the same scale - almost all quant asset management firms employ this technique.)"

Nhóm kết hợp các chuyên gia có thể được thuê để phố hợp các mô hình ở những quy mô khác nhau, tuy nhiên đây cũng là một vấn đề khó. (Xin lưu ý rằng nhóm chuyên gia kết hợp là một phương án phổ dụng để phối hợp các mô hình cùng quy mô - hầu như các công ty quản lí tài chính đều áp dụng kĩ thuật này)

"Partially Observable Markov Decision Process
I like to think of the price time series as a Partially Observable Markov Decision Process (POMDP). No one really has a complete picture at any point in time. You don’t know what will happen tomorrow - you still have to make a decision about your trade. The information you have is quite minimal. At the same time, the distribution of data is constantly changing."

Quy trình quan sát riêng phần quyết định Markov
Tôi thường có xu hướng xem chuỗi biến động giá cả qua thời gian như một quy trình quyết định Markov riêng phần quan sát. Không một ai có một hình dung đầy đủ tại một thời điểm bất kì. Bạn không thể biết điều gì sẽ xảy ra ngày mai trong khi phải quyết định chiến lược kinh doanh. Thông tin mà bạn có thì quá ít, mà phân bố dữ liệu thì liên tục thay đổi.

"I have tried to apply the reinforcement learning approaches to financial problems. Even though I simplified the problem (i.e. the state and the action space) extremely, it just couldn’t learn anything useful. I spent weeks debugging why it doesn’t work - turned out the RL algorithms need enough predictability to being with."

Tôi đã cố gặp áp dụng kĩ thuật học tăng cường (RL - reinforcement learning) vào các vấn đề tài chính. Ngay cả khi đã đơn giản hóa vấn đề (về trạng thái và không gian tác động) đi rất nhiều, thì kĩ thuật này vẫn không học được gì hữu dụng. Tôi đã mất hàng tuần để cố gắng khắc phục - việc áp dụng thuật toán học tăng cường đòi hỏi có đủ tính dự báo trước được của dữ liệu.

"Similarities to Recommender Systems
ML is applicable in very diverse domains. Out of all of them, I find recommendation systems to be the closest cousin of financial prediction problems. Comparision with recsys brings out the difficult aspects of underlying problems."

Các điểm tương đồng với hệ thống gợi ý:
Học máy (ML) được ứng dụng trong các lĩnh vực khác nhau. Trong đó tôi tìm thấy hệ thống gợi ý gần như có họ hàng với các bài toán dự báo tài chính. Việc so sánh với các hệ thống như vậy phần nào phơi bày các khía cạnh tiềm ẩn của vấn đề.

"Both have relatively lower accuracy. Let’s consider the Netflix example. Netflix shows at least 20 movie options on the main page. So for each recommendation, the average likelihood of a user choosing to watch a movie is < 1/20. There is a “less than” sign because the user might just drop off without watching anything. Similarly, most of the binary classification problems in financial time series have accuracies hovering around 50%."

Cả hai đều có độ chính xác tương đối thấp. Thử xem xét ví dụ của Netflix. Netfix đưa ra ít nhất 20 lựa chọn cho các bộ phim ở trang chính. Như vậy đối với mỗi bộ phim, khả năng được người dùng chọn để xem là ít hơn 5%. Ở đây nói ít hơn vì người dùng có thể bỏ qua tất cả và không xem gì. Tương tự như thế, hầu hết các dự báo nhị phân trong chỗi dữ dữ liệu tài chính theo thời gian để có xác suất đúng vào khoảng 50%.

"Both have a lot of noise in the data. Noise to signal ratio is very high in both cases. Noise is high in the financial time series because so many different factors affect the prices. Recsys datasets contain noise (pdf) because users’ browsing is often noisy - a user can visit a specific Amazon product page for absolutely no intention of buying anything from that category - this ends up adding noise."

Cả hai đều có nhiều nhiễu trong dữ liệu. Và tỉ lệ ảnh hưởng của nhiễu là rất lớn. Nhiễu quá cao trong chuỗi dữ liệu tài chính qua thời gian vì có quá nhiều yếu tố tác động. Nhiễu trong hệ thống gợi ý cũng cao không kém vì hành vi người dùng vốn dĩ chứa sẵn nhiễu. Người ta có thể xem một trang sản phẩm bất kì từ Amazon mà không hề có ý định mua - điều này gây ra nhiễu.

"Both have seasonalities in their datasets. Purchase patterns (i.e. product sale distribution) on Amazon during the holidays would be different from the rest of the year. Same applies other recsys problems: e.g. movie interest and youtube video choice would also depend on the time of the year. Financial data also has seasonality baked into it, the most common seasonality being the economic cycles."

Dữ liệu của cả hai đều có tính mùa vụ. Quy luật mua hàng (hay phân bố của sản lượng bán ra của sản phẩm) trên Amazon trong các kì nghỉ sẽ khác với phần còn lại trong năm. Vấn đề cũng tương tự với các mô hình dự báo khác: sở thích xem phim hay việc chọn lựa video từ Youtube đề phụ thuộc thời gian trong năm. Dữ liệu tài chính luôn chứa đựng tính mùa vụ trong nó, mà ta có thể hiểu qua khái niệm chu kì kinh tế/kinh doanh.

"Both have to deal with the unseen ‘events/items’. Amazon keeps adding new items to their catalog, Netflix keeps adding more titles to their list, new videos get uploaded to Youtube every minute. Recommender systems have to work around this problem - how to recommend items that were not a part of the training set. As mentioned in the Data Distribution section, financial data can contain totally different events from what was available during model training."

Cả hai đều liên đới các sự kiện và đối tượng chưa được nhìn thấy. Amazon luôn thêm các sản phẩm mới vào, Netflix thêm các tiêu đề phim, các video mới luôn được tải lên Youtube. Hệ thống gợi ý luôn phải đối mặt với điều này - làm thế nào để gợi ý một sản phẩm chưa từng xuất hiện trong tập huấn luyện. Như đã nói trong phần phân bố dữ liệu ở trên, dữ liệu tài chính có thể chứa đựng những sự kiện hoàn toàn khác với những cái khả dụng/có sẵn trong quá trình huấn luyện.

"Both have to combine different types of data for model training. Youtube has some both discrete features like “the list of last N videos watched” and it also has continuous features like “the watch time for the last video”. Similarly, a financial dataset can consist of higher frequency prices as well as lower frequency economic numbers."

Cả hai đều phải kết hợp các kiểu dữ liệu khác nhau trong quá trình huấn luyện. Youtube có cả những dữ liệu rời rạc kiểu "danh sách N video đã xem" và dữ liệu liên tục kiểu "lượng thời gian xem video cuối cùng". Tương tự như thế, dữ liệu tài chính có thể chứa đựng chỉ số giá cả tần số cao bên cạnh các số liệu khác ít biến động hơn.

"Closing Thoughts
If there is one thing you take away from this post, let it be this: Financial time-series is a partial information game (POMDP) that’s really hard even for humans - we shouldn’t expect machines and algorithms to suddenly surpass human ability there."

Vài suy nghĩ kết thúc:
Nếu có điều gì bạn lưu tâm tới bài viết này, thì hãy nhớ là: Chuỗi dữ liệu tài chính-thời gian là một phần của lí thuyết trò chơi (POMDP Quá trình quyết định Markov riêng phần quan sát) mà hiện vẫn còn khó hiểu với con người. Do đó chúng ta không nên quá trông mong rằng máy móc và các thuật toán có thể đột nhiên vượt qua khả năng của con người.

"What these algorithms are good at is the ability to unemotionally spot a hardcoded pattern and act on it - this unemotionality is a double-edged sword though - sometimes it helps and other times it doesn’t. The simple pattern recognition cases where it has helped the most have all been exhausted. The next stage of recognizing patterns in the financial time series through unsupervised learning remains an elusive dream."

Điều mà các thuật toán làm tốt là khả năng tìm ra các mẫu cứng/mô hình không bị tác động bởi cảm xúc của con người và có thể tác động trên các mẫu/mô hình đó. Sự không phụ thuộc cảm xúc này lại là con dao hai lưỡi, đôi khi có tác dụng, đôi khi không. Những mô hình đơn giản có thể giúp ích được thì đã bị vét cạn. Do đó thời kì tiếp theo trong nhận diện mẫu/mô hình trong phân tích dữ liệu thời gian-tài chính bằng các thuật toán học không giám sát vẫn còn là những giấc mơ xa xôi.

Chuyện một cuộc thi

Phải nói thật rằng với CNTT mình không hoàn toàn chân ướt chân ráo, nhưng nói giỏi cũng không, cũng không biết mình đứng ở đâu trong làng công nghệ. Nói về coding, không ăn ai, quy trình, không bằng ai, giải thuật, còn thua quá nhiều người. Mình đứng ở đâu đó trong làng nghiên cứu, nghe người ta nói, người ta viết và cố gắng hiểu thấu vấn đề.

Trong quá trình học hỏi thì dự thi cũng là một phương pháp mà mình lựa chọn. Đi thi để biết mình đứng ở đâu và thiên hạ người ta đã làm được gì rồi. Với tâm thế đó khi mấy đứa em rủ tham gia Hackday 2018 của VNG và AWS tổ chức, mình tham gia ngay không ngại ngần gì. Đăng kí nộp ý tưởng đâu vào đó rồi thì có người rút lui mất, hình như là họ ngại trên cuộc chiến nhân lực. Thôi thì kệ vậy, mình không xác định gì nhiều, đi cho biết.

Phải nói là ngại và nhục không thể tưởng tượng được. Người ta chuẩn bị sẵn mọi thứ cả, mình có cảm giác như họ code hết rồi, chỉ là chờ ngày đó lên tinh chỉnh và bố cáo với bà con thiên hạ là người ta dùng các công cụ nào của AWS. AWS là gì thì một ngày không xa mình sẽ giải thích cụ thể, còn bây giờ tóm ngắn lại nó là điện toán đám mây, là cái mà người ta đa muốn kéo như làm lễ cầu mưa.

Lại nói chuyện đội của mình thì chuẩn bị một ý tưởng khủng quá, đọc và nhận diện các model sản phẩm trong một tờ tạp chí. Mô hình của AWS chỉ hỗ trợ nhận diện người, vật, xe, cây, hoa ... nói chung ở cấp độ cơ bản, còn cấp độ chi tiết như ý tưởng của đội nhà thì không đáp ứng được. Vậy nên đội chuyển sang dùng sức mạnh điện toán đám mây, hòng huấn luyện luôn mô hình trên đó. Các mô hình máy học có sẵn thì không hỗ trợ thuật toán, cài thuật toán thì không xin được máy để chạy. Loay hoay cả buổi chiều đổi ý tưởng, chuẩn bị dữ liệu thì bị lỗi ngay phần đọc dữ liệu, thế là hết nguyên ngày.

Cuối cùng thì đồng chí mạnh bạo chém gió nhất trong hội cũng không dám tay không giết giặc, không dám nộp bài mặc cho thời gian điểm về đoạn kết thúc.

Không được trình bày thì đi nghe người khác trình bày. Nói chung ý tưởng cũng nhiều, dùng từ máy học, thị giác máy tính, mạng nơ ron tích chập, xử lí ngôn ngữ tự nhiên, chatbot, hệ thống gợi ý đủ cả. Chatbot gợi ý phối đồ cho chị em, áp dụng thuật toán học sâu phân tích các bình luận trên mạng xã hội để dự đoán giá cổ phiếu. Ý tưởng giành giải nhất là thu thập thông tin/kiến thức về tài chính. Mặc dù đây là một ngành đầy thách thức cho các thuật toán máy học.

Cuối cùng thì cũng ê mặt ngồi tới 11 giờ đêm, chờ tới chụp cái ảnh chung như trên và ra bề, tay không quên tham ô mấy gói cà phê pha sẵn từ cái hộp đã mở trước. Một ngày ngồi lì, không đi đâu, ăn uống có người phục vụ cả. Một ngày ở tù, ở tù trong niềm đam mê của mình.

29.06.2018

Thứ Sáu, 29 tháng 6, 2018

Thế mà cũng hơn một năm thôi đèn sách trở về từ xứ lạ. Một năm làm quen với lĩnh vực mới. Không mới hoàn toàn nhưng mà quá nhiều. Quá nhiều thứ để học và quá nhiều thứ sinh ra, thay đổi và mất đi hàng ngày. Công nghệ là vậy, không tỏa sáng được thì sẽ không bắt kịp thời đại và tèo ngay.

Sà ngay vào cái lĩnh vực đang hot của xã hội, khoa học dữ liệu, nơi nơi nghe trí tuệ nhân tạo, học máy, học sâu, vân vân và mây mây. May có chút nền tảng của môn toán ứng dụng ngày xưa và cái độ chịu khó của mình mới chịu nổi. Thật ra cũng đã thử tìm việc, học một cái chứng chỉ cho ngành nghề được đào tạo, nhưng rồi cũng thôi không còn hí hửng khi người ta từ chối từ lần thứ nhất. Lần thứ nhất và duy nhất, một phép thử thôi, đủ để quyết định chuyển hướng tương lai.

Vào công ty thứ nhất mò mẫm từng ngày, may có mấy công thức toán là thứ ngôn ngữ quen thuộc để nhai và ngẫm nên ít ra còn cảm thấy mình hữu dụng, chứ mà code chay chắc mình tèo. Làm được 6 tháng, qua hai giai đoạn của một dự án chạy theo mô hình mới thì rời anh em quen, tham gia môi trường mới. Lúc ra đi cứ bảo chị quản lí là hãy cho em có cái sự khác biệt để em còn so sánh. Giờ lâu lâu vẫn nói chuyện với anh em cũ. Dù sao đi nữa họ là những người giúp mình những bước đầu tiên vào ngành mới, hẳn là sẽ khó quên lắm, bao giờ cũng thế.

Thôi lan man vậy, tối nay mới làm xong bài tập của cái khóa học trực tuyến, mừng rơn. Code mình viết y chang người ta, không sai một cái gì, kết quả trên máy riêng không khác một dấu cách. Vậy mà cứ nộp đi là đứt! May cuối cùng cũng làm xong, không thì áp lực lắm.
Mình còn một đống tài liệu phải đọc nữa! Trời ơi là trời!