Jak sprawnie uruchomiliśmy analitykę AI?

TL;DR:
Oczyściliśmy modele danych, jako efekt uboczny zaoszczędziliśmy do 20% kosztów przetwarzania danych i osiągnęliśmy 100% spójności odpowiedzi w Hex threads

Pracowaliśmy z klientem, który wdrożył już analitykę opartą na AI na warstwie hurtowni danych, korzystając z Hex threads — na papierze wszystko wyglądało poprawnie: solidne modele dbt, uporządkowane dane i warstwa AI, która powinna szybko i niezawodnie odpowiadać na pytania biznesowe.

W praktyce wyniki były na tyle niespójne, że interesariusze przestali im ufać, bo nawet jeśli część odpowiedzi była od czasu do czasu poprawna, brak spójności uniemożliwiał wykorzystanie systemu w realnym podejmowaniu decyzji.

Na początku wyglądało to na ograniczenie AI.

Nie było.

Rzeczywisty problem

Problem nie leżał w modelu, lecz w warstwie danych, na której działał.

Hurtownia zawierała wiele modeli opisujących bardzo podobne koncepcje, często z niespójnym nazewnictwem i bez jasnej informacji, który z nich traktować jako źródło prawdy. Często widzieliśmy modele takie jak dim_accounts, fact_accounts, accounts czy dim_users__accounts — każdy częściowo nakładał się na pozostałe, ale bez wyraźnie zdefiniowanych granic.

Z ludzkiej perspektywy da się to ogarnąć, mając wystarczający kontekst.

Z perspektywy AI tworzy to niejednoznaczność, bo nie ma jasnego sygnału, który model reprezentuje właściwą definicję encji lub metryki.

Do tego było bardzo mało modeli semantycznych i ograniczona dokumentacja w YAML, więc nawet gdy same dane były technicznie poprawne, brakowało im kontekstu biznesowego potrzebnego do spójnej interpretacji.

AI nie zawodziło.

Zgadywało.

Co zrobiliśmy

Zamiast poprawiać prompty lub zmieniać model, skupiliśmy się wyłącznie na warstwie danych.

Przeorganizowaliśmy projekt, wprowadzając jasną strukturę z właściwym podziałem między tabele faktów i wymiarów, ustandaryzowaliśmy konwencje nazewnictwa, aby modele były przewidywalne i jednoznaczne, oraz rozbudowaliśmy warstwę semantyczną, aby jawnie definiować metryki i relacje.

Jednocześnie uzupełniliśmy brakującą dokumentację YAML na poziomie modeli i kolumn oraz wdrożyliśmy narzędzie ułatwiające utrzymanie tych metadanych w przyszłości.

Najważniejszą zmianą było jednak uproszczenie.

Usunęliśmy redundantne i nakładające się modele, zmniejszając liczbę encji, o które system musiał rozumować, i sprawiając, że pozostałe stały się znacznie czytelniejsze.

Rezultat

Po tych zmianach ten sam system AI zaczął generować spójne i wiarygodne odpowiedzi, bo nie musiał już rozwiązywać niejednoznaczności między wieloma podobnymi modelami.

Dokładność wzrosła, ale co ważniejsze — wróciło zaufanie interesariuszy, co ostatecznie decyduje o tym, czy taki system jest naprawdę użyteczny.

Jako dodatkowy efekt uproszczenie modelu danych obniżyło koszty hurtowni o około 10–20% na uruchomienie.

Wniosek

Analityka AI nie zawodzi dlatego, że model jest słaby.

Zawodzi dlatego, że dane są niejednoznaczne.

Jeśli system generuje niespójne odpowiedzi, rozwiązaniem rzadko jest dodanie większej ilości danych lub zmiana narzędzi — raczej poprawa struktury, nazewnictwa i semantyki przy jednoczesnym ograniczeniu zbędnej złożoności.

Jak sprawnie uruchomiliśmy analitykę AI? został pierwotnie opublikowany w Lortech Solutions Blog na Medium, gdzie rozmowa trwa dalej dzięki podświetleniom i odpowiedziom czytelników.

Jak sprawnie uruchomiliśmy analitykę AI?

Rzeczywisty problem

Co zrobiliśmy

Rezultat

Wniosek

Observability on-prem dla zadań w tle z OpenTelemetry i SigNoz

Jak konsulting ułatwi Ci życie?

Nie wiesz, na co idą wydatki na hurtownię danych?