Senior SRE Engineer
Dołącz do j‑labs i bądź odpowiedzialny za utrzymanie stabilności, wydajności i niezawodności kluczowych systemów bankowych.
B2B: 160 – 210 PLN netto/h
Lokalizacja: Kraków (hybryda)
O projekcie
- Utrzymanie stabilności, wydajności i niezawodności kluczowych systemów bankowych wspierających obszary Traded Market Risk oraz agregację ryzyka kontrahenta (Counterparty Agregation).
- Zespół SRE o dużym wpływie na organizację, który wspiera zarówno działania operacyjne w środowisku produkcyjnym, jak i ciągłe doskonalenie niezawodności systemów (aktywności RTB – Run the Bank oraz CTB – Change the Bank).
- Jako SRE będziesz dzielić swój czas pomiędzy reagowanie na incydenty i zgłoszenia serwisowe, a proaktywne działania w zakresie niezawodności, monitorowania oraz automatyzacji.
- Będziesz ściśle współpracować z zespołami w Polsce, Chinach i Meksyku, odgrywając kluczową rolę w budowaniu fundamentów praktyk SRE w środowisku klasy enterprise, o dużej skali działania.
- Stack technologiczny: Linux, Scripting (Python/Bash), CI/CD (Jenkins), Grafana/Prometheus/Splunk, Incident Management, SQL (Clickhouse, PostgreSQL), GCP, mikroserwisy, REST, Terraform, Ansible + zespół utrzymuje infrastrukturę wokół aplikacji dostarczanych przez zewnętrznego dostawcę, zorientowanych na Java 17/21 i Spring.
- Praca hybrydowa: 4-8x w miesiącu praca z biura w Krakowie.
Twoje zadania
- Analizowanie, diagnozowanie i rozwiązywanie złożonych incydentów produkcyjnych w systemach rozproszonych.
- Współpraca z zespołami wsparcia, zespołami powiązanymi (upstream/downstream) oraz dostawcami w celu szybkiego rozwiązania problemów i przeprowadzenia analizy przyczyn źródłowych (RCA).
- Udoskonalanie obserwowalności systemów z wykorzystaniem narzędzi takich jak Grafana, Splunk oraz niestandardowe rozwiązania alertujące.
- Udział w tworzeniu procedur zarządzania incydentami, runbooków oraz dokumentacji technicznej.
- Automatyzacja powtarzalnych zadań i ograniczanie pracy operacyjnej poprzez skrypty lub ulepszenia infrastruktury.
- Wkład w tworzenie i udoskonalanie SLA, SLO oraz metryk związanych z niezawodnością systemów.
- Udział w rotacji dyżurów SRE (możliwe dyżury on-call w rotacji międzynarodowej, bez weekendów) oraz w przekazywaniu incydentów.
Wymagania
- Ponad 3 lata doświadczenia na stanowisku Site Reliability Engineer (SRE).
- Bardzo dobra znajomość systemów Linux, koncepcji sieciowych oraz architektur rozproszonych.
- Doświadczenie w zarządzaniu infrastrukturą on-premise oraz usługami w GCP.
- Znajomość REST API oraz architektury opartej na mikroserwisach.
- Dobra znajomość SQL – optymalizacja zapytań, indeksowanie i rozwiązywanie problemów z wydajnością baz danych ClickHouse i PostgreSQL.
- Doświadczenie w zarządzaniu incydentami, znajomość ścieżek eskalacji, współpraca z zespołami zdalnymi/międzynarodowymi.
- Praktyczne doświadczenie z narzędziami do monitorowania i logowania, takimi jak Grafana, Prometheus, Splunk itp.
- Dobre umiejętności w zakresie skryptowania lub programowania (np. Python, Bash).
- Doświadczenie w pracy z pipeline’ami CI/CD (Jenkins).
- Znajomość koncepcji ITIL, w tym zarządzania zmianami, incydentami i problemami.
- Poziom języka angielskiego min B2.
Mile widziane
- Doświadczenie z Infrastructure as Code (np. Terraform, Ansible).
- Znajomość systemów o dużym obciążeniu i zagadnień związanych z optymalizacją wydajności.
- Doświadczenie w sektorze bankowym lub usług finansowych.
- Znajomość narzędzi do chaos engineeringu lub testowania odporności systemów (fault-injection).
- Znajomość TPAM lub podobnych narzędzi do zarządzania uprzywilejowanym dostępem.