Segmentacja segmentacji nie równa

Jednym z założeń przyświecających pracy w narzędziach CAT, takich jak Trados, jest dzielenie tekstu na określone bloki. Z perspektywy tłumacza będą to najcześciej:

  • Zdania (domyślna opcja)
  • Akapity

Możliwości jest więcej, ale warto zrozumieć konsekwencje. O tym, jak tekst jest dzielony przez narzędzia CAT, decydują tzw. ustawienia segmentacji. Segmentacja, czyli dzielenie tekstu na osobne fragmenty, zależy od tzw. separatorów, czyli określonych znaków w tekście. Znak Entera to tzw. separator twardy, kończący bezwarunkowo fragment tekstu. Znak kropki również jest takim separatorem, choć z pewnymi wyjątkami (np. skróty). Separatorem może być w praktyce dowolny znak, zależnie od konfiguracji.

Spójrzmy na przykład:

Ala ma kota oraz psa. Ma również kredyt hipoteczny oraz sprawę sądową z bankiem. Lubi pić kawę i czytać książki.

Przy domyślnej segmentacji Trados lub inne CAT-y podzielą ten tekst na trzy osobne fragmenty odpowiadające pojedynczym zdaniom. Ma to sens i umożliwia poprawne przechowywanie segmentów w pamięci tłumaczeń.

W tekstach prawnych i prawniczych najczęściej do czynienia mamy z długimi zdaniami wielokrotnie złożonymi. W takim przypadku tekst warto przechowywać w większych blokach. Jest to jeden z niewielu przypadków, w których segmentacja w oparciu o akapity ma sens.

Segmentacja tekstu wpływa na na kilka aspektów pracy tłumacza:

  • W jakich porcjach tekst źródłowy zostanie udostępniony do tłumaczenia.
  • Jak wiele podobnych segmentów uda się odnaleźć w pamięci tłumaczeń.

Jeśli w pamięci tłumaczeń znajdują się pojedyncze zdania, skorzystanie z segmentacji akapitowej sprawi, że nie znajdziemy zbyt wielu podobieństw (proporcjonalnie tekst nie będzie wykazywać podobieństwa, ponieważ narzędzia CAT nie rozumieją, że mamy do czynienia z fragmentem akapitu).

Jednym z większych problemów związanych z segmentacją tekstu jest kopiowanie treści między różnymi środowiskami. Często zdarza się, że formatowanie z jednego środowiska zostaje błędnie zachowane w innym. Przykładem może być choćby kopiowanie z PDF, gdzie w niektórych przypadkach mogą pojawić się znaki łamania wiersza (tzw. twarde Entery). Będą one powodować, że zdania zostaną pocięte na kawałki, co wpłynie na liczbę podobnych segmentów odnajdywanych w pamięci tłumaczeń oraz na komfort pracy.

Ciekawym przykładem może być sytuacja, w której separatory nie są zachowywane zależnie od formatu. Wyobraźmy sobie format HTML.

<p>To jest podzielony

akapit, ale HTML

 wyświetli go

jako jedno zdanie.</p>

Jeśli ten fragment będzie częścią pliku HTML, przeglądarka wyświetli go jako jedno zdanie, ponieważ język HTML ignoruje znaki podziału wiersza inne niż te, które wynikają bezpośrednio z tego języka. Możemy nacisnąć „Enter” wiele razy, a i tak zostanie to zignorowane.

Gdy jednak taki fragment tekstu trafi do narzędzia CAT, każdy „Enter” na końcu będzie mieć wpływa na kawałki tekstu. Te zaś mogą sprawić, że cała korzyść płynąca z pracy z bazą danych (pamięcią tłumaczeń) zostanie zniwelowana. Co więcej, również bieżące tłumaczenia nie zostaną poprawnie zachowane. Gdy w przyszłości otrzymamy ten sam tekst bez błędnych podziałów wiersza, nie znajdziemy dla nich podobnych segmentów w pamięci tłumaczeń (ponieważ przez błąd w źródle będą przechowywane jedynie fragmenty zdań).

Segmentacja jest ciekawym wyzwaniem w świecie tłumaczeń i, choć funkcjonują już od lat standardy takie jak SRX, nadal nie jest obszarem, który można ignorować. Jest jednym z najistotniejszych czynników wpływających na komfort pracy, czas realizacji i koszt zleceń.