Autorska porównywarka opracowana przez dział Samsung Research obsługuje wielojęzyczne scenariusze produktywności, wypełniając luki w istniejących testach sztucznej inteligencji. Samsung prezentuje porównywarkę TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) opracowaną przez dział Samsung Research w celu prowadzenia ocen produktywności sztucznej inteligencji. Porównywarka zawiera kompleksowy zestaw wskaźników do analizy sprawności dużych modeli językowych (LLM) w rzeczywistych zastosowaniach służących poprawie produktywności w miejscu pracy. Uwzględnia ona różne scenariusze dialogowe i warunki wielojęzyczne, by wydać rzetelną ocenę. Opierając się na wykorzystaniu sztucznej inteligencji w samej firmie Samsung w celu zwiększania wydajności, TRUEBench ocenia typowe zadania realizowane w firmach, takie jak generowanie… Czytaj dalej →